MDP(MarkovDecisionProcess,马尔卡夫决策树)实现总结

MDP算法简介:首先MDP算法由五个单元组成(S、A、Psa(s')、R、G)

S:代表状态集合,即整个事件有多少中可能的状态

A:代表每个状态下的所有可能的行为

Psa(s'):代表在状态s下采取行为a转移到s'的状态转移概率

R:代表的是回报函数(reward function),指到达某个状态获得的利弊

G:是一个大于0小于1的常数系数,越接近1表示该策略行为越看重未来的获利,越接近于0表示该策略越看重当前行为的获利

以上五个单元的关系简单来说就是:在状态集S中根据Psa(s')和R寻找一个行为集合(策略),使该行为的获利最大,用G控制未来获利与当前获利之前的比重关系

为了实现上述寻找最大获利策略的目的,有值函数替代法(value iteration)和策略替代方法(policy iteration)

值函数迭代法:

  首先是值函数的定义:

 

状态1为目标状态,状态2为避免状态,状态3为不存在状态

    首先1状态和2状态的值在整个替代过程中不能改变,否则值函

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值