马尔可夫决策过程(四)

马尔可夫决策过程(四)

 

最近学习了MDP,查看一些资料,本文翻译了维基百科http://en.wikipedia.org/wiki/Markov_decision_process。有许多地方翻译的不好,有翻译错的地方请多多谅解!欢迎给我留下意见,我会尽快更改!

 

 

值得注意的变种

值迭代

在值迭代(贝尔曼1957年)中,也被称为逆向归纳法 π 数组是不被使用的,而是当需要时就计算π(s) 的值。

代入 π(s) 的计算结果到 V(s) 得到下面的合并步骤:

 

此更新的规则是针对所有状态 s 重申的,直到每个状态收敛到左边等于右边(Bellman方程)。

策略迭代

在政策迭代(霍华德1960年)中,第一步是进行一次,然后重复步骤二直到收敛。然后,第一步是重新执行一次等。

而不是重复步骤二的衔接,可能像一个线性方程组集合的规划和求解。

这种变体的优点是有一个明确的终止条件:针对所有状态当数组 π 在应用步骤1的过程中不会改变,则算法结束。

修改策略迭代

在修改后的策略迭代(van Nunen1976; PutermanShin 1978),第一步是进行一次,然后第二步是反复多次。然后,第一步是重新执行一次等。

优先扫除

在这种变异中,所有步骤是优先适用于在某些方面重要的状态---无论是基于算法的(对 V 有大的变化或那些状态附近的π ),或基于使用的(这些状态附近初始化状态,或引起人或程序中算法兴趣的)。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值