基于DP的MDP中的值迭代和策略迭代的区别
值迭代与策略迭代都是强化学习中的动态规划方法(DP), 它们的框架相同,都包含两个过程——策略估计和策略改进。
不同的是策略迭代是在策略评估之后,等到值函数收敛之后再进行策略改进,而值迭代是在策略评估的时候,只要值函数改变,就直接进行策略改进。我们用伪代码比较两者的区别。
策略迭代的收敛速度更快一些,但是要对整个状态空间进行遍历,很吃计算,所以在状态空间较小时,最好选用策略迭代方法。当状态空间较大时,选用值迭代的方法计算量更小一些。
策略迭代:
值迭代:
分别用策略迭代和值迭代玩100个状态的二维迷宫游戏,得到值迭代需要14次。
而策略迭代中评估需要1次,改进需要10次。