《深入浅出强化学习原理入门》学习笔记(五)基于Python实现策略迭代方法和值迭代方法
1、策略迭代方法
python代码包括策略评估和策略改善两个子程序,两个子程序交替运行,使得策略逐渐优化收敛。
策略评估
包含两个循环。第一个循环为1000次,保证值函数收敛到该策略对应的真实值函数。第二个函数为整个状态空间的扫描,保证状态空间的每一点的值函数都得到估计。在第二个循环中用到了系统的模型,因为模型已知,所以智能体无需实际采用这个动作就可以确切知道采用相应策略后的下一个状态。
策略改善
包含两个循环,外循环对整个状态空间进行遍历,内循环对整个动作空间进行遍历,通过动作值函数得到贪婪策略。