分为策略评估和策略改进两个部分
- 策略评估的目的是证明策略评估的值函数是会收敛到当前给定策略 π \pi π的真实值函数。需要证明这个贝尔曼算子是一个压缩映射,然后利用巴纳赫不动点定理,即可得到 Policy Evaluation 的收敛保证。
- 策略改进的目的是获得比当前迭代步更好的策略
参考blog:
https://www.cnblogs.com/moonout/p/17804874.html
分为策略评估和策略改进两个部分
https://www.cnblogs.com/moonout/p/17804874.html