Chapter 4：动态规划

最新推荐文章于 2020-05-09 17:58:35 发布

jeanzer0

最新推荐文章于 2020-05-09 17:58:35 发布

阅读量176

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37139992/article/details/98087060

版权

本文详细介绍了强化学习中的动态规划（DP）算法，包括Policy Evaluation、Policy Improvement、Policy Iteration和Value Iteration。此外，还探讨了异步DP、广义Policy Iteration以及DP的效率问题，阐述了DP在解决大规模问题时的有效性和优势。

摘要由CSDN通过智能技术生成

Chapter 4：动态规划

4.1 Policy Evaluation（预测）
4.2 Policy Improvement（改进）
4.3 Policy Iteration
4.4 Value Iteration
4.5 拓展讨论

经典DP算法在强化学习中的用途有限，因为这些算法假设一个完美的模型，并且计算费用很高，但经典DP算法在理论上仍然很重要。本书剩下的所有方法都可以被视为尝试实现与DP相同的效果，只需要更少的计算并且没有假设完美的环境模型。

DP和强化学习的关键思想是使用value function来搜索好的策略。本章要介绍如何使用DP来计算第3章中定义的value function（式3.19或式3.20）

4.1 Policy Evaluation（预测）

policy evaluation： 针对任意一个策略 $\pi$ ，计算state-value function $v_\pi$ ，也叫作prediction problem。

第三章已经介绍过了state-value function：
在这里插入图片描述
用式（4.4）的Bellman方程作为更新规则可以逐步逼近：
iterative policy evaluation:

算法伪码：（不太懂）
终止条件： $\max_{s\in\mathcal S} |v_{k+1}(s)-v_k(s)|$ 足够小

4.2 Policy Improvement（改进）

计算policy 的state-value function是为了找到更好的策略。
假设对于任意确定的policy $\pi$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。