强化学习笔记------第五章----近端优化策略（PPO）（超详细）

最新推荐文章于 2024-04-04 10:20:13 发布

深度睡眠小能手

最新推荐文章于 2024-04-04 10:20:13 发布

阅读量2.9k

点赞数 1

分类专栏：笔记文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/w18165269429/article/details/115698431

版权

本章数学问题太过复杂，建议去看看李宏毅老师这部分的内容，在此只贴出部分关于PPO的知识总结。

基于on-policy的policy gradient有什么可改进之处？或者说其效率较低的原因在于？
经典policy gradient的大部分时间花在sample data处，即当我们的agent与环境做了交互后，我们就要进行policy model的更新。但是对于一个回合我们仅能更新policy model一次，更新完后我们就要花时间去重新collect data，然后才能再次进行如上的更新。

所以我们的可以自然而然地想到，使用off-policy方法使用另一个不同的policy和actor，与环境进行互动并用collect data进行原先的policy的更新。这样等价于使用同一组data，在同一个回合，我们对于整个的policy model更新了多次，这样会更加有效率。

使用important sampling时需要注意的问题有哪些。
我们可以在important sampling中将 pp 替换为任意的 qq，但是本质上需要要求两者的分布不能差的太多，即使我们补偿了不同数据分布的权重，当我们对于两者的采样次数都比较多时，最终的结果时一样的，没有影响的。但是通常我们不会取理想的数量的sample data，所以如果两者的分布相差较大，最后结果的variance差距（平方级）将会很大。

基于off-policy的importance sampling中的 data 是从 $\theta$ ’sample 出来的，从 $\theta$ 换成 $\theta'$

最低0.47元/天解锁文章

深度睡眠小能手

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
强化学习笔记------第五章----近端优化策略（PPO）（超详细）

本章数学问题太过复杂，建议去看看李宏毅老师这部分的内容，在此只贴出部分关于PPO的知识总结。基于on-policy的policy gradient有什么可改进之处？或者说其效率较低的原因在于？经典policy gradient的大部分时间花在sample data处，即当我们的agent与环境做了交互后，我们就要进行policy model的更新。但是对于一个回合我们仅能更新policy model一次，更新完后我们就要花时间去重新collect data，然后才能再次进行如上的更新。所以我们的可以自
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。