李宏毅机器学习（29）

最新推荐文章于 2024-08-27 15:16:31 发布

Baigker

最新推荐文章于 2024-08-27 15:16:31 发布

阅读量127

点赞数

分类专栏：李宏毅机器学习课程笔记文章标签：机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Baigker/article/details/119825829

版权

本文介绍了Policy Gradient的原理，并通过数学推导解释了Off-Policy学习的优势。接着，文章详细阐述了Proximal Policy Optimization（PPO）算法，它是PG的一种改进，通过引入KL散度惩罚项来限制新旧策略之间的差异，从而实现更稳定的训练。PPO通过clip操作限制比例，确保策略更新不会过大。此外，还提及了PPO2，它进一步优化了策略更新的约束方式。

摘要由CSDN通过智能技术生成

Proximal Policy Optimization近端策略优化算法

PPO（Proximal Policy Optimization）是PG（Policy Gradient）的进阶版。
因此，在学习PPO之前，先复习一下PG的内容。

Policy Gradient

On-Policy和Off-Policy

在这里插入图片描述
为什么要Off-Policy呢？如果我们可以让 $π_{θ'}$ 去收集数据，让 $π_{θ}$ 去做训练，那我们就可以把 $π_{θ'}$ 收集到的数据使用很多次，极大地提升了效率。

我们这里做一个数学推导。现有一个函数 $f (x)$ 遵从 $p (x)$ 的分布。、但现在我们为了把它变成off-policy，就不能直接从 $p (x)$ 中去直接采样。因此我们可以找一个分布 $q (x)$ 将其变形一下。
在这里插入图片描述
但这存在一个问题：尽管前后两项期望是一样的，但他们的方差是不一样的，存在一个

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅机器学习（29）

Proximal Policy Optimization近端策略优化算法PPO（Proximal Policy Optimization）是PG（Policy Gradient）的进阶版。因此，在学习PPO之前，先复习一下PG的内容。Policy Gradient往期复习On-Policy和Off-Policy为什么要Off-Policy呢？如果我们可以让πθ′π_{θ'}πθ′去收集数据，让πθπ_{θ}πθ去做训练，那我们就可以把πθ′π_{θ'}πθ′收集到的数据使用很多次，极大地
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。