PPO，Proximal Policy Optimization Algorithms 论文阅读

最新推荐文章于 2024-10-09 01:30:00 发布

空苍地樱

最新推荐文章于 2024-10-09 01:30:00 发布

阅读量1.7k

点赞数 1

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/KongCDY/article/details/102488954

版权

强化学习专栏收录该内容

6 篇文章

订阅专栏

PPO算法基于TRPO目标函数简化，使用一阶导数更新策略，允许多次迭代使用现有数据。通过将KL散度作为惩罚项加入目标函数，简化求解过程。PPO引入clip技巧限制策略更新幅度，确保更新稳定，同时提出动态调整惩罚权重方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

TRPO的优化方式比较复杂，对于某些模型结构无法使用，例如模型使用了dropout或policy跟value function模型参数进行了共享。PPO算法基于TRPO的目标函数进行了简化，使用目标函数的一阶导数进行policy的更新，并且更新时可以进行多次迭代，重复使用现有的数据更新policy。

先看TRPO的目标函数（是surrogate的）

其复杂的优化方式主要来源于那个hard的KL散度约束，为了简化求解，可以将约束去掉，将KL作为惩罚项加到目标函数中，成为如下形式：

优化这个公式就很简单了，可以使用梯度的方法去优化。这个目标函数存在的问题就是那个惩罚权重 $\beta$ 不太好确定，这也是为什么TRPO没有采用这个目标函数的原因。作者给出了个动态调整 $\beta$ 的方法。先设定一个KL散度的目标值 $d_{targ}$ ，通过比较当前KL散度值与 $d_{targ}$ 的大小来动态调整 $\beta$ ，公式如下：

还是很直接的， $d$ 小了就减小KL的惩罚，大了就增大KL的惩罚。但这个不是本文提出的最好方法，作者发现比这个更好的方法是使用如下目标函数，对TRPO目标函数进行clip：

其中 $r_{t}\left ( \theta \right )$ 是重要性采样的比值 $r_{t}\left ( \theta \right )=\frac{\pi_{\theta }\left ( a_{t}\mid s_{t} \right )}{\pi_{\theta old}\left ( a_{t}\mid s_{t} \right )}$ ，因此 $r\left ( \theta_{old} \right )=1$ 。上面公式将 $\hat{A_{t}}$ 前的权重clip到 $\left ( 1-\epsilon ,1+\epsilon \right )$ ， $\epsilon$ 是设定的一个参数，论文用 $\epsilon =0.2$ 。当 $\hat{A_{t}}> 0$ 时，需要增加 $\pi_{\theta }\left ( a_{t}\mid s_{t} \right )$ ，因此 $r_{t}\left ( \theta \right )> 1$ ，其上界为 $1+\epsilon$ ，如下图左边。当 $\hat{A_{t}}< 0$ 时，需要降低 $\pi_{\theta }\left ( a_{t}\mid s_{t} \right )$ ，因此 $r_{t}\left ( \theta \right )< 1$ ，其下界为 $1-\epsilon$ ，如下图右边。下图红点为起始的 $r$ 值，也就是 $r\left ( \theta_{old} \right )$ ， $L^{CLIP}$ 不会大于设定值。可以理解成 $r_{t}\left ( \theta \right )$ 超过阈值的那些数据就不会用到了，梯度会倾向于更新policy使得policy调整 $r_{t}\left ( \theta \right )$ 在阈值内的那些数据的结果。