深度强化学习（DRL）算法 2 —— PPO 之 Clipped Surrogate Objective 篇

阿姆姆姆姆姆姆姆

已于 2024-02-21 23:49:51 修改

阅读量1.4k

点赞数 15

分类专栏：强化学习文章标签：算法深度学习 chatgpt gpt-3

于 2024-02-16 00:02:41 首次发布

本文链接：https://blog.csdn.net/quoniammm/article/details/136124438

版权

强化学习专栏收录该内容

15 篇文章 2 订阅

订阅专栏

本文介绍了深度强化学习中的PPO算法，它解决了REINFORCE算法中策略分离的问题，通过ClippedSurrogateObjective和CreditAssignment实现off-policy学习，并降低了Monte-Carlo评估带来的大方差。

摘要由CSDN通过智能技术生成

在之前的文章里介绍了深度强化学习（DRL）算法 1 —— REINFORCE，提出了两个缺点，其中缺点一，在后续提出的 DRL 算法 PPO 解决了，今天我们就来看看大名鼎鼎的 PPO 算法。

回顾

在 REINFORCE 算法里，用于产生 $\tau$ 的策略和用来学习的策略（on-policy）是同一个，导致 $\tau$ 不能复用，使得训练效率很低。那么直觉上，是不是把这两个策略分开来，一个用来产生 $\tau$ ，一个用来学习（off-policy），是不是就可以了呢？答案是，对的！PPO 也是这么做的，接下来，我们来看看算法描述（建议先阅读深度强化学习（DRL）算法 1 —— REINFORCE，文章接下来用文1指代这篇文章）。

算法描述

根据文1，最大期望回报表达如下：

$\bar{R}_{\theta} = E_{\tau\sim p_{\theta}(\tau)}[R(\tau)] = \sum_{\tau}p_{\theta}(\tau)R(\tau)$

现在我们希望有一个新的策略 q，用来产生 $\tau$ ，原有策略 p 用来学习，那么我们可以对 $\bar{R}_{\theta}$ 做如下修改：

$\bar{R}_{\theta} = \sum_{\tau}q_{\theta'}(\tau)\frac{p_{\theta}(\tau)}{q_{\theta'}(\tau)}R(\tau) = E_{\tau\sim q_{\theta'}(\tau)}[\frac{p_{\theta}(\tau)}{q_{\theta'}(\tau)}R(\tau)]$
（Importance Sampling）
为了写起来方便，我们用 g 来表示文1里的
$\nabla \bar{R}(\theta)$
，那么新的 g 如下：

$\nabla_{\theta} \sum_{\tau}q_{\theta'}(\tau)\frac{p_{\theta}(\tau)}{q_{\theta'}(\tau)}R(\tau) \\ \ \ = \frac{1}{m}\sum_{i=1}^{m}R(\tau^{(i)})\sum_{t=1}^{T}\frac{p_{\theta} (\tau^{(i)})}{q_{\theta'}(\tau^{(i)})}\nabla_{\theta}log\ p_\theta(a_{t}^{(i)}|s_{t}^{(i)}) \\ \ \ = \frac{1}{m}\sum_{i=1}^{m}R(\tau^{(i)})\sum_{t=1}^{T}\frac{p_{\theta}(\tau^{(i)})}{q_{\theta'}(\tau^{(i)})}\frac{\nabla_{\theta}p_\theta(a_{t}^{(i)}|s_{t}^{(i)})}{p_\theta(a_{t}^{(i)}|s_{t}^{(i)})} \\ \ \ = \frac{1}{m}\sum_{i=1}^{m}R(\tau^{(i)})\sum_{t=1}^{T} \frac{\prod_{t=0}^{T}p_{\theta}(a_{t}^{(i)}|s_{t}^{(i)})p(s_{t+1}^{(i)}|s_{t}^{(i)}, a_{t}^{(i)})} {\prod_{t=0}^{T}q_{\theta'}(a_{t}^{(i)}|s_{t}^{(i)})q(s_{t+1}^{(i)}|s_{t}^{(i)}, a_{t}^{(i)})} \frac{\nabla_{\theta}p_\theta(a_{t}^{(i)}|s_{t}^{(i)})}{p_\theta(a_{t}^{(i)}|s_{t}^{(i)})} \\ \ \ \approx \frac{1}{m}\sum_{i=1}^{m}R(\tau^{(i)})\sum_{t=1}^{T} \frac{\nabla_{\theta}p_\theta(a_{t}^{(i)}|s_{t}^{(i)})}{q_\theta'(a_{t}^{(i)}|s_{t}^{(i)})}$

这里对 g 取了近似，那么上面的
$\bar{R}_{\theta}$
也可以近似为：

$\bar{R}_{\theta} \approx E_{\tau\sim q_{\theta'}(\tau)}[\frac{p_\theta(a_{t}|s_{t})}{q_\theta'(a_{t}|s_{t})}R(\tau)]$

这就是论文里说的 Surrogate Objective，那这里是不是直接求导，使得新的期望回报值最大就行了吗？
当然不是！注意上面 g 近似成立的前提是 p 和 q 的值差距不大，如果差距太大的话，等式就不成立了，求导也没有意义，所以我们需要对 Surrogate Objective 进行截断，让 p 和 q 的值不要差距太大。
所以有了 Clipped Surrogate Objective：

$E_{\tau\sim q_{\theta'}(\tau)}[min(\frac{p_\theta(a_{t}|s_{t})}{q_\theta'(a_{t}|s_{t})}R(\tau), clip(\frac{p_\theta(a_{t}|s_{t})}{q_\theta'(a_{t}|s_{t})}, 1-\epsilon, 1 + \epsilon)R(\tau))]$

clip 代表把 $\frac{p_\theta(a_{t}|s_{t})}{q_\theta'(a_{t}|s_{t})}$ 限制在区间 (1- $\epsilon$ , 1 + $\epsilon$ )。
那么当 R > 0 时，Surrogate Objective 等同于：

$E_{\tau\sim q_{\theta'}(\tau)}[min(\frac{p_\theta(a_{t}|s_{t})}{q_\theta'(a_{t}|s_{t})}R(\tau), (1 + \epsilon)R(\tau))]$

这就确保会增大 $p_\theta(a_{t}|s_{t})$ 但最大不会让 $\frac{p_\theta(a_{t}|s_{t})}{q_\theta'(a_{t}|s_{t})}$ 大于 1 + $\epsilon$
当 R < 0，Surrogate Objective 等同于：

$E_{\tau\sim q_{\theta'}(\tau)}[min(\frac{p_\theta(a_{t}|s_{t})}{q_\theta'(a_{t}|s_{t})}R(\tau), (1-\epsilon)R(\tau))]$

这就确保会减小 $p_\theta(a_{t}|s_{t})$ 但最小不会让 $\frac{p_\theta(a_{t}|s_{t})}{q_\theta'(a_{t}|s_{t})}$ 小于 1 - $\epsilon$
从而满足了让 p 和 q 的值不要差距太大的约束条件。
再把 R 替换成文一里提到的 Credit Assignment 的形式，我们对 REINFORCE 的算法的优化暂时到这里。

缺点

总结一下，我们用 Clipped Surrogate Objective 和 Credit Assignment 让 REINFORCE 可以做 off-policy，并且让 R 的表示更合理，但是我们再次看一下 R 现在的表示方法，虽然更合理了，但是还是有可以优化的地方。

$R_{t}(\tau) = \sum_{t=t(a)}^{T}\gamma^{t-t(a)}r_{t},\gamma \in [0,1]$

虽然对每个 a 都有相应的 R，但是回到最开始 a 是怎么来的，每一步的 a 是采样来的，所以这种 Monte-Carlo 式的评估 R 的方式会引入大的方差。

改进

下篇文章会给出方差大的解决办法。

参考

阿姆姆姆姆姆姆姆

关注

15
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
0
评论
深度强化学习（DRL）算法 2 —— PPO 之 Clipped Surrogate Objective 篇

在之前的文章里介绍了，提出了两个缺点，其中缺点一，在后续提出的 DRL 算法 PPO 解决了，今天我们就来看看大名鼎鼎的 PPO 算法。
复制链接

扫一扫