近端策略优化（proximal policy optimization）算法简述

星海浮生

已于 2023-12-04 12:04:18 修改

阅读量7.5k

点赞数 6

分类专栏：机器学习深度强化学习文章标签：算法机器学习概率论

于 2022-02-26 20:20:18 首次发布

本文链接：https://blog.csdn.net/Zhang_0702_China/article/details/123152446

版权

机器学习同时被 2 个专栏收录

12 篇文章 7 订阅

订阅专栏

深度强化学习

4 篇文章 0 订阅

订阅专栏

本文通过整理李宏毅老师的机器学习教程的内容，简要介绍深度强化学习（deep reinforcement learning）中的近端策略优化算法（proximal policy optimization）。

李宏毅老师课程的B站链接：
李宏毅, 深度强化学习, proximal policy optimization

PPO 是策略梯度法的一个变形，它是 OpenAI 现在默认的强化学习算法。
PPO, paper

与原始策略梯度法不同的是，PPO 是 off-policy 算法（原始策略梯度法是 on-policy 算法）：
on-policy & off-policy

首先介绍 重要性采样（importance sampling） 的概念：

假设 $x$ 是从分布 $p$ 中采样出来，则：
$E_{x \sim p}[f(x)] = \int f(x) p(x) dx \approx \frac{1}{N} \sum_{i=1}^{N} f(x^i)$

当无法从分布 $p$ 采样数据，只能从另一个分布 $q$ 采样数据时：
$E_{x \sim p}[f(x)] = \int f(x) p(x) dx = \int f(x) \frac{p(x)}{q(x)} q(x) dx = E_{x \sim q}[f(x) \frac{p(x)}{q(x)}]$

即，用 $q$ 代替 $p$ 采样，需要乘上一个重要性权重（importance weight） $\frac{p(x)}{q(x)}$ 来修正两个分布之间的差异。理论上 $q$ 可以是任何分布，唯一的限制是当 $q (x)$ 为 $0$ 时， $p (x)$ 也要为 $0$ ，否则会没有定义。

虽然可以把 $p$ 换成任何 $q$ ，但是在实现上，两者不能差太多，否则会有一些问题。因为虽然 $f (x)$ 和 $\frac{p(x)}{q(x)}$ 的期望相同，但是方差不同：
$D_{x \sim p}[f(x)] = E_{x \sim p}[f(x) ^ 2] - (E_{x \sim p}[f(x)]) ^ 2$

$D_{x \sim q}[f(x) \frac{p(x)}{q(x)}] = E_{x \sim q}[(f(x) \frac{p(x)}{q(x)}) ^ 2] - (E_{x \sim q}[(f(x) \frac{p(x)}{q(x)})]) ^ 2 = E_{x \sim p}[f(x) ^ 2 \frac{p(x)}{q(x)}] - (E_{x \sim p}[f(x)]) ^ 2$

举例说明当 $p$ 和 $q$ 差距比较大时可能发生的问题：
重要性采样

将重要性采样应用到 off-policy 情形，就可以把 on-policy 算法改进成 off-policy 算法。

具体地，根据策略梯度法的梯度更新公式：

on-policy：
$\triangledown \bar R_{\theta} = E_{\tau \sim p_{\theta}(\tau)}[R(\tau) \triangledown \ln p_{\theta}(\tau)]$

off-policy：
$\triangledown \bar R_{\theta} = E_{\tau \sim p_{\theta^\prime}(\tau)}[\frac{p_{\theta}(\tau)}{p_{\theta^\prime}(\tau)} R(\tau) \triangledown \ln p_{\theta}(\tau)]$

实际在更新梯度时，是对每个“状态-动作”分开计算，即：

on-policy：
$\triangledown \bar R_{\theta} = E_{(s_t, a_t) \sim \pi_\theta}[A^{\theta}(s_t, a_t) \triangledown \ln p_{\theta}(a^n_t | s^n_t)]$

off-policy：
$\triangledown \bar R_{\theta} = E_{(s_t, a_t) \sim \pi_{\theta^\prime}}[\frac{p_\theta(s_t, a_t)}{p_{\theta^\prime}(s_t, a_t)} A^{\theta^\prime}(s_t, a_t) \triangledown \ln p_{\theta}(a^n_t | s^n_t)]$

由于：
$p_\theta(s_t, a_t) = p_\theta(a_t | s_t) p_\theta(s_t) \\ p_{\theta^\prime}(s_t, a_t) = p_{\theta^\prime}(a_t | s_t) p_{\theta^\prime}(s_t)$

于是得到下式：
$E_{(s_t, a_t) \sim \pi_{\theta^\prime}}[\frac{p_\theta(a_t | s_t)}{p_{\theta^\prime}(a_t | s_t)} \frac{p_\theta(s_t)}{p_{\theta^\prime}(s_t)} A^{\theta^\prime}(s_t, a_t) \triangledown \ln p_{\theta}(a^n_t | s^n_t)]$

由于 actor 会看到的状态与其采取的动作关系不大，而且 $p_\theta(s_t)$ 很难算，因此假设 $p_\theta(s_t) = p_{\theta^\prime}(s_t)$ ，将 $\frac{p_\theta(s_t)}{p_{\theta^\prime}(s_t)}$ 删掉，得：
$E_{(s_t, a_t) \sim \pi_{\theta^\prime}}[\frac{p_\theta(a_t | s_t)}{p_{\theta^\prime}(a_t | s_t)} A^{\theta^\prime}(s_t, a_t) \triangledown \ln p_{\theta}(a^n_t | s^n_t)] \quad *$

上式为梯度公式，可以通过梯度反推原目标函数，由：
$\triangledown f(x) = f(x) \triangledown \ln f(x)$

可得目标函数：
$J^{\theta^\prime}(\theta) = E_{(s_t, a_t) \sim \pi_{\theta^\prime}}[\frac{p_\theta(a_t | s_t)}{p_{\theta^\prime}(a_t | s_t)} A^{\theta^\prime}(s_t, a_t)]$

写成 $J^{\theta^\prime}(\theta)$ 是因为，括号里的 $\theta$ 代表要去优化的参数， $\theta^\prime$ 是真正在与环境互动用作示范的参数。 $J^{\theta^\prime}(\theta)$ 是可以计算的，而更新参数则按照 $*$ 式进行。

在前面介绍重要性采样时提到，如果 $p_\theta(a_t | s_t)$ 和 $p_{\theta^\prime}(a_t | s_t)$ 相差很多，采样结果就会不好。因此，避免两者相差太多就是 PPO 算法要做的事情。

在 PPO 算法中，除本来要优化的目标之外，又加入了一项约束：
$J^{\theta^\prime}_{PPO}(\theta) = J^{\theta^\prime}(\theta) - \beta KL(\theta, \theta^\prime)$

其中， $KL(\theta, \theta^\prime)$ 表示 KL 散度，用于度量 $\theta$ 与 $\theta^\prime$ 之间的差异； $\beta$ 大于 $0$ ，用于调节约束程度。
需要注意的是，这里讲的 $\theta$ 与 $\theta^\prime$ 之间的差异（或者说距离），并非参数上的差异，而是行为（behaviour）上的差异；此外，并不一定要用 KL 散度来度量，L1 和 L2 范数也可以。

有关 KL 散度：
KL散度
KL 散度也叫相对熵，恒非负，其值越大， $P$ 与 $Q$ 的差异越大，当 $\equiv Q$ 时取 $0$ 。

PPO 算法有一个前身，即 信任区域策略优化（TRPO，trust region policy optimization） ，采用直接约束 KL 散度的方式：
$J^{\theta^\prime}_{TRPO}(\theta) = J^{\theta^\prime}(\theta) \quad \quad KL(\theta, \theta^\prime) < \delta$

但由于基于梯度进行优化时，约束很难处理，因此通常采用 PPO，而非 TRPO。
此外，PPO 与 TRPO 的性能相近，但是 PPO 的算法实现容易得多。

上述 PPO 算法为 PPO1 算法 ，通过使用 KL 散度进行惩罚（penalty）的方式，保证 $\theta$ 与 $\theta^\prime$ 之间的相似性，因此也叫近端策略优化惩罚（PPO-penalty）。

关于 PPO1，还有一个 自适应 KL 散度（adaptive KL divergence） 的方法，即对参数 $\beta$ 进行动态调整：
当 $KL(\theta, \theta^\prime) > KL_{\max}$ 时，说明惩罚项没有发挥作用，调大 $\beta$ ；
当 $KL(\theta, \theta^\prime) < KL_{\min}$ 时，说明惩罚项的效果过强，调小 $\beta$ 。

除 PPO1 外，还有一个 PPO2 算法 ，不需要计算 KL 散度，而是通过裁剪（clip）的方式进行约束，即近端策略优化裁剪（PPO-clip）：
$J^{\theta^\prime}_{PPO2}(\theta) \approx \sum_{(s_t, a_t)} \min(\frac{p_\theta(a_t | s_t)}{p_{\theta^\prime}(a_t | s_t)} A^{\theta^\prime}(s_t, a_t), \quad clip(\frac{p_\theta(a_t | s_t)}{p_{\theta^\prime}(a_t | s_t)}, 1 - \epsilon, 1 + \epsilon) \ A^{\theta^\prime}(s_t, a_t))$

裁剪的原理如下：
PPO-clip
当优势函数 $A > 0$ 时，我们希望 $p_\theta(a_t | s_t)$ 越大越好，但是大于 $\epsilon$ 就没有好处了；
当优势函数 $A < 0$ 时，我们希望把 $p_\theta(a_t | s_t)$ 减小，但是减到 $\epsilon$ 就可以了，不要压得更小。
总之，就是不要让 $p_\theta(a_t | s_t)$ 和 $p_{\theta^\prime}(a_t | s_t)$ 的差距太大。

星海浮生

关注

6
点赞
踩
34

收藏

觉得还不错? 一键收藏
1
评论
近端策略优化（proximal policy optimization）算法简述

本文通过整理李宏毅老师的机器学习教程的内容，简要介绍深度强化学习（deep reinforcement learning）中的近端策略优化算法（proximal policy optimization）。
复制链接

扫一扫