从REINFORCE到PPO，看Policy Gradient的前世今生

最新推荐文章于 2025-04-01 22:45:49 发布

马小疼

最新推荐文章于 2025-04-01 22:45:49 发布

阅读量9.6k

点赞数 16

分类专栏： RL 文章标签： RL

本文链接：https://blog.csdn.net/Pony017/article/details/81146374

版权

本文深入介绍了Policy Gradient方法，从REINFORCE算法开始，讲解了其基本思想和优化过程，逐步引入Actor-Critic方法降低方差，最后详细阐述了PPO算法如何解决策略梯度更新的问题，确保策略空间的稳定变化。实验结果显示PPO在连续动作问题上表现出色，但学习速度相对较慢。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

从REINFORCE到PPO，看Policy Gradient的前世今生

Policy Gradient和Q-learning可以说是model-free RL的两大阵营。前者是off-line、on-policy的方法，后者是on-line、off-policy的方法。前者是策略迭代，关心的是策略网络的参数；后者是值迭代，关心的是值网络的输出。随着RL的不断发展，这两类方法在不断交错领跑的过程中交汇融合，不断给我们带来新的惊喜。

本文重点在介绍Policy Gradient方法，从其“初心”出发，通过一步步的推导来讲述新的算法。后半部分的重点将放在兼具漂亮理论基础和简洁代码实现的PPO方法上，欢迎RL入门级的小朋友们一起讨论学习！

Policy Gradient

如果你已经了解了DQN，也许会想到这样一个问题：为什么一定要用值函数来做决策（当然这个想法也是很自然的），为什么不绕过值函数直接用神经网络来表示策略呢？
当然，想要讨论清楚这个问题不是很容易，有很多不同的看法，感兴趣的小朋友可以看一下知乎上对问题RL两大类算法的本质区别？（Policy Gradient 和 Q-Learning)
南京大学俞杨老师的答案，很有启发性。

让我们再退一步，我们想要的东西到底是什么呢？其实就是让我们采取策略的期望收益最大化！

θ * = arg max θ E τ \sim p θ (τ) r (τ)              J (θ)

$\theta^*= \mathop{\arg\max}_{\theta} \underbrace{E_{\tau \sim p_\theta (\tau) } r(\tau)} _ {J(\theta)}$

$\tau$ 表示一条样本轨迹，策略所影响的，是样本轨迹 $\tau$ 出现的概率，也就是 $p_\theta (\tau)$ 。

那么 $r(\tau)$ 和 $p_\theta(\tau)$ 指的具体是什么呢？我们再进一步展开来写一下：

r (τ) = \sum t r (s t, a t) p θ (τ) = p (s 1) \prod t π θ (a t | s t) p (s t + 1 | s t, a t)

$r(\tau)= \sum_t r(s_t,a_t) \\ p_\theta (\tau) = p(s_1) \prod_t { \pi_\theta (a_t|s_t) p(s_{t+1}|s_t, a_t) }$

注意，这里的 $\tau$ 和 $t$ 的含义不同， $\tau$ 是样本轨迹， $t$ 是样本轨迹上的时间。仔细看 $p_\theta(\tau)$ 我们就会发现，将概率展开以后实际上我们的策略可以影响的只有 $\pi_\theta (a_t|s_t)$ ，也就是在状态 $s_t$ 下采取动作 $a_t$ 的概率。这也就是我们策略的数学表示。

REINFORCE

现在我们就可以再向前走一步，按照机器学习的一般思路，我已经定义好了我的目标函数 $J(\theta)$ ，如果可以求出它的梯度 $\nabla_\theta J(\theta)$ ，我们就可以梯度下降了！为了求梯度，我们将 $J(\theta)$ 改写成积分的形式：

J (θ) \nabla θ J (θ) = E τ \sim p θ (τ) r (τ) = \int p θ (τ) r (τ) d τ = \int \nabla θ p θ (τ) r (τ) d τ = \int p θ (τ) \nabla θ log p θ (τ) r (τ) d τ = E τ \sim p θ (τ) \nabla θ log p θ (τ) r (τ)

$\begin{align*} J(\theta) &= E_{\tau \sim p_\theta (\tau)} r(\tau)=\int p_\theta (\tau) r(\tau) d\tau \\ \nabla_\theta J(\theta) &= \int \nabla_\theta p_\theta (\tau) r(\tau) d\tau \\ &= \int p_\theta (\tau) \nabla_\theta \log p_\theta (\tau) r(\tau) d\tau \\ &= E_{\tau \sim p_\theta (\tau) } \nabla_\theta \log p_\theta (\tau) r(\tau) \end{align*}$

这里用到了一个小技巧， $\nabla_\theta p_\theta (\tau) = p_\theta (\tau) \dfrac {\nabla_\theta p_\theta (\tau)} { p_\theta (\tau)} = p_\theta (\tau) \nabla_\theta \log p_\theta (\tau)$ ，这样做的目的是把 $p_\theta (\tau)$ 重新拿到外边来，就可以再写成期望的形式了。