深度强化学习入门—PPO

我真不是坐忘道~

已于 2025-02-05 11:15:27 修改

阅读量1k

点赞数 18

文章标签：人工智能算法机器学习神经网络深度学习

于 2025-02-05 10:54:34 首次发布

本文链接：https://blog.csdn.net/qq_40641591/article/details/145432786

版权

文章目录

前言
一、基于策略的深度强化学习算法基础
- 1.策略梯度原理
- 2.基于策略的深度强化学习算法流程
二、重要性采样
- 1.重要性采样的原理
- 2.重要性采样的约束
三、近端策略优化
- 1.PPO
- 2. PPO-clip
总结

前言

2017年的实证研究表明，在大多数场景下，PPO-Clip相较于TRPO和A2C等经典强化学习算法表现更优
强化学习主要分为基于值函数和基于策略的方法，其中，基于策略的强化学习指的是智能体直接学习一个策略，以观察信息为输入，输出相应的动作，并结合多种优化技术，以最大化累计奖励为目标。相比于基于值函数的方法，基于策略的方法在高维、连续动作空间中表现更优，且能够实现更稳定的策略更新。带有裁剪机制的近端策略优化（PPO-Clip）是一种典型的基于策略的强化学习算法，它通过重要性采样降低交互成本，并引入裁剪技术限制策略更新幅度，从而稳定训练过程，使其成为高效且稳健的强化学习方法之一。
在这里插入图片描述

上图内容在看懂整篇文章后会自动解锁

一、基于策略的深度强化学习算法基础

基于策略的强化学习算法在强化学习算法入门——目标函数、策略梯度原理与优势函数中进行了详细描述。以下第1节对基础知识进行了总结和概括，而第2节则引入了神经网络，并概述了基于策略的深度强化学习算法的基本流程。

1.策略梯度原理

基于策略的强化学习算法的主要内容是学习一个有效策略，策略的目标是最大化期望累计奖励 $\overline R(\theta_t)$ ，并且 $\overline R(\theta_t)$ 是带有折扣的：
$\overline R(\theta_t)=\mathbb{E}_{\tau\sim p_{\theta_t}(\tau)}[R(\tau)]$ 其中， $\mathbb{E}_{\tau\sim p_{\theta_t}(\tau)}[·]$ 是指用智能体 $\theta_t$ 收集轨迹 $\tau$ 后，获得·的期望值。 $R(\tau)$ 是轨迹 $\tau$ 的总累计奖励： $R(\tau)=\sum_{t=0}^{T}\gamma^tr_{t}$ 其中， $r_{t}$ 是在时间步 ${t}$ 获得的即时奖励， $\gamma \in[0,1]$ 是折扣因子。
为了使策略能够达到这一目标，采用梯度上升的方法来更新智能体 $\theta_t$ 的内部参数：
$\theta_{t+1}=\theta_t+\alpha\triangledown \overline R(\theta_t)$ 其中， $\alpha$ 为学习率， $\triangledown \overline R(\theta_t)$ 是指对累计奖励 $\overline R(\theta_t)$ 求参数 $\theta_t$ 的导数， $\theta_{t+1}$ 是更新后的智能体参数。
在计算 $\triangledown\overline R(\theta)$ （这里 $\theta_t$ 简化为 $\theta$ ）时，涉及大量的理论原理和数学公式（详细内容看强化学习算法入门——目标函数、策略梯度原理与优势函数）。最终，得到的策略梯度公式 $\triangledown\overline{R}_θ$ 如下：
$\triangledown\overline{R}_θ ≈\frac{1}{N}\sum\limits_{n=1}^N\sum\limits_{t=1}^{T_n}A^\theta(s_t,a_t)\triangledown{log}p_\theta(a_t^n|s_t^n)$ 其中， $\triangledown{log}p_\theta(a_t^n|s_t^n)$ 表示对智能体 $\theta$ 在状态 $s_t^n$ 时做出动作 $a_t^n$ 的概率 $p$ 依次求对数和梯度。优势函数 $A^\theta(s_t,a_t)$ 公式如下：
$A^\theta(s_t,a_t)=\sum\limits_{t'=t}^{T_n}\gamma^{t'=t}r_{t'}^n-b$
其中，基线 $b$ 作为对未来累计奖励的一种修正，旨在保持奖励的正负均衡，避免因采样偏差导致的概率计算失衡。基线通常取未来累计奖励的均值，并可借助神经网络进行估计。

2.基于策略的深度强化学习算法流程

在实际应用策略梯度算法时，与环境交互的智能体（Agent）通常由两部分组成，即Actor和Critic。
Actor是策略的核心执行者，通常采用深度神经网络实现。它以观察信息作为输入，输出相应的动作，并基于策略梯度算法更新自身参数。
Critic负责计算基线 $b$ 的数值，基线 $b$ 代表未来累计奖励的均值，本质上也是对当前状态的价值估计。Critic 通常也由深度神经网络实现。
agent与环境的交互过程如下：
1、智能体 $\theta$ 与环境互动，收集大量数据；
2、根据数据和相关公式计算优势函数 $A^\theta(s,a)$ ；
3、计算策略梯度值 $\triangledown\overline{R}_θ$ ；
4、通过梯度上升更新参数，得到新的策略参数 $\theta'$ ；
5、重复执行步骤 1-4，不断优化策略。

二、重要性采样

在基于策略的强化学习算法流程中，智能体需要不断与环境交互和学习，通过积累经验来更新自身的策略参数，使其逐步优化。然而，在计算策略梯度的过程中，每次更新都需要计算基于总奖励的期望值，这对数据需求极为庞大。此外，每次更新策略参数后，先前使用参数 $\theta$ 采样得到的数据（如 $p_\theta(a_t^n|s_t^n)$ ）便不再适用，需要重新采样新的数据集。这种方法不仅大幅增加了计算和存储开销，还导致训练过程耗时冗长，降低了算法的效率。

1.重要性采样的原理

为了减少交互时间和存储开销，可以引入重要性采样（Importance Sampling）原理，对原始更新公式进行优化，使智能体能够利用历史交互数据来更新当前的策略参数。这样不仅避免了每次策略更新后都必须重新采样，还能显著提高训练效率。
重要性采样的原理如下：
假设有一个函数 $f (x)$ ，从概率分布为 $p$ 的分布中采样出x，并计算得出的 $f (x)$ 。用采样求均值的方法对 $f (x)$ 求期望：

$\mathbb{E}_{x\sim p}[f(x)]\approx \frac{1}{N}\sum\limits_{i=1}^Nf(x_i)$ 同样，期望值还可以用积分来表示：

$\mathbb{E}_{x\sim p}[f(x)]=\int_{}^{}f(x)p(x)dx$

上式可做如下变换：

$\int_{}^{}f(x)p(x)dx=\int_{}^{}f(x)\frac{p(x)}{q(x)}q(x)dx$

其中， $p$ 和 $q$ 都一种概率分布。

那么，上述公式也可以写成：

$\int_{}^{}f(x)\frac{p(x)}{q(x)}q(x)dx=\mathbb{E}_{x\sim q}[f(x)\frac{p(x)}{q(x)}]$

也就是说：

$\mathbb{E}_{x\sim p}[f(x)]=\mathbb{E}_{x\sim q}[f(x)\frac{p(x)}{q(x)}]$

上面公式的含义就是：从概率为 $p$ 的分布中取出 $x$ ，对 $f (x)$ 求期望值，就等于从概率为 $q$ 的分布中取出 $x$ ，对 $f(x)\frac{p(x)}{q(x)}$ 求期望值。我们发现，即使不从概率 $p$ 中采样，只需要知道 $x$ 分别在 $p$ 和 $q$ 中的概率值，就可以以加权的方式求得 $f (x)$ 在概率 $p$ 中的期望值。

我们将 $\frac{p(x)}{q(x)}$ 称之为重要性权重，用来修正这两个分布之间的差异。

所以，当用 $\theta'$ 参数的智能体与环境进行交互时，获取的交互数据用来更新 $\theta$ ，就变得现实起来了。计算策略梯度的转换公式为：

$\triangledown\overline{R}(θ)=\mathbb{E}_{\tau\sim p_\theta(\tau)}[R(\tau)\triangledown log p_{\theta}(\tau)]=\mathbb{E}_{\tau\sim p_\theta'(\tau)}[\frac{p_\theta(\tau)}{p_\theta'(\tau)}R(\tau)\triangledown log p_{\theta}(\tau)]$
根据该公式，可以分布两个智能体：一个负责与环境交互并生成数据，另一个基于收集的数据和公式更新策略参数。在实际应用中，通常仅使用一个智能体，该智能体在更新时会存储并利用旧策略交互的数据进行优化。本质上，这两种方式遵循相同的原理。

2.重要性采样的约束

利用重要性权重，可以确保两个不同概率分布之间的期望值相等，但它们的方差未必一致。
下面分别求一下 $f (x)$ 和 $f(x)\frac{p(x)}{q(x)}$ 的方差，按照方差公式 $Var[x]=E[x^2]-(E[x])^2$ ：

$\mathbb{V}_{x\sim p}[f(x)]= \mathbb{E}_{x\sim p}[f(x)^2]-(\mathbb{E}_{x\sim p}[f(x)])^2$ $\mathbb{V}_{x\sim q}[f(x)\frac{p(x)}{q(x)}]= \mathbb{E}_{x\sim q}[(f(x)\frac{p(x)}{q(x)})^2]-(\mathbb{E}_{x\sim p}[f(x)\frac{p(x)}{q(x)}])^2\\=\mathbb{E}_{x\sim p}[(f(x))^2\frac{p(x)}{q(x)}]-(\mathbb{E}_{x\sim p}[f(x)])^2$

可知，两者方差的差异在于，概率分布 $q$ 方差的第一项额外乘了一个权重因子 $p (x) / q (x)$ 。

两者方差不一样会导致的后果如下：

由于期望的计算公式是通过对 $N$ 个采样数据取平均值来估计的，当采样数量足够多（即 $N$ 足够大）时，方差的不同理论上不会对最终的期望估计产生显著影响。然而，在实际应用中，无法确保采样的数据量始终足够大。因此，当两个分布的方差相差过大时，基于采样均值的方法可能难以使得两者的期望值逼近相等。

所以，我们需要尽可能地保证 $p (x) / q (x)$ 差距不会太大，上面的理论实现起来才更准确。

三、近端策略优化

PPO-clip由于其稳定性好与复杂度低等优势，比PPO-penalty更被广泛应用

1.PPO

如果需要更新的智能体参数为 $\theta$ ，实际与环境交互的智能体参数为 $\theta'$ 。将重要性采样和策略梯度公式结合后，更新 $\theta$ 参数的梯度公式为：

$\triangledown\overline{R}_θ ≈\frac{1}{N}\sum\limits_{n=1}^N\sum\limits_{t=1}^{T_n}\frac{p_\theta(s_t,a_t)}{p_{\theta'}(s_t,a_t) }A^\theta(s_t,a_t)\triangledown{log}p_\theta(a_t^n|s_t^n)$

其中， $N$ 和 $T_n$ 分别是智能体 $\theta'$ 与环境交互采样出来的轨迹数量和某个轨迹下的交互次数。写成期望的形式更容易理解：

$\mathbb{E}_{(s_t,a_t)\sim\pi_{\theta'}}[\frac{p_\theta(s_t,a_t)}{p_{\theta'}(s_t,a_t) }A^\theta(s_t,a_t)\triangledown{log}p_\theta(a_t^n|s_t^n)]$

值得注意的是，优势函数 $A^\theta(s_t,a_t)$ 的数值是用智能体 $\theta$ 与环境交互求出来的奖励值加权总和，理论上用智能体 $\theta'$ 与环境交互时只能得到 $A^{\theta'}(s_t,a_t)$ ，所以通常用 $A^{\theta'}(s_t,a_t)$ 来替代 $A^\theta(s_t,a_t)$ ，也就是假设两个智能体与环境交互后得到的优势函数是差不多的。

接下来，简化上面的梯度公式，我们运用联合概率公式 $p_{\theta}(s_t,a_t)=p_{\theta}(a_t|s_t)p_{\theta}(s_t)$ ：

$\mathbb{E}_{(s_t,a_t)\sim\pi_{\theta'}}[\frac{p_\theta(a_t|s_t)p_{\theta}(s_t)}{p_{\theta'}(a_t|s_t)p_{\theta'}(s_t) }A^{\theta'}(s_t,a_t)\triangledown{log}p_\theta(a_t^n|s_t^n)]$

这里需要知道，无论采用何种参数的智能体，环境出现 $s_t$ 的概率是一样的，即 $p_{\theta}(s_t)=p_{\theta'}(s_t)$ ，所以上式进一步优化为：

$\mathbb{E}_{(s_t,a_t)\sim\pi_{\theta'}}[\frac{p_\theta(a_t|s_t)}{p_{\theta'}(a_t|s_t) }A^{\theta'}(s_t,a_t)\triangledown{log}p_\theta(a_t^n|s_t^n)]$

上述方程即为采用重要性采样对目标函数进行求导后的策略梯度计算方程。

通常不会直接使用该方程进行梯度计算，而是采用其积分函数（即目标函数）进行优化，并在此基础上进行改进。这些改进方法能够有效缓解两个智能体参数相差过大等问题，提高训练的稳定性和收敛效率。

可以直接利用 $\triangledown f(x)=f(x)\triangledown log f(x)$ 对上面策略梯度方程求积分，计算一下它的目标函数：
$J^{\theta'}(\theta)=\mathbb{E}_{(s_t,a_t)\sim\pi_{\theta'}}[\frac{p_\theta(a_t|s_t)}{p_{\theta'}(a_t|s_t) }A^{\theta'}(s_t,a_t)]$ 这里需要利用 $\triangledown J(x)=J(x)\triangledown log J(x)$ ，注意 $p_{\theta'}(a_t|s_t)$ 和 $A^{\theta'}(s_t,a_t)$ 在对 $\theta$ 求导时为常数。
为了解决上面提到的两个智能体参数相差太大导致重要性采样公式不可用的问题，PPO考虑给两个智能体参数 $\theta$ 和 $\theta'$ 之间加一个约束：
$J_{PPO}^{\theta'}(\theta)=J^{\theta'}(\theta)-\beta KL(\theta, \theta')$
其中， $KL(\theta, \theta')$ 是指 $\theta$ 和 $\theta'$ 输出动作的KL散度，用以描述两个智能体行为之间的距离， $\beta$ 是一个动态值。由于计算KL散度的过程有些复杂，另一种解决参数相差太大的方法是PPO-Clip算法，该方法具有更小的复杂度，是一种常用的方案。

2. PPO-clip

PPO-clip对上面的目标函数 $J^{\theta'}(\theta)$ 进行了修改：

$J^{\theta'}_{PPO-clip}(\theta)\approx\sum\limits_{(s_t,a_t)}min(\frac{p_{\theta}(a_t|s_t)}{p_{\theta'}(a_t|s_t)}A^{\theta'}(s_t,a_t),clip(\frac{p_{\theta}(a_t|s_t)}{p_{\theta'}(a_t|s_t)},1-\epsilon,1+\epsilon)A^{\theta'}(s_t,a_t))$

下面我们来逐步解读一下该目标函数 $J^{\theta'}_{PPO-clip}(\theta)$ 的含义：

1、将 $\frac{p_{\theta}(a_t|s_t)}{p_{\theta'}(a_t|s_t)}$ 约束于 $[1-\epsilon,1+\epsilon]$ 之间：
$\sum\limits_{(s_t,a_t)}clip(\frac{p_{\theta}(a_t|s_t)}{p_{\theta'}(a_t|s_t)},1-\epsilon,1+\epsilon)A^{\theta'}(s_t,a_t)$ 该公式里的 $c l i p ()$ 函数表示为：如果第一项小于第二项，则输出第二项，如果第一项大于第三项，则输出第三项，否则输出第一项。

在这里插入图片描述

$c l i p ()$ 函数正好限制了 $\frac{p_{\theta}(a_t|s_t)}{p_{\theta'}(a_t|s_t)}$ 的界限，即 $\frac{p_{\theta}(a_t|s_t)}{p_{\theta'}(a_t|s_t)}$ 不能够超出 $[1-\epsilon,1+\epsilon]$ 这个范围。

2、对整个目标函数进行约束：

2.1 假设： $A^{\theta'}(s_t,a_t)>0$

$c l i p ()$ 公式内的取值范围为： $[(1-\epsilon)A^{\theta'}(s_t,a_t),(1+\epsilon)A^{\theta'}(s_t,a_t)]$

整个目标函数的取值范围为：

$[\frac{p_{\theta}(a_t|s_t)}{p_{\theta'}(a_t|s_t)}A^{\theta'}(s_t,a_t),(1+\epsilon)A^{\theta'}(s_t,a_t)]$
在这里插入图片描述

当优势函数为正，即这个状态-动作是好的。更新过程中，目标函数会让 $p_{\theta}(a_t|s_t)$ 更大（即在状态 $s_t$ 下更大概率选择 $a_t$ ），这样会导致误差越来越大。但由于 $c l i p ()$ 函数的限制， $\frac{p_{\theta}(a_t|s_t)}{p_{\theta'}(a_t|s_t)}$ 不能超过 $(1+\epsilon)$ 。这个改进就是在告诉目标函数，可以让 $p_{\theta}(a_t|s_t)$ 更大，但是超过一定界限后，就没有奖励了。

2.2 假设： $A^{\theta'}(s_t,a_t)<0$

$c l i p ()$ 公式内的取值范围为： $[(1+\epsilon)A^{\theta'}(s_t,a_t),(1-\epsilon)A^{\theta'}(s_t,a_t)]$

整个目标函数的取值范围为：

$[\frac{p_{\theta}(a_t|s_t)}{p_{\theta'}(a_t|s_t)}A^{\theta'}(s_t,a_t),(1-\epsilon)A^{\theta'}(s_t,a_t)]$
在这里插入图片描述

当优势函数为负，即这个状态-动作是坏的。更新过程中，目标函数会让 $p_{\theta}(a_t|s_t)$ 更小（即在状态 $s_t$ 下更小概率选择 $a_t$ ），这样也会导致两个智能体越来越大的偏差。但由于 $c l i p ()$ 函数的限制， $\frac{p_{\theta}(a_t|s_t)}{p_{\theta'}(a_t|s_t)}$ 不会比 $(1-\epsilon)$ 更小。这个改进就是在告诉目标函数，可以让 $p_{\theta}(a_t|s_t)$ 更小，但是超过一定界限后，就没有奖励了。