【强化学习】策略梯度及PPO算法

最新推荐文章于 2024-07-15 12:30:08 发布

言潇然

最新推荐文章于 2024-07-15 12:30:08 发布

阅读量456

点赞数

分类专栏：【强化学习】文章标签：人工智能

本文链接：https://blog.csdn.net/NG_Hao/article/details/125857167

版权

【强化学习】专栏收录该内容

3 篇文章 0 订阅

订阅专栏

策略梯度公式如下：

$E_{\tau \sim p_{\theta}(\tau )}\left [ R\left ( \tau \right )\nabla \log_{}{p_{\theta}(\tau)}\right ]\approx \frac{1}{N}\sum_{n=1}^{N}R\left ( \tau ^{n} \right )\nabla\log_{}{p_{\theta}(\tau ^{n})}= \frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_{n}}R\left ( \tau ^{n} \right )\nabla\log_{}{p_{\theta}(a_{t}^{n}\mid s_{t}^{n})}$

策略梯度公式的计算过程：

优化目标为最大化 $reward$ 函数，即通过调整 $\theta$ ，使得期望回报最大，公式表示如下：

$J\left ( \theta \right )= E_{\tau \sim p_{\theta}\left ( \tau \right )}\left [ \sum_{t}^{}r\left ( s_{t}, a_{t} \right ) \right ]$

$\tau$ 表示一个 $Episode$ 内由 $State$ 和 $Action$ 组成的完整序列。我们通常采用梯度上升 $\left ( Gradient\;ascent \right )$ 算法来求解最大值问题，即：

$\theta ^{*}= \theta +\alpha\nabla J\left ( \theta \right )$

计算策略梯度即计算回报函数 $J\left ( \theta \right )$ 关于 $\theta$ 的梯度，计算方法如下：

$\nabla_{\theta }J\left ( \theta \right )= \int \nabla_{\theta }p_{\theta }\left ( \tau \right )r\left ( \tau \right ){\mathrm{d} \tau }= \int p_{\theta }\nabla_{\theta }\log_{}{p_{\theta }\left ( \tau \right )}r\left ( \tau \right ){\mathrm{d} \tau }=E_{\tau \sim p_{\theta}(\tau )}\left [\nabla_{\theta }\log_{}{p_{\theta }\left ( \tau \right )}r\left ( \tau \right ) \right ]$

其中，

$p_{\theta}(\tau )=p\left ( s_{1} \right )\prod_{t=1}^{T}\pi _{\theta }\left ( a_{t}\mid s_{t} \right )p\left ( s_{t+1} \mid s_{t}, a_{t} \right )$

取对数，

$\log_{}{p_{\theta}(\tau )}=\log_{}{p\left ( s_{1} \right )}+\prod_{t=1}^{T}\log_{}{\pi _{\theta }\left ( a_{t}\mid s_{t} \right )p\left ( s_{t+1} \mid s_{t}, a_{t} \right )}$

继续求导，

$\nabla_{\theta }\log_{}{p_{\theta}(\tau )}=\sum_{t=1}^{T}\nabla_{\theta }\log_{}{\pi _{\theta }\left ( a_{t}\mid s_{t} \right )}$

代入可得，

$\nabla_{\theta }J\left ( \theta \right )= E_{\tau \sim p_{\theta}(\tau )}\left [\nabla_{\theta }\log_{}{p_{\theta }\left ( \tau \right )}r\left ( \tau \right ) \right ]=\frac{1}{N}\sum_{i=1}^{N}\left [ \left ( \sum_{t=1}^{T}\nabla_{\theta }\log_{}{\pi_{\theta }\left ( a_{i, t} \mid s_{i, t} \right )}\right )\left ( \sum_{t=1}^{T}r\left ( s_{i, t} , a_{i, t} \right ) \right ) \right ]$