增强学习--策略梯度算法（Policy Gradient）

最新推荐文章于 2024-04-22 15:36:21 发布

段星星

最新推荐文章于 2024-04-22 15:36:21 发布

阅读量1w

点赞数 3

分类专栏：深度学习文章标签：策略梯度强化学习

本文链接：https://blog.csdn.net/u012267725/article/details/77692630

版权

深度学习专栏收录该内容

7 篇文章 3 订阅

订阅专栏

基于似然函数推导策略梯度

强化学习的目标函数

U (θ) = E (\sum t = 0 H R (s t, u t); π θ) = \sum τ P (τ; θ) R (τ)

$U( \theta ) =E\left(\sum\limits ^{H}_{t=0} R( s_{t} ,u_{t}) ;\pi _{\theta }\right) =\sum\limits _{\tau } P( \tau ;\theta ) R( \tau )$
参数含义

$\tau =\{s_{0} ,u_{0} ,... ,s_{H} ,u_{H}\}$ ：一组状态与行为序列
$R( \tau ) =\sum\limits ^{H}_{t=0} R( s_{t} ,u_{t})$ ：序列 $\tau$ 的reward之和
$P( \tau ;\theta )$ ：序列 $\tau$ 出现的概率
$\sum\limits _{\tau } P( \tau ;\theta ) R( \tau )$ ：同时拥有多组轨迹，取均值

强化学习的目的就是找到最优参数 $\theta $ ，使得

m a x U (θ) = m a x \sum τ P (τ; θ) R (τ)

$maxU( \theta ) =max\sum\limits _{\tau } P( \tau ;\theta ) R( \tau )$
寻找最优参数

θ $\theta$ 的过程就是在寻找最优策略或者说最优路径，上述问题本质是一个优化问题，解决的方法最简单也是最常用的是梯度下降法，即

θ n e w = θ o l d + α \nabla θ U (θ)

$\theta _{new} =\theta _{old} +\alpha \nabla _{\theta } U( \theta )$
关键问题是计算目标函数的梯度

\nabla θ U (θ) = \nabla θ \sum τ P (τ; θ) R (τ)

$\nabla _{\theta } U( \theta ) =\nabla _{\theta }\sum\limits _{\tau } P( \tau ;\theta ) R( \tau )$

= \sum τ \nabla θ P (τ; θ) R (τ)

$=\sum\limits _{\tau } \nabla _{\theta } P( \tau ;\theta ) R( \tau )$

= \sum τ P ( τ ; θ ) P ( τ ; θ ) \nabla θ P (τ; θ) R (τ)

$=\sum\limits _{\tau }\frac{P( \tau ;\theta )}{P( \tau ;\theta )} \nabla _{\theta } P( \tau ;\theta ) R( \tau )$

= \sum τ P (τ; θ) \nabla θ P ( τ ; θ ) R ( τ ) P ( τ ; θ )

$=\sum\limits _{\tau } P( \tau ;\theta )\frac{\nabla _{\theta } P( \tau ;\theta ) R( \tau )}{P( \tau ;\theta )}$

= \sum τ P (τ; θ) R (τ) \nabla θ l o g P (τ; θ)

$=\sum\limits _{\tau } P( \tau ;\theta ) R( \tau ) \nabla _{\theta } logP( \tau ;\theta )$

梯度的计算转换为求解 $R( \tau ) \nabla _{\theta } logP( \tau ;\theta)$ 的期望，此时可以利用蒙特卡洛法近似估算，即根据当前策略 $\pi$ 采样得到m条轨迹

\nabla θ U (θ) \approx 1 m \sum i = 0 m R (τ) \nabla θ l o g P (τ; θ)

$\nabla _{\theta } U( \theta ) \approx \frac{1}{m}\sum\limits ^{m}_{i=0} R( \tau ) \nabla _{\theta } logP( \tau ;\theta )$
接下来需要求解

∇θlogP(τ;θ) $\nabla _{\theta } logP( \tau ;\theta )$
假设在m个轨迹集合中，第i次轨迹为

τi={si0,ui0,...,siH,uiH} $\tau ^{i} =\left\{s^{i}_{0} ,u^{i}_{0} ,... ,s^{i}_{H} ,u^{i}_{H}\right\}$ ，似然概率为

P (τ i; θ) = \prod t = 0 H P (s i t + 1 | s i t, u i t) π θ (u i t | s i t)

$P\left( \tau ^{i} ;\theta \right) =\prod ^{H}_{t=0} P\left( s^{i}_{t+1} |s^{i}_{t} ,u^{i}_{t}\right) \pi _{\theta }\left( u^{i}_{t} |s^{i}_{t}\right)$
参数含义