【强化学习】随机策略梯度算法（stochastic-policy-gradient）

最新推荐文章于 2024-07-31 14:47:45 发布

贰锤

最新推荐文章于 2024-07-31 14:47:45 发布

阅读量9.8k

点赞数 11

分类专栏：强化学习强化学习薄荷糖

本文链接：https://blog.csdn.net/weixin_37895339/article/details/84792752

版权

策略搜索方法相对于值函数法有如下优缺点
优点：

直接策略搜索方法是对策略 $\pi$ 进行参数化表示，与值函数方中对值函数进行参数化表示相比，策略参数化更简单，有更好的收敛性。
利用值函数方法求解最优策略时，策略改进需要求解 $argmax_a Q_\theta(s,a)$ ，当要解决的问题动作空间很大或者动作为连续集时，该式无法有效求解。
直接策略搜索方法经常采用的随机策略，能够学习随机策略。可以将探索直接集成到策略之中。

缺点：

策略搜索的方法容易收敛到局部最小值。
评估单个策略时并不充分，方差较大。

一、基础算法推导

本文主要从重要性采样角度进行分析。

策略梯度的目标依旧是最大化累积回报，定义一个参数化策略 $\pi_\theta$ 的期望累积回报如下所示
$\begin{aligned} J(\theta) = E_{\tau \sim p(\tau;\theta)}&=\int_{\tau\sim p(\tau;\theta)}p(\tau;\theta)r(\tau)d\tau\\ \end{aligned}$
$p(\tau;\theta)$ 表示在策略 $\pi_\theta$ 的情况下轨迹 $\tau$ 出现的概率，在计算时无法通过一个不确定参数的分布 $p(\tau;\theta)$ 进行采样，因此通过重要性采样的方式，推导如下所示。
$\begin{aligned} J(\theta)&=\int_{\tau}\frac{p(\tau;\theta_{old})}{p(\tau;\theta_{old})}p(\tau;\theta)r(\tau)d\tau\\ &=\int_{\tau}p(\tau;\theta_{old})\frac{p(\tau;\theta)}{p(\tau;\theta_{old})}r(\tau)d\tau\\ &=E_{\tau\sim p(\tau;\theta_{old})}[\frac{p(\tau;\theta)}{p(\tau;\theta_{old})}r(\tau)] \end{aligned}$

对上述公式求导，由于策略函数通常是连续可微的良好函数，因此求导和积分符号可以互换。
$\begin{aligned} \nabla_{\theta}J(\theta)&=\int_{\tau}\nabla_{\theta}p(\tau;\theta)r(\tau)d\tau\\ &=\int_{\tau}\frac{p(\tau;\theta)}{p(\tau;\theta)}\nabla_{\theta}p(\tau;\theta)r(\tau)d\tau\\ &=\int_{\tau}p(\tau;\theta)\nabla_{\theta}\log{p(\tau;\theta)}r(\tau)d\tau\\ &=E_{\tau\sim p(\tau;\theta)}[\nabla_{\theta}\log{p(\tau;\theta)}r(\tau)] \end{aligned}$