强化学习 10 —— Policy Gradient详细推导

jsfantasy

已于 2023-04-29 17:38:23 修改

阅读量4.2k

点赞数 12

分类专栏：强化学习文章标签：强化学习 REINFORCE Policy Gradient

于 2020-08-16 10:26:35 首次发布

本文链接：https://blog.csdn.net/november_chopin/article/details/108032626

版权

强化学习专栏收录该内容

15 篇文章 179 订阅

订阅专栏

前面几篇文章价值函数近似、DQN算法、DQN改进算法DDQN和Dueling DQN介绍了 DQN 算法以及其改进算法 DDQN 和 Dueling DQN 。他们都是对价值函数进行了近似表示，也就是学习价值函数，然后从价值函数中提取策略，这种方式叫做 Value Based。

一、Value Based 的不足

回顾学习路径发现，从动态规划到蒙地卡罗，到TD到Qleaning再到DQN，一路为计算Q值和V值绞尽脑汁。但大家有没有发现，上述过程包含一个固定思维，就是求解最优策略一定要算Q值和V值，然后找到具有最大Q值的动作，这种思路属于Value Based算法。但是计算Q值和V值并不是最终目的呀，强化学习问题是要找一个最优策略，那为什么不直接学习这个最优策略呢？这就是 Policy Based 算法的路线。

Value Based 强化学习方法在很多领域得到比较好的应用，但是其也有局限性。

1）首先就是对连续动作处理能力不足，算法 DQN 使用的 CartPole-v1 环境，在这个环境中只有两个动作：控制小车向左或者向右，这就是离散动作。那连续动作就是动作不光有方向，而且还有大小，对小车施加的力越大，小车的动作幅度也会越大。例如自动驾驶控制方向盘，还请读者自行体会。这个时候，使用离散的方式是不好表达的，而使用基于 Policy Based 方法就很容易。
2）无法解决随机策略（Stochastic Policy）问题。随机性策略就是把当前状态输入网络，输出的是不同动作的概率分布（比如 40% 的概率向左，60% 的概率向右）或者是对于连续动作输出一个高斯分布。而基于 Value Based 的算法是输出是每个动作的动作价值 $Q (s, a)$ ，然后选择一个价值最大的动作，也就是说输出的是一个确定的动作，这种称之为确定性策略（Deterministic Policy）。但是有些问题的最优策略是随机策略，所以此时基于 Value Based 的方法就不再适用，这时候就可以适用基于 Policy Based 的方法。

二、策略梯度

1、优化目标

类比于近似价值函数的过程： $\hat{q}(s, a, w) \approx q_\pi(s, a)$ 。对于 Policy Based 强化学习方法下，可以使用同样的方法对策略进行近似，给定一个使用参数 $\theta$ 近似的 $\pi_\theta(s,a)$ ，然后找出最好的 $\theta$ 。

那么该如何评估策略 $\pi_\theta$ 的好坏呢？也就是优化目标是什么？

对于离散动作的环境可以优化初始状态收获的期望：
$J_1(\theta) = V_{\pi_\theta}(s_1) = E_{\pi_\theta}[v_1]$
对于那些没有明确初始状态的连续环境，可以优化平均价值：
$J_{avV}(\theta) = \sum_sd_{\pi_{\theta}}(s)V_{\pi_\theta}(s)$
或者定义为每一段时间步的平均奖励：
$J_{avR}(\theta) = \sum_sd_{\pi_\theta}(s)\sum_a\pi_\theta(s,a)R(s,a)$

其中 $d_{\pi_\theta}(s)$ 是基于策略 $\pi_\theta$ 生成的马尔科夫链关于状态的静态分布

无论采用上述哪一种优化方法，最终对 $\theta$ 求导的梯度都可以表示为：
$\nabla_\theta J(\theta) = E_{\pi_\theta}[\nabla_\theta\;log\pi_\theta(s,a)R(s,a)]$
具体推导请往下看

2、Score Function

现在假设策略 $\pi_\theta$ 是可导的，就来计算策略梯度 $\nabla_\theta \pi_\theta(s,a)$ 。这里先介绍一个叫 likelihood ratio 的小技巧：
$\nabla_\theta \pi_\theta(s,a) = \pi_\theta(s,a)\frac{\nabla_\theta \pi_\theta(s,a)}{\pi_\theta(s,a)} \\ = \pi_\theta(s,a) \cdot \nabla_\theta log\pi_\theta(s,a)$
这里的 $\nabla_\theta log\pi_\theta(s,a)$ 就叫做 score function 。

下面介绍策略函数的形式，对于离散动作一般就是 Softmax Policy。关于 Softmax 函数，相信学过深度学习应该都比较了解，这里不在赘述。对于连续动作环境就是 Gaussian Policy。下面分别介绍

1）Softmax Policy

把策略用线性特征组合的方式表示为： $\phi(s,a)^T\theta$ 。此时有：
$\pi_\theta(s,a) = \frac{exp^{\phi(s,a)^T\theta}}{\sum_{a'}exp^{\phi(s,a)^T\theta}}$
此时的 score function 为：
$\begin{aligned} \nabla_\theta log\pi_\theta(s,a) & = \nabla_\theta \left[log\;exp^{\phi(s,a)^T\theta}-\sum_{a'}log\;exp^{\phi(s,a)^T\theta}\right] \\ & = \nabla_\theta\left[\phi(s,a)^T\theta - \sum_{a'}\phi(s,a)^T\theta\right] \\ & = \phi(s,a) - \sum_{a'}\phi(s,a) \end{aligned}$

2）Gaussian Policy

在连续动作空间中，一般使用 Gaussian policy 。其中的均值是特征的线性组合： $\mu(s) = \phi(s)^T\theta$ 。方差可以固定为 $\sigma^2$ 也可以作为一个参数。那么对于连续动作空间有： $a\;～ \;N(\mu(s), \sigma^2)$ 。

此时的 score function 为：
$\begin{aligned} \nabla_\theta log\pi_\theta(s,a) & = \nabla_\theta log \left[ \frac{1}{\sqrt{2\pi}\sigma} exp \left(-\frac{(a-\mu(s))^2}{2\sigma^2}\right) \right] \\ & = \nabla_\theta \left[ log\;\frac{1}{\sqrt{2\pi}\sigma} - log\; exp \left(\frac{(a-\mu(s))^2}{2\sigma^2}\right) \right] \\ & = - \nabla_\theta\left(\frac{(a-\phi(s)^T\theta)^2}{2\sigma^2}\right) \\ & = \frac{(a-\mu(s))\phi(s)}{\sigma^2} \end{aligned}$

3、Policy Gradient 推导

对于 Policy Gradient 的求导应该来说是比较复杂的，重点是理解对于一条轨迹如何表示，弄明白符号所代表的含义，推导过程也不是那么复杂。下面正式开始 Policy Gradient 的推导，首先推导对于一条 MDP 轨迹的 Policy Gradient，然后再推导有多条轨迹的情况。

1）一条MDP轨迹

开始的状态 s 有： $s\;～\;d(s)$ 。对于这一步的奖励为 $r = R (s, a)$ 。

上文有提到其中 $d_{\pi_\theta}(s)$ 是基于策略 $\pi_\theta$ 生成的马尔科夫链关于状态的静态分布

$J(\theta) = E_{\pi_\theta}[r] = \sum_{s\in S}d(s)\sum_{a\in A}\pi_\theta(s,a)\cdot r$

那么优化目标就是使奖励尽可能的大，然后使用 likelihood ratio 计算 Policy Gradient ：
$\begin{aligned} \nabla J(\theta) & = \sum_{s\in S}d(s)\sum_{a\in A}{\color{red}\pi_\theta(s,a)\; \nabla_\theta log\;\pi_{\theta}(s,a)}\cdot r \\ & =E_{\pi_\theta}[\nabla_\theta log\;\pi_{\theta}(s,a)\cdot r] \end{aligned}$

2）多条DMP轨迹的Policy Gradient推导

下面介绍在多条 MDP 轨迹的情况，假设一个状态轨迹如下表示：
$\tau = (s_0, a_0, r_1,\ldots,s_{T-1}, a_{T-1}, r_T, s_T)\;～\;(\pi_\theta,P(s_{t+1}|s_t, a_t))$

这里把按照策略 $\pi_\theta$ 的状态轨迹表示为概率 P 的形式

一条轨迹下所获得的奖励之和表示为： $R(\tau) = \sum_{t=0}^TR(s_t, a_t)$ 。那么轨迹的奖励期望就是优化目标。还可以把获得的奖励写成加和的形式：如果能表示出每条轨迹发生的概率 $P(\tau;\theta)$ ，那么每条轨迹的奖励期望就等于轨迹获得奖励乘以对应轨迹发生的概率：
$J(\theta) = E_{\pi_\theta}\left[\sum_{t=0}^TR(s_t, a_t)\right] = \sum_\tau P(\tau;\theta)R(\tau)$
此时的最优参数 $\theta^*$ 可以表示为：
$\theta^* = arg\;max_\theta J(\theta) = arg\;max \sum_\tau P(\tau;\theta)R(\tau)$
下面就来求导 $J(\theta)$ ：
$\begin{aligned} \nabla_\theta J(\theta) & = \nabla_\theta \sum_\tau P(\tau;\theta)R(\tau) \\ & = \sum_\tau P(\tau;\theta)\frac{\nabla_\theta(\tau;\theta)}{P{(\tau;\theta)}} R(\tau) \\ & = \sum_\tau P(\tau;\theta) \nabla_\theta log\;P(\tau;\theta) \cdot R(\tau) \end{aligned}$
这里 $\nabla_\theta J(\theta)$ 是基于轨迹来表示的，其实轨迹 $\tau$ 的分布是不知道的。所以可以采用 MC 采样的方法来近似表示，假如采集到 m 条轨迹，那么就可以把这 m 条奖励和取平均，就得到对优化目标的近似求导结果：
$\color{red}\nabla_\theta J(\theta) \approx \frac{1}{m}\sum_{i=1}^mR(\tau_i)\;\nabla_\theta log\;P(\tau_i;\theta)$
那一条轨迹发生的概率 $P(\tau;\theta)$ 如何表示呢？若一条轨迹图如下所示，可以看到就是是一系列的概率连乘，（注意，图中下标从 1 开始，而下面公式下标从 0 开始）

那么 $P(\tau;\theta)$ 就可以表示为：
$P(\tau;\theta) = \mu(s_0) \prod_{t=0}^{T-1}\pi_\theta(a_t|s_t)\cdot p(s_{t+1}|s_t,a_t)$
现在就把 $\nabla_\theta J(\theta)$ 中的将轨迹分解为状态和动作：
$\begin{aligned} \nabla_\theta log\;P(\tau_i;\theta) & = \nabla_\theta log\left[P(\tau;\theta) = \mu(s_0) \prod_{t=0}^{T-1}\pi_\theta(a_t|s_t)\cdot p(s_{t+1}|s_t,a_t) \right] \\ & = \nabla_\theta\left[log\;\mu(s_0) + \sum_{t=0}^{T-1}log\;\pi_\theta(a_t|s_t) + \sum_{t=0}^{T-1}log\;p(s_{t+1}|s_t,a_t) \right] \\ & = \sum_{t=0}^{T-1}\nabla_\theta\;log\;\pi_\theta(a_t|s_t) \end{aligned}$
对于一连串的连乘形式，把 log 放进去就会变成连加的形式，在上面式子中，只有中间一项和参数 $\theta$ 有关，使得最终结果大大简化。这也是为何使用 likelihood ratio 的原因，这样就可以消去很多无关的变量。然后就得到了优化目标的最终求导结果：
$\color{red}\nabla_\theta J(\theta) \approx \frac{1}{m}\sum_{i=1}^mR(\tau_i)\;\sum_{t=0}^{T-1}\nabla_\theta\;log\;\pi_\theta(a_t^i|s_t^i)$

对于当前的目标函数梯度，是基于MC采样得到的，会有比较高的方差，下一篇文章将会介绍两种减小方差的方法，以及 Policy Gradient 基础的 REINFORCE 算法。

jsfantasy

关注

12
点赞
踩
28

收藏

觉得还不错? 一键收藏
2
评论
强化学习 10 —— Policy Gradient详细推导

前面几篇文章价值函数近似、DQN算法、DQN改进算法DDQN和Dueling DQN我们学习了 DQN 算法以及其改进算法 DDQN 和 Dueling DQN 。他们都是对价值函数进行了近似表示，也就是学习价值函数，然后从价值函数中提取策略，我们把这种方式叫做 Value Based。一、Value Based 的不足回顾我们的学习路径，我们从动态规划到蒙地卡罗，到TD到Qleaning再到DQN，一路为计算Q值和V值绞尽脑汁。但大家有没有发现，我们可能走上一个固定的思维，就是我们的学习，一定要算Q
复制链接

扫一扫

专栏目录