推导policy gradient算法以及为什么添加baseline可以减小方差且保持策略梯度不变

最新推荐文章于 2025-05-17 21:25:02 发布

xhsun1997

最新推荐文章于 2025-05-17 21:25:02 发布

阅读量1.6k

点赞数 10

分类专栏：强化学习文章标签：神经网络强化学习算法深度学习 python

本文链接：https://blog.csdn.net/m0_45478865/article/details/112150393

版权

强化学习专栏收录该内容

5 篇文章

订阅专栏

策略网络

策略函数(policy function)是行为空间上的概率密度函数，记为 $\pi(a|s)$ 。
利用策略函数可以控制agent在状态s下做出哪种行为a。
当利用神经网络近似策略函数的时候，也被称为策略网络(policy network)，记为 $\pi_\theta(a|s)$ ，其中 $\theta$ 代表神经网络(策略网络)的参数

策略网络的输入是状态，输出是行为，策略网络可以被看作是agent。

动作价值函数

在状态 $s_t$ 下做出行为 $a_t$ 会得到环境给的奖励 $r_t$ ，
定义 $G_t=r_t+\gamma r_{t+1}+\gamma^2r_{t+2}+\cdots$
$G_t$ 是在初始状态是 $s_t$ 时，直到终止状态，或者说游戏结束时agent所能获得到的累计折扣奖励(加上折扣因子一方面是避免陷入循环，另一方面是因为未来的奖励对当前是有不确定性的)。

定义动作价值函数是在状态 $s$ 下根据策略 $\pi_\theta$ 产生的所有可能的轨迹的累计折扣奖励总和：
$q_{\pi_\theta}(s,a)=\mathbb{E}(G_t|S_t=s,A_t=a)$

动作价值函数用来评价在状态 $s$ 下做出行为 $a$ 的好坏

价值函数

价值函数是对状态 $s$ 下做出的所有动作的动作价值的期望:
$V_{\pi_\theta}(s)=\underset{a\in A}{\mathbb{E}}[q_{\pi_\theta}(s,a)]$
我们写成连加的形式如下(正常来讲要区分连续和离散，连续要写成积分的形式，这里不考虑连续，因为我们大多是离散的行为空间，所以可以写成连加的形式)：
$V_{\pi_\theta}(s)=\sum_{a\in A}\pi_\theta(a|s)q_{\pi_\theta}(s,a)$
(之所以可以写成这样是因为策略函数 $\pi_\theta(a|s)$ 本身就是行为空间上的概率密度函数，而且我们又知道，当一个随机变量X的概率密度函数 $f (x)$ 已知时，那么对函数 $p (x)$ 的期望就是 $\mathbb{E}[p(x)]=\int f(x)p(x)dx$ )

价值函数可以用来评估状态 $s$ 的好坏
根据价值函数的定义以及上面两个式子我们看出，一个状态的价值可以用该状态下所有可能的行为价值来表达

策略梯度

价值函数 $V_{\pi_\theta}(s)$ 依赖于状态 $s$ 和策略网络 $\pi_\theta$ ，我们希望的是当给定状态 $s$ 时，价值函数能够给 $s$ 较高的价值，也就是使得 $V_{\pi_\theta}(s)$ 值要尽可能的大。那么自然的解决办法就是更新策略网络的参数 $\theta$ ，于是就有了策略梯度算法，它是一种梯度上升算法，目的是更新参数 $\theta$ 使得价值函数值上升。

策略梯度就是价值函数对策略网络参数的导数

(推导之前需要知道 $d\log f(x)=\displaystyle\frac{1}{f(x)}\displaystyle\frac{df(x)}{dx}$ )
下面推导:
$\begin{aligned} V_{\pi_\theta}(s) &=\sum_{a\in A}\pi_\theta(a|s)q_{\pi_\theta}(s,a) \\ \frac{\partial V_{\pi_\theta}(s)}{\partial\theta}&= \sum_{a\in A}\pi_\theta(a|s)\frac{1}{\pi_\theta(a|s)}\frac{\partial \pi_\theta(a|s)}{\partial \theta} q_{\pi_\theta}(s,a)\\ &= \sum_{a\in A}\pi_\theta(a|s)\triangledown_{\theta}\log \pi_\theta(a|s)q_{\pi_\theta}(s,a)\\ &= \underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[\triangledown_{\theta}\log \pi_\theta(A|s)q_{\pi_\theta}(s,A)] \end{aligned}$

以上就是policy gradient的推导过程，其中需要注意的是:

假设 $q_{\pi_\theta}(s,a)$ 不参与对 $\theta$ 的求导过程
$\pi_\theta(a|s)$ 是动作的概率密度函数，所以可以写成期望的形式。具体的就是对状态 $s$ 下所有可能采取的动作做期望

在实际中，我们通常都是在状态 $s$ 下根据策略网络输出的对行为的概率分布上，随机采样出一个行为 $\hat{a}$ 来近似上面的期望

$\frac{\partial V_{\pi_\theta}(s)}{\partial\theta}=\triangledown_{\theta}\log \pi_\theta(\hat{a}|s)q_{\pi_\theta}(s,\hat{a})$

策略梯度算法的流程

给定状态 $s_t$
根据策略网络输出的行为空间的概率分布，随机采样一个行为 $a_t=\pi_\theta(\cdot|s_t)$
根据动作价值函数计算状态 $s_t$ 下做出行为 $a_t$ 的价值 $q_t=q_{\pi_{\theta}}(s_t,a_t)$
计算 $\triangledown_{\theta}\log \pi_\theta(a_t|s_t)$
利用策略梯度更新参数 $\theta\leftarrow\theta+\alpha\triangledown_{\theta}\log \pi_\theta(a_t|s_t)*q_t$

REINFORCE算法

我们要注意的是上面的策略梯度算法中动作价值函数 $q_{\pi_{\theta}}(s_t,a_t)$ 我们是不知道是什么的。

我们知道的是动作价值函数 $q_{\pi_{\theta}}(s_t,a_t)$ 的定义是状态 $s_t$ 做出行为 $a_t$ 会得到的累计折扣奖励的期望，即等于 $\mathbb{E}[G_t|S_t=s_t,A_t=a_t]$ 。
累计折扣奖励是 $G_t=r_t+\gamma r_{t+1}+\gamma^2r_{t+2}+\cdots$ 。

REINFORCE算法就是利用可观测到的累计折扣奖励来近似期望值。

假设我们在状态 $s_t$ 下做出行为 $a_t$ 得到奖励 $r_t$ ，然后状态变成 $s_{t+1}$ ，再根据策略做出行为 $a_{t+1}$ 得到奖励 $r_{t+1}$ ，以此类推。直到终止状态，我们就得到了一条轨迹上的累计折扣奖励 $r_t+\gamma r_{t+1}+\gamma^2r_{t+2}+\cdots$ 。
我们利用这个累计折扣奖励值来近似动作价值函数 $q_{\pi_{\theta}}(s_t,a_t)$ 的值 $q_t$

所以REINFORCE算法就可以将策略梯度写成
$\frac{\partial V_{\pi_\theta}(s_t)}{\partial\theta}=\sum_{t=1}^{T}\triangledown_{\theta}\log \pi_\theta(a_t|s_t)R(s_t,a_t)$
其中 $R(s_t,a_t)=r_t$

添加baseline可以减小策略梯度的方差且保持期望不变

证明添加baseline对策略梯度是不变的，前提是baseline与动作无关

推导过程：
$\begin{aligned} \underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[\triangledown_{\theta}\log \pi_\theta(A|s)*b] &=b*\sum_{a\in A}\pi_\theta(a|s)\triangledown_{\theta}\log \pi_\theta(a|s) \\ &= b*\sum_{a\in A}\pi_\theta(a|s)\frac{1}{\pi_\theta(a|s)}\frac{\partial \pi_\theta(a|s)}{\partial \theta}\\ &= b*\sum_{a\in A} \frac{\partial \pi_\theta(a|s)}{\partial \theta}\\ &= b*\frac{\partial \sum_{a\in A} \pi_\theta(a|s)}{\partial \theta}\\ &= b*\frac{\partial 1}{\partial \theta} \\ &= 0 \end{aligned}$
需要注意的是：

求导和求和是可以互换的
baseline b是与动作无关的，绝对不能是关于动作的函数

知道了上面的计算过程，下面就容易了，我们来看策略梯度：
$\begin{aligned} \underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[\triangledown_{\theta}\log \pi_\theta(A|s)(q_{\pi_\theta}(s,A)-b)]&=\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[\triangledown_{\theta}\log \pi_\theta(A|s)q_{\pi_\theta}(s,A)]-\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[\triangledown_{\theta}\log \pi_\theta(A|s)b] \\ &=\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[\triangledown_{\theta}\log \pi_\theta(A|s)q_{\pi_\theta}(s,A)] \end{aligned}$
所以说添加个与动作无关的baseline是不改变策略梯度值的。

证明合适的baseline可以减小策略梯度的方差

我们需要知道方差的定义是 $\text{Var}[x]=\mathbb{E}[x^2]-\mathbb{E}^2[x]$

所以有:
$Var[\triangledown_{\theta}\log \pi_\theta(A|s)(q_{\pi_\theta}(s,A)-b)]=\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[(\triangledown_{\theta}\log \pi_\theta(A|s)(q_{\pi_\theta}(s,A)-b))^2]-\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}^2[\triangledown_{\theta}\log \pi_\theta(A|s)(q_{\pi_\theta}(s,A)-b)]$
第二项我们不需要考虑，因为我们已经推导出它和 $\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}^2[\triangledown_{\theta}\log \pi_\theta(A|s)q_{\pi_\theta}(s,A)]$ 一样的。
我们主要看第一项，如果第一项可以小于 $\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[(\triangledown_{\theta}\log \pi_\theta(A|s)q_{\pi_\theta}(s,A))^2]$ ，那么我们就证明出来添加了baseline后减小了策略梯度的方差。

推导过程：

$\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[(\triangledown_{\theta}\log \pi_\theta(A|s)(q_{\pi_\theta}(s,A)-b))^2]=\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[\triangledown_{\theta}(\log \pi_\theta(A|s))^2((q_{\pi_\theta}(s,A)-b))^2]$
我们假设变量无关性，即 $\triangledown_{\theta}\log \pi_\theta(A|s)$ 与 $q_{\pi_\theta}(s,A)-b$ 是相互独立的。那么 $\mathbb{E}(xy)=\mathbb{E}(x)\mathbb{E}(y)$ 当 $x$ 与 $y$ 相互独立时。
所以我们有：
$\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[\triangledown_{\theta}(\log \pi_\theta(A|s))^2((q_{\pi_\theta}(s,A)-b))^2]=\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[\triangledown_{\theta}(\log \pi_\theta(A|s))^2]\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[(q_{\pi_\theta}(s,A)-b)^2]$

我们主要看第二项 $\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[(q_{\pi_\theta}(s,A)-b)^2]$ ，看看 $b$ 取什么值的时候它可以小于 $\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[q_{\pi_\theta}(s,A)^2]$

我们把第二项看成是关于 $b$ 的函数，然后对 $b$ 求导，导数为0的点就是函数的极小值点(这里说明下，按理来说导数为0的点有可能是极大值，但是我们知道第二项关于 $b$ 的二阶导数是1，二阶导数值大于0，那么我们知道该点一定是极小值点)

推导过程:

$\begin{aligned} \underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[(q_{\pi_\theta}(s,a)-b)^2]&=\sum_{a\in A}\pi_\theta(a|s)(q_{\pi_\theta}(s,a)-b)^2\\ \frac{d \sum_{a\in A}\pi_\theta(a|s)(q_{\pi_\theta}(s,a)-b)^2}{d b}&= -2\sum_{a\in A}\pi_\theta(a|s)(q_{\pi_\theta}(s,a)-b)\\ \sum_{a\in A}\pi_\theta(a|s)(q_{\pi_\theta}(s,a)-b)&=0\\ \sum_{a\in A}\pi_\theta(a|s)q_{\pi_\theta}(s,a)&=\sum_{a\in A}\pi_\theta(a|s)b \\ \underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[q_{\pi_\theta}(s,A)]&=b(\text{because} \sum_{a\in A}\pi_\theta(a|s)=1) \end{aligned}$

我们最终推导出来当 $b=\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[q_{\pi_\theta}(s,A)]$ 时，上式的 $\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[(q_{\pi_\theta}(s,A)-b)^2]$ 函数值最小，且一定小于 $\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[q_{\pi_\theta}(s,A)^2]$ 。而且我们发现 $\underset{A\sim \pi_\theta(\cdot|s)}{\mathbb{E}}[q_{\pi_\theta}(s,A)]$ 正是价值函数 $V_{\pi_\theta}(s)$