【强化学习理论基础-通用】(39)从零开始白话给你讲[数学原理]：策略梯度(Policy Gradient) - 目标函数之统一形式、梯度期望形式推导求解_policy gradient optimization中各种符号的含义-CSDN博客

本文链接：https://blog.csdn.net/weixin_43013761/article/details/145781661

$\color{red}郑重声明：该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权！$

回顾:上一篇博客中首先对策略梯度(Policy Gradient)的整体思路与逻辑进行了介绍，接着提到通常有两种常见的方式衡量策略 π 的优劣，分别为 Average state value 与 Average reward。不过还有一些细节没有分析，该篇博客会进行一定补充。

${\color{blue}本系列博客链接为：}$ 【强化学习理论基础-通用】(01)从零开始白话给你讲，简单推导公式，深刻理解，一眼万年！：https://blog.csdn.net/weixin_43013761/article/details/143168169

$\color{purple} 本博客编写于：20250217，台式机为 ubuntu 20.04，3090 GeForce RTX 显存24G}$ ：与你现在的代码，或者环境等存在一定差异也在情理之中，故切勿认为该系列博客绝对正确，且百密必有一疏，若发现错误处，恳请各位读者直接指出，本人会尽快进行整改，尽量使得后面的读者少踩坑，评论部分我会进行记录与感谢，只有这样，该系列博客才能成为精品，这里先拜谢各位朋友了。

${\color{blue}{文末正下方中心}提供了本人 \color{red} 联系方式，\color{blue}点击本人照片即可显示WX→官方认证，请备注\color{red} 强化学习}。$

一、前言

通过上一篇博客介绍知道，如果要优化一个动作决策策略 $\pi$ 的参数 $\theta$ ，如何取构建目标函数。总的两说介绍了两种方式如下：
在这里插入图片描述上述三种表达式本质上式等价的，不过上一篇博客并没有给出百分百的详细推导，因为暂时来说，那些特别底层的数学知识推导并不是目前我关注的重点对象，若后续遇到某些问题，需要深刻理解相关知识点，本人会对其进行详细分析，并补充相关博客。

数学底层公式推导博客已经完成，若想知来龙去脉请参考：【强化学习理论基础-通用】(44)从零开始白话给你讲[数学原理]：策略梯度(Policy Gradient) 无死角推导，递归详细展开，符号注释，mode-base形式

对于梯度下降或者上升函数来说，定义好目标函数之后，最重要的就是对梯度的求解。因为只有求得梯度之后才能对策略 $\pi$ 的参数 $\theta$ 进行优化。但是求解目标函数梯度可以说是策略梯度(Policy Gradient)中最复杂的一个环节。其复杂的情况主要来自细分情况太多。

首先来说根据状态概率分布是否与 $\pi$ 有关，需要区分 $d_{\pi}$ 与 $d_0$ 两种子况来考虑；另外与折扣因子具体取值也有关，比如说折扣因子 $\gamma \in[0,1]$ (distinguish) 与 $\gamma=1$ 是，其梯度不一样；且共有两种指标(Average state value 与 Average reward)，也就是 $\bar v_{\pi}$ 与 $\bar r_{\pi}$ 去构建目标函数；总的来说，因为这些子况部分可进行两两组合，使得最终目标函数的梯度求解复杂多样。

二、mode-base

上面提到，关于 $\bar v_{\pi}$ 与 $\bar r_{\pi}$ 这两个衡量指标(目标函数)梯度求解情况复杂多样，不过总体来说还是大同小异，所以也能给出一个相对统一的形式，不过这种一种简要的写法，很多细节就没有具体细分。若是对具体细节感兴趣的朋友，想知来龙去脉请参考：【强化学习理论基础-通用】(44)从零开始白话给你讲[数学原理]：策略梯度(Policy Gradient) 无死角推导，递归详细展开，符号注释，mode-base形式，先来看统一形式： $\color{red} \tag{01} \nabla_{\theta} J(\theta)=\sum_{s \in \mathcal{S}} \eta(s) [\sum_{a \in \mathcal{A}} [\nabla_{\theta} \pi(a \mid s, \theta)] q_{\pi}(s, a)]$ 上式中 $J(\theta)$ 为关于策略参数 $\theta$ 的目标函数，可以为 $\bar v(\bar v_{\pi},\bar v_{\pi}^0)$ 或者 $\bar r(\bar r_{\pi},\bar r_{\pi}^0)$ ；等式的右边首先进行关于随机变量 $S$ 的累加，其中 $\eta(s)$ 为状态 $s$ 的概率(或者说概率分布)，其可以与策略 $\pi$ 相关或无关，如上一篇博客提到的 $d_0(s)$ 与 $d_{\pi}(s)$ 处的累加其实就是求解关于随机变量 $S$ 的期望；接着还有关于随机变量 $A$ 的累加，不过要注意其是对梯度的累加，本质来说就是求随机变量 $A$ 关于梯度的期望；其中 $\nabla_{\theta}$ 表示求解相对于策略 $\pi$ 参数 $\theta$ 的梯度。

mode-base: 首先需要明确的一点是，上式需要预先知道或者预定好随机变量的 S 与 A 的概率分布，所以其本质上来说类似于 mode-base 的实现。

值得注意的是，上式中等号 ‘=’ 是广义的，因为随着目标函数 $J(\theta)$ 或者 $\eta(s)$ 以及 $\gamma$ 的选取不同，上式中的等号 ‘=’ 将不在严格成立。其具体来说可以有 $=,\approx,\propto$ 三种符号的函数以。首先基本 $=$ 与常规一样，其表示左式等与左式严格意义上的相等； $\approx$ 表示约等于，也就是说左右两式非严格意义上相等，存在少量偏差； $\propto$ 则表示左右两式相差一个缩放因子，即左右两式成比；为说明这三个符号在具体情况下的含义，来看如下几个目标函数梯度示例： $\color{green} \tag{02} \nabla_{\theta} \bar{r}_{\pi} \simeq \sum_{s} d_{\pi}(s) [\sum_{a} [\nabla_{\theta} \pi(a \mid s, \theta)] q_{\pi}(s, a)]$ 首先来说，上式中 $\approx$ 表示约等于，也就是说左右两式非严格意义上相等，存在少量偏差，其实本质上来说，就是推导过程中为简化梯度求解，省略高阶梯度。这是在工程应用推导或实践中常使用到的技巧。至于上式具体是如何推导出来，这里暂时略过，有兴趣的朋友可以去看一下赵世钰老师的书籍。

上式中的符号就不再重复介绍，若看过上一篇博客应该一眼就能分辨出来。上式给出的是关于 $\bar{r}_{\pi}$ 相对于 $\theta$ 梯度，由上一篇博客中(15)式： $\color{green} \tag{03} \bar{r}_{\pi}=(1-\gamma) \bar{v}_{\pi}$ 有提到， $\bar{r}_{\pi}$ 与 $\bar{v}_{\pi}$ 本质上来说是等价等，若是优化迭代过程中，求得参数 $\theta$ 使得 $\bar{r}_{\pi}$ 最优，那么该参数 $\theta$ 同时也满足 $\bar{v}_{\pi}$ 最优，由梯度普通乘法运算易得： $\color{green} \tag{04} \nabla_{\theta} \bar{v}_{\pi}=\frac{1}{1-\gamma} \nabla_{\theta} \bar{r}_{\pi}$ 上式与(02)式进行对比，再引入等比符号 $\propto$ 易得： $\color{green} \tag{05} \nabla_{\theta} \bar{v}_{\pi} \propto\sum_{s} [d_{\pi}(s) \sum_{a} [\nabla_{\theta} \pi(a \mid s, \theta)] q_{\pi}(s, a)]$ 通过上面的分析，已经知道 $\approx,\propto$ 这两个符号具体来源与所属情况。还剩下一个严格意义上的等于符号 ‘=’，其成立的情况通常为状态 $S$ 的概率分布与策略 $\pi$ 参数 $\theta$ 无关时： $\color{green} \tag{06} \nabla_{\theta} \bar{v}_{\pi}^{0}=\sum_{s \in \mathcal{S}} \rho_{\pi}(s)[ \sum_{a \in \mathcal{A}} [\nabla_{\theta} \pi(a \mid s, \theta)] q_{\pi}(s, a)]$ 需要注意的是，求解梯度之后状态 $S$ 的概率分布 $\rho_{\pi}(s)$ 与策略 $\pi$ 参数 $\theta$ 是相关的。直白的说，就是奖励目标函数 $\bar{v}_{\pi}^{0}$ 中的关于状态 $S$ 的概率分布为 $d_0(s)$ 其表示与策略 $\pi$ 参数 $\theta$ 是无关的。但是对其求解梯度之后得到 $\nabla_{\theta} \bar{v}_{\pi}^{0}$ ，其对应的概率分布形式上发生了变化，为 $\rho_{\pi}(s)$ ，其与参数 $\theta$ 相关。

三、mode-free

前面(01)虽然为统一形式，相对来说也是一个比较具体的形式，本质上来说其属于 mode-base，即需要知道随机变量状态 $S$ 以及动作 $A$ 对应的概率分布 $\eta(S)$ ， $\nabla_{\theta} \pi(A \mid s, \theta)$ 才能求解，且前者 $\eta(S)$ 通常来说属于未知，后者 $\nabla_{\theta} \pi(A \mid s, \theta)$ 因为 $\nabla_{\theta}$ 的存在，其未必为概率分布，因为概率分布需要保证所有概率总和为 1，另外，故其不能直接转换成期望形式。总的来说，严格意义上期望形式梯度如下所示： $\color{red} \tag{07}\nabla_{\theta} J(\theta)=\mathbb{E}_{S \sim \eta, A \sim \pi(S, \theta)}\left[(\nabla_{\theta} {\color{blue}\ln} \pi(A \mid S, \theta) q_{\pi}(S, A)\right]$ 上式中 $\sim \eta$ 表示状态随机变量 $S$ 遵循概率分布 $\eta$ ， $\sim \pi(S, \theta)$ 表示动作随机变量 $A$ 遵循概率分布 $\pi(A \mid S, \theta)$ 。与(01)式对比的，唯一不好理解就是 $\ln$ 这个符号，这个先放一下。上式中还有一个问题就是，就是这种期望形式无法直接求解，而(01)式类似于 mode-base 的方式，需要预先知道或者预定好随机变量的 $S$ 与 $A$ 的概率分布，才能去梯度进行求解。所以此处可以引入大数定律形式的随机梯度，即把(07)式转换成随机采样的形式即可： $\color{red} \tag{08}\nabla_{\theta} J \approx [\nabla_{\theta} {\color{blue}\ln} \pi(a \mid s, \theta)] q_{\pi}(s, a)$ 上式的梯度最终会以 $\theta_{t+1}=\theta_{t}+\alpha \nabla_{\theta} J\left(\theta_{t}\right)$ 的形式完成对策略 $\pi$ 参数 $\theta$ 的更新，所以随着实际采样数量的增加，最终参数 $\theta^*$ 的更新趋近于 $\color{green} \tag{09}\theta^* \approx \theta_0+\mathbb{E}[\nabla_{\theta} J ]=\mathbb{E}[(\nabla_{\theta} {\color{blue}\ln} \pi(A \mid S, \theta)) q_{\pi}(S, A)]$ 这个地方细节就不在具体分析，因为前面梯度下降的一系列博客有具体分析，如：【强化学习理论基础-通用】(18)从零开始白话给你讲[数学原理]：随机梯度下降 SGD(Stochastic gradient descent) 数学推导。现在就来寻找(07)式与(01)式之间的关系，不过得从(08)式开始推导，现在假设已经建立好(08)式这个梯度形式，那么根据梯度公式 $\nabla \ln x=\frac{1}{x}$ ，再结合链式法则，可知(08)式中 $\color{green} \tag{10}\nabla_{\theta}\ln \pi(a \mid s, \theta)=\frac{1}{\pi(a \mid s, \theta)}*\nabla\pi(a \mid s, \theta)=\frac{\nabla\pi(a \mid s, \theta)}{\pi(a \mid s, \theta)}$ 接着再把上式结论调换一下位置，可得： $\color{green} \tag{11}\nabla_{\theta} \pi(a \mid s, \theta)=\pi(a \mid s, \theta) [\nabla_{\theta} \ln \pi(a \mid s, \theta)]$ 再进一步把上式带入到(01)式中，可得： $\color{green} \tag{12} \nabla_{\theta} J(\theta)=\sum_{s \in \mathcal{S}} \eta(s) [\sum_{a \in \mathcal{A}}\pi(a \mid s, \theta) [\nabla_{\theta} \ln \pi(a \mid s, \theta)] q_{\pi}(s, a)]$ 此时，就可以与(08)式联系到一起了，首先把上式中实际采样 $s$ 写成随机变量 $S$ 期望形式为( $\eta(s)$ 为转态 $s$ 实际采样对应的概率)： $\color{green} \tag{13} \nabla_{\theta} J(\theta)=\mathbb{E}_{S \sim d}\left[\sum_{a} \pi(a \mid S, \theta) [\nabla_{\theta} \ln \pi(a \mid S, \theta)] q_{\pi}(S, a)\right]$ 认真观察上式，又因为 $\pi(a \mid S, \theta)$ 其对应的就是随机变量 $A$ 在条件 $\theta$ 下实际采样的概率，故可对随机变量 $A$ 求期望得： $\color{green} \tag{14}\nabla_{\theta} J(\theta)=\mathbb{E}_{{\color{blue}S \sim d, A \sim \pi(S,\theta)}}\left[\nabla_{\theta} [\ln \pi(A \mid S, \theta) ]q_{\pi}(S, A)\right]$ 这样就由(08)式出发，借用(01)式，进一步推导出(01)式，不过为书写简洁，会把上式中蓝色部分下标省略得： $\color{red} \tag{15}\nabla_{\theta} J(\theta)={\mathbb{E}}\left[(\nabla_{\theta}{\color{blue} \ln} \pi(A \mid S, \theta)) q_{\pi}(S, A)\right]$

四、额外提及

关于上式 ${\color{blue} \ln}$ 部分需要注意其定义域为 $(0,+\infty)$ ，所以必须确保(注意策略 $\pi$ 输出的结果是一个向量)： $\color{green} \tag{16}\pi(a \mid s, \theta)>0$ 熟悉深度学习的朋友应该知道激活函数 softmax 可以很容易使得上式成立，直白的说其就是把一个范围 $(-\infty,+\infty)$ 向量映射至 (0,1)，即归一化处理。这里给出一个简单的示例，假设向量： $\color{green} \tag{17}x=\left[x_{1}, \ldots, x_{n}\right]^{T}$ 那么通过 softmax 映射之后，向量每个元素的计算结果为：
$\color{green} \tag{18}z_{i}=\frac{e^{x_{i}}}{\sum_{j=1}^{n} e^{x_{j}}}$ 其满足 $z_{i} \in(0,1) \text { and } \sum_{i=1}^{n} z_{i}=1$ ，总的来说策略 $\pi$ 可以拆写成如下形式： $\color{green} \tag{19}\pi(a \mid s, \theta)=\frac{e^{h(s, a, \theta)}}{\sum_{a^{\prime} \in \mathcal{A}} e^{h\left(s, a^{\prime}, \theta\right)}}$ 上式中的函数 $h$ 是一个关于 $\theta$ 的函数，比如说未添加 softmax 层的神经网络。当然也可以自行设计 feature function，比如前面提到的 linear function approximation，不过这样会比较麻烦，所以现在通常来说都是神经网络。

因为 $\pi(a \mid s, \theta)>0$ ，所以每个动作都有被执行的可能，故这是一个随机(stochastic)策略，固然其属于探索性策略。在后面博客中会介绍确定性(deterministic)策略，简称为 DPG，那么就可以省略 $\pi(a \mid s, \theta)>0$ 这个条件了，这里就不在细说。

四、总结

该篇博客中，首先给出类似于 mode-base 形式策略梯度统一形式，不过并没有给出该梯度具体推导过程，不过再后续篇幅中本人会把该部分相关知识点补充完整，有兴趣的朋友也可以直接去看赵世钰老师的书籍，总的来说车略梯度如下所示：
$\color{green} \tag{20} \nabla_{\theta} J(\theta)=\sum_{s \in \mathcal{S}} \eta(s) [\sum_{a \in \mathcal{A}} [\nabla_{\theta} \pi(a \mid s, \theta)] q_{\pi}(s, a)]$ 又因为 $\color{green} \tag{21}\nabla_{\theta} \pi(a \mid s, \theta)=\pi(a \mid s, \theta) [\nabla_{\theta} \ln \pi(a \mid s, \theta)]$ 可得： $\color{green} \tag{22} \nabla_{\theta} J(\theta)=\sum_{s \in \mathcal{S}} \eta(s) [\sum_{a \in \mathcal{A}}\pi(a \mid s, \theta) [\nabla_{\theta} \ln \pi(a \mid s, \theta)] q_{\pi}(s, a)]$ 上式为随机采样形式，很容易写成如下期望形式： $\color{red} \tag{23}\nabla_{\theta} J(\theta)={\mathbb{E}}\left[(\nabla_{\theta}{\color{blue} \ln} \pi(A \mid S, \theta)) q_{\pi}(S, A)\right]$ 到目标为止，已经知道如何构建策略 $\pi$ 的衡量指标，且再该指标上构建出各种目标函数，接着该篇博客介绍了相关目标函数对应梯度如何求解，且给出期望形式梯度推导与具体求解过程。下面博客将介绍真正意义上的强化学习，也是 REINFORCE 的由来。