强化学习自然策略梯度Natural Policy Gradient推导-CSDN博客

本文链接：https://blog.csdn.net/qq_29745719/article/details/127479715

本文详细介绍了自然策略梯度NPG的概念，包括似然函数、对数似然、Scorefunction、Fisher Information Matrix及其性质，以及KL散度和自然梯度的推导过程。通过这些概念，我们了解到如何在优化策略梯度时利用FIM约束，实现更有效率的参数更新。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强化学习自然策略梯度Natural Policy Gradient推导

前言
预先准备的知识
Natural Policy Gradient

前言

最近在学习TRPO，发现里面好多好多完全陌生的概念。为了能够尽量多地去理解TRPO算法的原理，所以正在一步一步地学习里面的新概念，其中一个就是自然策略梯度：Natural Policy Gradient (NPG)。在这里整理出来，一方面防止自己忘记，另一方面哪里接错了，还请各位大佬指正一下^_^。

预先准备的知识

似然函数与对数似然函数

有一个随机变量 $X$ ，它的理想概率分布为： $\sim p(x;\theta)$ 。 $X$ 是啥样的不知道， $p$ 是啥样的也不知道。现对 $X$ 进行 $n$ 次采样，得到 $n$ 组独立同分布的样本 $\left\{x_1, x_2, \cdots, x_n\right\}$ 。那么定义其似然函数为：
$L(X;\theta)=\prod_{i=1}^n{p(x_i|\theta)}$
对数似然为：
$\ln L=\ln{\prod_{i=1}^n{p(x_i|\theta)}}=\sum_{i=1}^n{\ln{p(x_i|\theta)}}=\ln{p(x|\theta)}$
只不过最后一个等式的 $p$ 是向量函数了， $p$ 的导数要加转置符号。

Score function

Score function，记为 $S$ ，被定义为对数似然的雅克比矩阵 (一阶导数)：
$S=Ja(\ln L)=Ja(\ln{p(x|\theta)})$
其中 $J a ()$ 是求雅可比矩阵，score function 有一个特性：期望为零。
$\begin{align} \begin{aligned} \mathbb{E}_{x\sim p(x|\theta)}[S] &= \int_x p(x|\theta)\nabla\ln{p(x|\theta)}dx \\ &= \int_x p(x|\theta)\frac{1}{p(x|\theta)}\nabla p(x|\theta)dx \\ & =\nabla \int_x p(x|\theta)dx \\ &=\nabla1=0 \end{aligned} \end{align}$
这是一个蛮重要的性质。

Fisher Information Matrix (FIM)

FIM的定义是Score function 的二阶距
$F(\theta)=\mathbb{E}_{x\sim p(x|\theta)}[S^2]$
$F(\theta)$ 也有一个不是一眼能看出来的性质：
$F(\theta)= -\mathbb{E}_{x\sim p(x|\theta)}\left[H(\ln p(x|\theta))\right]$
其中， $H$ 是Hessian矩阵 (二阶导数)。

为方便推导，先把FIM化简 (将 $p(x|\theta)$ 简记为 $p$ )：
$\begin{align} \begin{aligned} F(\theta) &= \mathbb{E}_{x\sim p(x|\theta)}[S^2] \\ &= \mathbb{E}_{x\sim p(x|\theta)}[S^2] - 0 \\ &= \mathbb{E}_{x\sim p(x|\theta)}[S^2] -[\mathbb{E}_{x\sim p(x|\theta)}(S)]^2 \\ &= \mathbb{E}_{x\sim p(x|\theta)}\left[\nabla\ln p (\nabla\ln p)^T\right] \end{aligned} \end{align}$
接下来从 $\ln p$ 的Hessian矩阵开始推
$\begin{align} \begin{aligned} H(\ln p) = Ja(\nabla \ln p)=Ja\left(\frac{\nabla p}{p}\right)=\frac{H(p)p-\nabla p\nabla p^T}{p\cdot p^T} \end{aligned} \end{align}$
等式两边同时取期望，有
$\begin{align} \begin{aligned} \mathbb{E}\left[H(\ln p)\right] &= \mathbb{E}\left[\frac{H(p)p-\nabla p\nabla p^T}{p\cdot p^T}\right] \\ &= \mathbb{E}\left[\frac{H(p)p}{p\cdot p^T}\right] -\mathbb{E}\left[\frac{\nabla p\nabla p^T}{p\cdot p^T}\right] \\ &=\int_xp\frac{H(p)p}{p\cdot p^T}dx-\mathbb{E}\left[\frac{\nabla p}{p}\cdot\frac{\nabla p^T}{p^T}\right] \\ &=H\left[\int_xpdx\right]-\mathbb{E}\left[\nabla\ln p\cdot (\nabla\ln p)^T\right] \\ &=H(1)-F(\theta)\\ &=-F(\theta) \end{aligned} \end{align}$
推导完毕。

KL散度 (KL divergence)

KL散度是用来衡量两个概率分布的“差异性”的。当概率分布函数的参数 $\theta$ 发生一个微小变化 $d\rightarrow 0$ 时，其KL散度为
$\begin{align} \begin{aligned} KL\left[p(\theta)||p(\theta')\right] &= \int_{x\sim p(\theta)}{p(\theta)\ln{\frac{p(\theta)}{p(\theta')}}}dx \\ &= \int_{x\sim p(\theta)}{p(\theta)\ln{p(\theta)}}dx-\int_{x\sim p(\theta)}{p(\theta)\ln{p(\theta')}}dx \end{aligned} \end{align}$
在 $\theta'=\theta$ 处将上面第二项Taylor展开，有 (积分符号下边的 $x\sim p(\theta)$ 省略)
$\begin{align} \begin{aligned} KL\left[p(\theta)||p(\theta')\right] &= \int{p(\theta)\ln{p(\theta)}}dx-\int{p(\theta)\ln{p(\theta')}}dx \\ &= \int{p(\theta)\ln{p(\theta)}}dx-\int{p(\theta)\left[\ln p(\theta)+\nabla\ln p(\theta)^Td+\frac{1}{2}d^T\nabla^2\ln p(\theta)d\right]}dx \\ &= -\int p(\theta)\nabla\ln p(\theta)^Tdx\cdot d-\frac{1}{2}d^T\int p(\theta)\nabla^2\ln p(\theta)dx\cdot d \\ &= -\nabla\int p(\theta)\frac{p(\theta)}{p(\theta)}dx\cdot d-\frac{1}{2}d^T\int p(\theta)\nabla^2\ln p(\theta)dx\cdot d \\ &= -\frac{1}{2}d^T\int p(\theta)\nabla^2\ln p(\theta)dx\cdot d \\ &= -\frac{1}{2}d^T\int p(\theta)(-H\left[\ln p(\theta)\right])dx\cdot d \\ &=\frac{1}{2}d^T\mathbb{E}\left[H(\ln p)\right]d \\ &=\frac{1}{2}d^TF(\theta)d \end{aligned} \end{align}$
如果取费雪信息矩阵 $F(\theta)$ 作为度量矩阵，那么 $\left\|d\right\|^2=d^TF(\theta)d=2KL\left[p(\theta)||p(\theta+d)\right]$ ，即参数更新的模长平方约等于二倍的参数更新前后概率分布的KL散度。

Natural Gradient

在得到上面的结论之后，我们可以通过将参数更新前后的KL散度约束在某一个区域内的方式，来实现既快又准的更新参数。
$d^*=\argmin_{d\ \ s.t. KL\left[p_{\theta}||p_{\theta+d}\right]=c}\mathcal{L(\theta+d)}$
运用拉格朗日乘子法，有
$\begin{align} \begin{aligned} D &= \mathcal{L(\theta+d)}+\lambda(KL\left[p_{\theta}||p_{\theta+d}\right]-c) \\ &= \mathcal{L(\theta)} + \nabla_{\theta}L(\theta)^Td+\lambda KL\left[p_{\theta}||p_{\theta+d}\right]-\lambda c \\ &= \mathcal{L(\theta)} + \nabla_{\theta}L(\theta)^Td + \frac{1}{2}\lambda d^TF(\theta)d-\lambda c \end{aligned} \end{align}$
令 $\frac{\partial D}{\partial d}=0$ ，有
$\begin{align} \begin{aligned} \nabla_{\theta}L(\theta) + \lambda F(\theta)d=0 \end{aligned} \end{align}$
进而可得
$\begin{align} \begin{aligned} d= -\frac{1}{\lambda}F(\theta)^{-1}\nabla_{\theta}L(\theta)=-\frac{1}{\lambda} \widetilde{\nabla}_{\theta}L(\theta) \end{aligned} \end{align}$
参数更新方向为：
$\begin{align} \begin{aligned} d \leftarrow d-\alpha \widetilde{\nabla}_{\theta}L(\theta) \end{aligned} \end{align}$

Natural Policy Gradient

自然策略梯度是自然梯度与策略梯度的结合，策略梯度算法中使用目标函数对参数的导数为参数更新提供方向， $\alpha$ 为更新步长。Natural Policy Gradient是使用上面推导得到的自然梯度来为参数更新提供方向。

普通的策略梯度可以表示为：
$\begin{align} \begin{aligned} \nabla J(\theta)=\int_{\mathcal{S}}\rho^{\pi}(s)\int_{\mathcal{S}} \nabla_{\theta}\pi(a|s;\theta)\cdot Q^{\pi}(s,a) \cdot da\cdot ds \end{aligned} \end{align}$
策略函数本身就是一个概率分布 $\pi(a|s;\theta)$ ，它的Fisher信息矩阵为
$\begin{align} \begin{aligned} F_s(\theta)=\mathbb{E}_{\pi(a|s;\theta)}\left[(\nabla\ln\pi) (\nabla\ln\pi)^T\right] \end{aligned} \end{align}$
考虑到状态空间的一个平稳概率分布 $\rho^{\pi}(s)$ ，整体的Fisher信息矩阵为
$\begin{align} \begin{aligned} F(\theta)=\mathbb{E}_{\rho^{\pi}(s)}F_s(\theta) \end{aligned} \end{align}$
最终，自然策略梯度里面的梯度可以表示为：
$\begin{align} \begin{aligned} \widetilde{\nabla}_{\theta}J(\theta)= F(\theta)^{-1}\nabla J(\theta) \end{aligned} \end{align}$
实际使用时，可以用一个 $Q$ 网络来近似 $Q^{\pi}(s,a)$ ，用一个 $\pi$ 网络近似 $\pi(s, a)$ 。虽然神经网络很多东西说不清楚，但是不得不承认用着效果挺好的。