策略梯度方法介绍——策略梯度定理推导过程

静静的喝酒

已于 2022-07-28 15:15:34 修改

阅读量2.4k

点赞数 11

分类专栏：强化学习文章标签：算法人工智能概率论机器学习

于 2022-07-22 17:54:13 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/125929926

版权

本文深入探讨了强化学习中的策略梯度方法，介绍了目标函数与状态分布的关系，并详细推导了策略梯度定理。通过状态分布，展示了状态出现的平均次数和出现概率，进而阐述了策略梯度定理的求解过程，解释了如何利用状态转移概率和策略函数的梯度来更新策略。最后，总结了策略梯度的方向对于优化目标函数的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

策略梯度方法介绍——策略梯度定理推导过程

通常将目标函数 $\mathcal J(\theta)$ 定义为 情节中初始状态回报的期望，即初始状态的状态价值函数：
$\mathcal J(\theta) = \mathbb E_{\pi(a \mid s;\theta)}[G_0 \mid S = s_0] \triangleq V_{\pi(a \mid s;\theta)}(s_0)$
情节中策略函数 $\pi(a \mid s;\theta)$ 的变化会影响状态分布的变化，而状态分布的变化直接影响目标函数 $\mathcal J(\theta)$ 的变化。

关于状态 $s$ 出现的平均次数表示如下：
$\begin{aligned} \eta(s) & = h(s) + \sum_{\bar s}\eta(\bar s)\sum_{a}\pi(a \mid \bar s)P(s \mid \bar s,a) \\ & = \sum_{k=0}^{T-1}P_r\{s_0 \to s,k,\pi\} \end{aligned}$
其中， $P_r\{s_0 \to s,k,\pi\}$ 表示初始状态 $s_0$ ,在策略函数 $\pi$ 的条件下，经过 $k$ 次状态转移，最终达到状态 $s$ 的概率。即 存在 $P_r\{s_0 \to s,k,\pi\}$ 的概率，初始状态 $s_0$ 经过 $k$ 次状态转移后的状态必然是状态 $s$ (必出现一次状态 $s$ )。
因而，状态 $s$ 在情节中出现的平均次数 $\eta(s)$ 即 从初始时刻 $t = 0$ 开始，到情节结束的前一个时刻 $T - 1$ 之间所有时刻“出现一次状态 $s$ ”的平均次数之和。
状态 $s$ 的出现概率表示如下：
$\mu(s) = \frac{\eta(s)}{\sum_{s'} \eta(s')}$

策略梯度定理

策略梯度定理本质就是求解 目标函数的梯度 $\nabla \mathcal J(\theta)$ ， $\nabla \mathcal J(\theta)$ 自身是一个向量，它包含两个要素：

梯度数值；
梯度方向；

相比于梯度数值，我们更关心的是梯度方向——梯度方向会 引导目标函数 $\mathcal J(\theta)$ 向最优方向收敛，而梯度数值在迭代过程中会与学习率 $\alpha$ 相乘，它只参与决定 $\mathcal J(\theta)$ 收敛的步长(step)。
在后续推导过程中会用到该思想。

策略梯度定理求解过程

根据目标函数的描述，将 $\nabla \mathcal J(\theta)$ 表示如下：
为了使推导过程更具有‘普遍性’ -> 将s_0用s表达;
$\nabla \mathcal J(\theta) = \nabla V_\pi(s)$
将 $V_\pi(s)$ 使用贝尔曼期望方程进行展开：
$\nabla V_\pi(s) = \nabla \sum_{a \in \mathcal A(s)}\pi(a \mid s)q_\pi(s,a)$
将连加符号 $\sum_{a \in \mathcal A(s)}$ 与梯度符号交换位置——即对连加操作中的每一项求解梯度，并对 $\pi(a \mid s)q_\pi(s,a)$ 求解梯度；
可以看成‘乘法求导’。
$\sum_{a \in \mathcal A(s)} \nabla \pi(a \mid s)q_\pi(s,a) + \sum_{a \in \mathcal A(s)}\pi(a \mid s)\nabla q_\pi(s,a)$

此时观察第二项 $\sum_{a \in \mathcal A(s)}\pi(a \mid s)\nabla q_\pi(s,a)$ 。 $q_\pi(s,a)$ 可以继续展开，即状态 $s$ 条件下选择并执行动作 $a$ ，经过状态转移得到下一时刻状态 $s^{'}$ 。
$\begin{aligned} \nabla q_\pi(s,a) & = \nabla \sum_{s',r}P(s',r \mid s,a)[r + \gamma V_\pi(s')] \\ & = \nabla \sum_{s',r}P(s',r \mid s,a) \cdot r + \nabla \sum_{s',r} \gamma P(s',r \mid s,a) V_\pi(s') \end{aligned}$
我们要对 $\theta$ 求解梯度，只有策略函数 $\pi(a \mid s;\theta)$ 和包含策略函数的 $V_\pi,q_\pi$ 中含有 $\theta$ 。因此：动态特性函数 $\mid s,a)$