Policy Gradient策略梯度算法详解

好程序不脱发

已于 2023-05-16 16:54:09 修改

阅读量7.7k

点赞数 12

分类专栏：强化学习文章标签：算法人工智能强化学习机器学习

于 2023-05-16 16:47:51 首次发布

本文链接：https://blog.csdn.net/ningmengzhihe/article/details/130679350

版权

强化学习专栏收录该内容

16 篇文章

订阅专栏

1. 基本思想

Policy Gradient策略梯度（PG），是一种基于策略的强化学习算法，不少帖子会讲到从基于值的算法（Q-learning/DQN/Saras）到基于策略的算法难以理解，我的理解是两者是完全两套思路，在学习一种的时候先不要考虑另一种，更容易接受算法基本思想，了解了算法原理推导过程之后再比较两者不同之处那么更容易理解了

❀策略执行
Policy Gradient算法是学习策略概率密度函数 $\pi(a|s)$ ，它表示当前状态 $s$ 下执行动作 $a$ 的概率，策略执行的时候根据 $\pi(a|s)$ 抽样一个动作 $a$ ，这里容易混淆的地方是，抽样得到的动作 $a$ 不一定是概率最大的，某一次抽样的结果是随机的，随机性服从的是 $\pi(a|s)$ 策略概率密度

这里回顾基于值的算法（Q-learning/DQN/Saras）学习动作价值函数 $Q (s, a)$ ，策略执行的时候一般采用epsilon-greedy策略，也就是选择最大 $Q$ 值对应的动作，是不是理解了Q-learning和Policy Gradient的一个区别

❀策略学习
Policy Gradient算法的思想是先将策略表示成一个和奖励有关的连续函数，然后用连续函数的优化方法去寻找最优的策略，优化目标是最大化连续函数，最常用的是优化方法是梯度上升法（与最小化loss的梯度下降相对）。

巧妙之处在于，它利用reward奖励直接对选择动作的可能性进行增强和减弱，好的动作会被增加下一次被选中的概率，不好的动作会被减弱下次被选中的概率。

这是Policy Gradient和Q-learning算法的又一次区别，Q-learning算法每步都可以更新Q值，更新是基于梯度下降的，它的loss是TD Target，也就是当前状态下执行动作的Q值（完全是估计的），与假设再执行一步之后Q值（一部分是真实观测）的差值。

Policy Gradient的目标函数有以下三种情况
（1）最简单的优化目标就是初始状态收获的期望
（2）但是有的问题是没有明确的初始状态的，那么我们的优化目标可以定义平均价值
（3）或者定义为每一时间步的平均奖励

2. 算法动机

已经存在Q-learning/DQN/Saras这样基于值的好用的算法，为什么需要Policy Gradient呢？基于值的算法不能处理连续动作，对于高维离散动作，Q-learning更新每个值也需要大量的时间，是不可行的

Policy Gradient算法的优势和劣势总结如下

优势：

连续的动作空间（或者高维空间）中更加高效；
可以实现随机化的策略；
某种情况下，价值函数可能比较难以计算，而策略函数较容易。

劣势：

通常收敛到局部最优而非全局最优
评估一个策略通常低效（这个过程可能慢，但是具有更高的可变性，其中也会出现很多并不有效的尝试，而且方差高）

3. 原理伪代码及数学推导

Policy Gradient算法原理伪代码如下，采用的目标函数是上面讲到的第（1）种形式——最简单的优化目标就是初始状态收获的期望

图1. REINFORCE算法流程 伪代码Policy Gradient算法学习策略函数$\pi(a|s)$，它可以是神经网络，称之为策略网络，网络参数是$\theta$，策略函数记作$\pi(a|s, \theta)$

接下来推导伪代码中的 $\log\pi_\theta(s_t, a_t)$ 是如何得来的

首先，将状态价值函数 $V$ 写成动作价值函数 $Q$ 关于动作 $A$ 的期望，再对状态价值函数对S做积分得到目标函数 $J(\boldsymbol{\theta})=\mathbb{E_s}[V(S;\boldsymbol{\theta})]$ ，可以理解成上述提到的第（2）种形式，此时目标函数只和策略网络参数 $\boldsymbol{\theta}$ 有关