【深度强化学习】策略梯度方法：REINFORCE、Actor-Critic

最新推荐文章于 2024-04-20 16:39:37 发布

x66ccff

最新推荐文章于 2024-04-20 16:39:37 发布

阅读量1k

点赞数 17

分类专栏：强化学习文章标签：机器学习人工智能强化学习

本文链接：https://blog.csdn.net/qq_18846849/article/details/135038894

版权

强化学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

参考 
Reinforcement Learning, Second Edition  
An Introduction 
By Richard S. Sutton and Andrew G. Barto

非策略梯度方法的问题

之前的算法，无论是 MC，TD，SARSA，Q-learning，还是 DQN、Double DQN、Dueling DQN，有至少两个问题：

都是处理离散状态、离散动作空间的问题，当需要处理连续状态 / 连续动作的时候，如果要使用这些算法，就只能把状态 / 动作离散化处理，这会导致实际相邻的 $Q (s, a)$ 的值没有联系，变化不光滑，并且随着离散空间变大，max 的比较操作需要的计算量增大，这导致不能把离散化的分辨率无限地增高。
都利用对 $V_\pi$ 或 $Q_\pi$ 取 $argmax_a$ 来得到策略 $\pi$ ，会导致只会选最优的动作，尽管有次优的动作，算法也不会去选，只会选最好的，在某些需要随机性的场景（如：非完全信息博弈（军事、牌类游戏））会产生大问题，因为行为比较有可预测性，很容易被针对。（即使有 $\epsilon$ -贪心）

在非完全信息的纸牌游戏中，最优的策略一般是以特定的概率选择两种不同玩法，例如德州扑克中的虚张声势

我们想要的是右边的策略，它能够给出一个所有动作概率都介于(0,1)的分布，并从中进行随机采样一个动作，而不是只有一个动作的值是最突出的

策略梯度

策略梯度可以同时解决以上两个问题。
我们将策略参数化为 $\pi(a|s, \theta)$ （可以是简单的线性模型+softmax，也可以是神经网络），这个策略可以被关于 $\theta$ 求导： $\nabla_\theta \pi(a|s,\theta)$ ，简写为 $\nabla \pi(a|s)$

策略梯度的直觉

我们实际上想找到一个更新策略 $\pi(a|s,\theta)$ 的方法，它在 $\theta$ 参数空间里面：

如果往一个方向走，能对给定的 $s_t,a_t)$ 获得正的回报 $G_t$ ，就往这个方向走，并且回报绝对值越大走的步子越大
如果往一个方向走，能对给定的 $s_t,a_t)$ 获得负的回报 $G_t$ ，就不往这个方向走，并且回报绝对值越大走的步子越大

和梯度下降类似，可以得到：
$\theta_{t+1} \leftarrow \theta_t + \alpha G_t \nabla \pi(a_t|s_t)$

除以 $\pi$ 变成 Ln

单纯这样更新会有问题，因为如果 $\pi$ 被初始化为存在一个次优动作（具有正回报），并且概率很大，而最优动作的概率很小，那么这个次优动作就很可能被不断地强化，导致无法学习到最优动作。

如果有三个动作，奖励是10,5,-7，对应的概率和箭头长度相同，那么5这个动作会被不断强化，因为它的初始采样概率很大
因此我们要除一个动作的概率，得到修正后的版本：

$\theta_{t+1} \leftarrow \theta_t + \alpha G_t \frac{\nabla \pi(a_t|s_t)}{\pi(a_t|s_t)}$

也就是
$\theta_{t+1} \leftarrow \theta_t + \alpha G_t \nabla \ln{\pi(a_t|s_t)}$

REINFORCE

如果这个 $G_t$ 是由 MC 采样整个序列得到的，那么就得到了 REINFORCE 算法：
在这里插入图片描述

带基线的 REINFORCE

在这里插入图片描述
唯一的区别：TD target 从 $G_t$ 变成 $G_t - \hat v(S_t,\mathbf{w})$ ，并且多一个价值网络，也进行跟更新。
好处：

减小方差
加快收敛速度

基线的直觉：
把 TD target 从全为正变成有正有负，更新的时候更有区分度。

Actor-Critic

在这里插入图片描述
再把 TD target 变化一下，从多步（MC）变成单步（TD），其他和 REINFORCE 一样。
之所以叫做 Actor-Critic 就是把基线 $\hat v(S,\mathbf{w})$ 当作评论家，它评价状态的好坏；而 $\pi(A|S)$ 当作演员，尝试去按照评论家的喜好（体现为 TD target 用评论家来进行估计）来做动作。

总结

REINFORCE：MC，更新慢
$\delta =\red{ G_t}$
$\theta_{t+1} \leftarrow \theta_t + \alpha \delta \nabla \ln{\pi(A_t|S_t)}$
基线 REINFORCE：MC，更新慢，但是有基线，方差较小，收敛快，调参难度大一些
$\delta = \red{G_t-\hat v(S_{t},\mathbf{w})}$
$\blue{\mathbf{w}_{t+1} \leftarrow \mathbf{w}_t + \alpha_{\mathbf{w}} \delta \nabla {\hat v(S_t)}}$
$\theta_{t+1} \leftarrow \theta_t + \alpha_{\theta} \delta \nabla \ln{\pi(A_t|S_t)}$
Actor-Critic：TD，更新快，调参难度大一些
$\delta = \red{R_t+\gamma \hat v(S'_{t},\mathbf{w})-\hat v(S_{t},\mathbf{w})}$
$\blue{\mathbf{w}_{t+1} \leftarrow \mathbf{w}_t + \alpha_{\mathbf{w}} \delta \nabla {\hat v(S_t)}}$
$\theta_{t+1} \leftarrow \theta_t + \alpha_{\theta} \delta \nabla \ln{\pi(A_t|S_t)}$