RL——Policy Gradient类方法

最新推荐文章于 2023-10-14 11:00:56 发布

Vic_Hao

最新推荐文章于 2023-10-14 11:00:56 发布

阅读量518

点赞数

分类专栏：强化学习

强化学习专栏收录该内容

18 篇文章 3 订阅

订阅专栏

Policy Gradient和Q-learning可以说是model-free RL的两大阵营。前者是off-line, on-policy的方法，后者是on-line, off-policy的方法。前者是策略迭代，关心的是策略网络的参数；后者是值迭代，关心的是值网络的输出。随着RL的不断发展，这两类方法在不断交错领跑的过程中交汇融合。

本文重点介绍Policy Gradient的方法，从其“初心”出发，通过一步步推导来讲述新的算法。

Policy Gradient

如果你已经了解了DQN，也许会想到这样一个问题：为什么一定要用值函数来做决策（当然这个想法也是很自然的），为什么不绕过值函数直接用神经网络来表示策略呢？
知乎上有关于这个问题的讨论。

让我们再退一步，我们想要的东西到底是什么呢？其实就是让我们采取策略的期望收益最大化：
$\theta^{*} = \underset{\theta}{argmax}E_{\tau \sim p_{\theta}(\tau)}r(\tau)$

$\tau$ 表示一条当前策略所影响的样本轨迹， $p_{\theta}(\tau)$ 是样本轨迹 $\tau$ 出现的概率。

来进一步写一下 $r(\tau)$ 和 $p_{\theta}(\tau)$ 的展开式。
$r(\tau) = \sum_{t}r(s_{t}, a_{t})$
$p_{\theta}(\tau) = p(s_{1}) \prod_{t}\pi_{\theta}(a_{t}|s_{t})p(s_{t+1}|s_{t}, a_{t})$

注意，这里的 $\tau$ 和 $t$ 的含义不同， $\tau$ 是样本轨迹， $t$ 是样本轨迹上的时间。仔细看 $p_{\theta}(\tau)$ 我们就会发现，将概率展开以后实际上我们的策略可以影响的只有 $\pi_{\theta}(a_{t}|s_{t})$ ，也就是在状态 $s_{t}$ 下采取动作 $a_{t}$ 的概率。这就是我们策略的数学表示。

REINFORCE

现在我们就可以再向前走一步，按照机器学习的一般思路，我已经定义好了我的目标函数 $J(\theta)$ ，如果可以求出它的梯度 $\triangledown_{\theta}J(\theta)$ ，我们就可以进行梯度下降了。为了求梯度，我们将 $J(\theta)$ 改写成积分的形式：
$J(\theta) = E_{\tau \sim p_{\theta}(\tau)}r(\tau) =\int p_{\theta}(\tau)r(\tau)d\tau$
$\triangledown_{\theta}J(\theta) = \int \triangledown_{\theta}p_{\theta}(\tau)r(\tau)d\tau = \int p_{\theta}(\tau) \triangledown_{\theta}\mathrm{log}p_{\theta}(\tau)r(\tau)d\tau = E_{\tau \sim p_{\theta}(\tau)}\triangledown_{\theta}\mathrm{log}p_{\theta}(\tau)r(\tau)$

这里用到一个小技巧， $\triangledown_{\theta}p_{\theta}(\tau) = p_{\theta}(\tau) \frac{\triangledown_{\theta}p_{\theta}(\tau)}{p_{\theta}(\tau)} =p_{\theta}(\tau) \triangledown_{\theta} \mathrm{log}p_{\theta}(\tau)$ ，这样做的目的是把 $p_{\theta}(\tau)$ 重新拿到外边来，就可以再写成期望的形式了。

现在公式中的自变量仍然是 $\tau$ ，实际应用中我们不可能直接对 $\tau$ 求导，因此我们再把 $p_{\theta}(\tau)$ 带进来看看能不能把 $\tau$ 替换为我们可以操作的 $s_{t}, a_{t}$

$\triangledown_{\theta} \mathrm{log}p_{\theta}(\tau) = \triangledown_{\theta} \mathrm{log}p(s_{1}) + \sum_{t} \triangledown_{\theta} \mathrm{log} \pi_{\theta}(a_{t} | s_{t}) + \sum_{t} \triangledown_{\theta} \mathrm{log}p(s_{t+1} | s_{t}, a_{t}) = \sum_{t}\triangledown_{\theta} \mathrm{log} \pi_{\theta}(a_{t} | s_{t})$

$\triangledown_{\theta}J(\theta) = E_{\tau \sim p_{\theta}(\tau)}[\sum_{t}\triangledown_{\theta} \mathrm{log} \pi_{\theta}(a_{t} | s_{t})][\sum_{t}r(s_{t}, a_{t})]$

于是，我们也就得到了我们的第一个算法REINFORCE：

用参数为 $\theta$ 的策略 $\pi_{\theta}(a|s)$ 采样N条样本轨迹 $\tau_{i}$ ，每条轨迹都是独立的样本
估计梯度
$\triangledown_{\theta}J(\theta) = \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T} [\triangledown_{\theta} [\mathrm{log} \pi_{\theta}(a_{t,n} | s_{t,n})r(\tau_{n})]]$
在这里我们还要使用一个重要的技巧： $\triangledown_{\theta}J(\theta) = \frac{1}{N} \sum_{i} [\sum_{t} [ \triangledown_{\theta} \mathrm{log} \pi_{\theta}(a_{t} | s_{t}) \sum_{t}r(s_{t}, a_{t})]$ ——在下一部分有详细推导。原理其实就是我们执行[ $r(\tau_{n})+b$ ]来代替 $r(\tau_{n})$ 不会对 $\triangledown_{\theta}J(\theta)$ 的结果产生影响，前提是b和 $\pi_{\theta}(a_{t}, s_{t})$ 没有任何关系。
更新参数 $\theta \leftarrow \theta + \alpha \triangledown_{\theta} J(\theta)$
重复上述步骤

一个popular的选项对于 $\pi_{\theta}(a | s)$ 来说，是高斯策略模型，即策略参数 $\pi$ 是由均值 $\mu$ 和方差 $\sigma^{2}$ 构成的。

$\pi_{\theta}(a | s) \rightarrow \pi(a | s, \mu, \sigma) = \frac{1}{\sigma \sqrt{2 \pi}} \mathrm{exp} (-\frac{(a-\mu^{T} \phi(s))^2}{2 \sigma^2})$

此处， $\phi (s)$ 表示基函数（the basis function）
$\triangledown_{\mu} \mathrm{log} \pi (a | s, \mu, \sigma) = \frac{a - \mu^{T} \phi(s)}{\sigma^{2}} \phi(s)$ $\triangledown_{\sigma} \mathrm{log} \pi (a | s, \mu, \sigma) = \frac{(a - \mu^{T} \phi(s))^2 - \sigma^2}{\sigma^{3}}$

REINFORCE Pytorch 代码实现

Actor-Critic

REINFORCE方法有很多缺点，首先它的效率非常低，一个重要原因是方差非常大。 $\sum_{t}r(s_{t}, a_{t})$ 是每一次仿真的结果，如果效果好了就会对这一次仿真的所有决策奖励，效果不好了就会全部惩罚，这显然是有问题的。

让我们再来好好看一下 $\triangledown_{\theta} J (\theta) = E_{\tau \sim p_{\theta}(\tau)} [\sum_{t} \triangledown_{\theta} \mathrm{log} \pi_{\theta}(a_{t}|s_{t})][\sum_{t}r(s_{t}, a_{t})]$

如果 $t_{2} > t_{1}$ ， $\pi_{\theta}(a_{t_{2}}|s_{t_{2}})$ 理论上是不会对 $\sum_{t=0}^{t_{1}}r(s_{t}, a_{t})$ 产生影响的，因此，上个式子可以改进成为：
$\triangledown_{\theta}J_{\theta}(\theta) = E_{\tau \sim p_{\theta}(\tau)}[\sum_{t} \triangledown_{\theta}\mathrm{log}\pi_{\theta}(a_{t}|s_{t})\sum_{t'=t}r(s_{t'},a_{t'})] = E_{\tau \sim p_{\theta}(\tau)}[\sum_{t} \triangledown_{\theta}\mathrm{log}\pi_{\theta}(a_{t}|s_{t})Q(s_{t}, a_{t})]$

实际上， $Q_{t} = \sum_{t'=t}r(s_{t'}, a_{t'})$ 和我们对Q-value的定义非常接近了，都是从时刻 $t$ 开始到结束时的reward收益。

我们已经减小一些方差了，能不能再减小吗？对于随机变量 $X$ ，其方差 $DX = EX^{2} - (EX)^{2}$ ，如果 $EX^{2}$ 比较小的话，那么方差就会小了。自然就想到给 $r(\tau)$ 减去一个值，即 $r(\tau) \leftarrow r(\tau) - b$ ，选择合适的 $b$ （比如 $\frac{1}{N}\sum_{i}r(\tau_{i})$ ），那么方差就会变小了。方差小了，结果会不会变呢？
答案是不变的，我们来证明一下：
$E[\triangledown_{\theta} \mathrm{log} \pi_{\theta}(\tau)b] = \int \pi_{\theta}(\tau) \triangledown_{\theta} \mathrm{log} \pi_{\theta}(\tau) b d\tau = \int \triangledown_{\theta} \pi_{\theta}(\tau)bd\tau = b \int \triangledown_{\theta} \pi_{\theta}(\tau)d\tau = b \triangledown_{\theta} \int \pi_{\theta}(\tau)d\tau = b\triangledown_{\theta}1 = 0$

所以只要 $b$ 本身是与 $\tau$ 无关的，那么我们就可以这样做！上面的证明是以 $\tau$ 为自变量的，其实当我们用 $Q_{t}$ 时一样可以推出这个结果。

$b$ 的选取就成为了新出现的问题。理论上可以推出一个最优的 $b$ ，不过应用中我们会用 $V_{t}$ 估计 $b$ 。也就是说用另外的一个网络来估计 $Q(s_{t}, a_{t})$ ， $V_{t} = E_{a_{t} \sim \pi_{\theta}(a_{t} | s_{t})}Q(s_{t}, a_{t})$ ，这样就有：
$\triangledown_{\theta}J(\theta) = E_{\tau \sim p_{\theta}(\tau)}[\sum_{t} \triangledown_{\theta} \mathrm{log}\pi_{\theta}(a_{t} | s_{t})]$

Actor-Critic是一个算法框架，这里给出其中一种算法流程：

用参数为 $\theta$ 的策略 $\pi_{\theta}(a | s)$ 采样N个状态转移

Reference:
https://blog.csdn.net/Pony017/article/details/81146374
https://www.cnblogs.com/wangxiaocvpr/p/6623078.html

Vic_Hao

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
RL——Policy Gradient类方法

Policy Gradient和Q-learning可以说是model-free RL的两大阵营。前者是off-line, on-policy的方法，后者是on-line, off-policy的方法。前者是策略迭代，关心的是策略网络的参数；后者是值迭代，关心的是值网络的输出。随着RL的不断发展，这两类方法在不断交错领跑的过程中交汇融合。本文重点介绍Policy Gradient的方法，从其“初...
复制链接

扫一扫

专栏目录