【RLchina第四讲】Model-Based Reinforcement Learning

最新推荐文章于 2025-03-24 10:30:34 发布

小小何先生

最新推荐文章于 2025-03-24 10:30:34 发布

阅读量3k

点赞数 8

分类专栏： RL进阶原理

本文链接：https://blog.csdn.net/weixin_39059031/article/details/113031022

版权

RL进阶原理专栏收录该内容

18 篇文章

订阅专栏

本文介绍了强化学习中的基于模型和无模型方法的区别，探讨了不同算法如Dyna-Q、PETS和POPLIN的工作原理，同时分析了理论边界，如值差异界限，并讨论了基于模型的策略优化方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

深度强化学习有一个很大的不足点，它在数据采样效率上面是非常低的。

在机器学习里面的采样效率说的是：如果采用某个训练集，训练集的大小和模型的最终性能是有关系的，如果想达到某个性能的话，就需要多大量的训练数据。所以说不同的机器学习模型，或者说机器学习算法它需要多大量的数据其实是一个衡量这个模型好不好的一个关键指标。

由于强化学习本身就是以一种试错型的方式进行学习的，这个方式的学习算法就导致深度强化学习具有比较低的采样效率。因为如果智能体采样出来的新的数据不是特别能够帮助更新你的Q-Value，或者是更新你的Policy，那么这个采样对于整个Agent来说是利用率非常低的。

基于模型的强化学习

所以在17、18年开始就有一个新的方向，Model-Based RL。Model-Based在90年代初其实就有学者对其进行过研究。像Q-Planning、Dyna-Q都是最早期的Model-Based RL。Model这个概念在强化学习里面其实是比较特殊的，在平时说训练监督学习、无监督学习等算法中model就是预测数据模型本身，而在强化学习中，最终的输出是通过策略 $\pi$ 实现的，但是我们从来不会把ploicy $\pi$ 称之为model。我们是把环境称之为model。所以在强化的算法或者论文中，我们一般称之为环境的模型，如果是策略本身，它就称之为policy。

MBRL基本的套路就是我们依据经验数据训练一个model，然后基于这个model我们就可以在所学的这个model上面进行进一步的学习，比如像生成一些数据也好，还是传递一些梯度也好，去训练policy。通过这种方式我们就不必与真实的环境做交互，从而获得性能的提升。而当policy $\pi$ 发生了改变的话，那么它和环境交互出来的data的分布本身也会发生改变。

通常来说环境提供两个部分：

state dynamic： $p(s^{\prime}|s,a)$ 。
Reward function： $r (s, a)$ 。这个奖励可以是一个数值，也可以是一个采样出来的分布。

当给定某个具体的policy $\pi(a \mid s)$ ，和真实环境进行交互。环境进行上述两个条件概率分布计算 $p\left(s^{\prime}, r \mid s, a\right)$ ，去得到交互出来的数据 $\left\{\left(s, a, r, s^{\prime}\right)\right\}$ ：

然后基于这个交互出来的数据去训练我的Q值函数。如果是基于模型的强化学习的话，那么我们需要学一个world model： $\hat{p}\left(s^{\prime}, r \mid s, a\right)$ 。此时交互出来的数据是一个仿真数据simulated data。基于模拟数据，我们可以用无模型强化学习算法MFRL来进行学习：

通过这种方式，我们就绕开了与环境进行直接交互所带来的一些问题、弊端。

无模型RL V.S. 基于模型的RL

Model-based RL

1. 一旦模型被学习到了，之后就可以用On-Policy的方式进行学习，可以一直无限次进行交互，能够避免Off-Policy带来的一些问题。2. 当然最大的好处还是极大地减少与真实环境的交互，像Batch RL和Offline RL中就经常会采用到MBRL中的一些方法。3. 与MFRL相比具有较高的采样效率。4. 由于模型具有误差，那么会产生模型的累计误差。

Model-free RL

1. 无模型强化学习最大的好处就在于它拥有最好的效果，因为所有的数据都是真实的。2. 有时候会显现出数据的不稳定性，因为数据本身的采样并不是基于某个期望下进行的，而是随着策略 $\pi$ 改变而改变的。3. 缺陷就在于较低的采样效率，并且需要超大的算力平台。

基于模型的强化学习：黑盒模型和白盒模型

所谓的黑盒模型说的是，训练的模型只是用来采样数据。它里面到底是如何去计算state和reward，我们并不关心。我们只将其看作一个产生无穷无尽的训练数据的黑盒。然后我们产生完数据之后都是用model-free的方法来训练policy。像Dyna-Q，MPC、和MBPO这样一些经典的算法都是Blackbox的。

另外一类算法是白盒模型，白盒模型相比于黑盒模型，他的区别在于state dynamic： $p_{\phi}(s^{\prime}|s,a)$ 已知。假设当前policy的参数是 $\theta$ ： $\pi_{\theta}$ 。我们可以直接优化state $s$ 的value值，对于state $s^{\prime}$ 求导(不是对于 $V(s^{\prime})$ 的参数求导)。为什么可以对 $s^{\prime}$ 求导呢？因为 $s^{\prime}$ 可以看作 $p_{\phi}(s^{\prime}|s,a)$ 的输出，这个时候用链式法则就可以进一步对 $a$ 求导， $a$ 此时又是policy $\pi_{\theta}$ 的输出了，于是我们又可以在policy上面再通过链式法则对 $\theta$ 进行求导：

$\left.\frac{\partial V\left(s^{\prime}\right)}{\partial s^{\prime}} \frac{\partial s^{\prime}}{\partial a} \frac{\partial a}{\partial \theta}\right|_{s^{\prime} \sim f_{\phi}(s, a)}$

所以一旦把这个盒子打开，变成了一个白盒的话，我们就可以使用概率密度和梯度两种信息来进行学习。白盒模型也可以像黑盒模型一样去sample更多的data。这些工作有MAAC，SVG，PILCO等等这些算法。

从Dyna算法介绍基于模型的强化学习

学model的时候通常会采用supervised learning一类的算法进行学习。另外一类是通过计算状态转移分布 $p_{\phi}(s^{\prime}|s,a)$ 来实现的。如果我们学一个模型，然后构造(construct value function)的话，可能会带来两方面的误差，第一个是模型本身带来的误差，另外一个是value function带来的误差。

Q-Planning：

首先通过随机的智能体采样得到数据，然后学一个model： $\hat{p}\left(s^{\prime}, r \mid s, a\right)$ 。之后要做的是：

选择一个状态 $S$ 和一个动作 $A$ ，然后将其送入sample model中去，去获得下一个奖励reward和下一个状态 $S^{\prime}$ 。这样通过 $S$ 和 $A$ 就构建了一个四元 $<S,A,R,S^{\prime}>$ 。有了这样一个四元组之后，我们就可以去做Q-Learning。

Dyna：

Dyna-Q中还可以通过实际环境中获得的经验做学习。

拿到一个状态 $S$ ，然后依据 $Q$ 函数探索得到一个动作 $A$ 。有了这个采样到的动作之后，我们将其在真实环境中执行，得到真实的奖励 $R$ 和真实的下一个状态 $S^{\prime}$ 。这样也能获得一个四元组，之后就可以依据更新公式对 $Q$ 函数进行进一步的更新。之后在假定模型是确定行环境的时候，我们直接就可以依据数据训练 $M o d e l$ 了。

之后重复 $n$ 步，从之前的观测状态 $S$ 中随机选择一个，之后从动作 $A$ 中随机选择一个，依据模型 $M o d e l (S, A)$ 计算得到奖励和下一个状态，再做一步 $Q$ 更新。所以在Dyna-Q中做的是1步的MFRL和 $n$ 步的MFRL。但是每次模型只往前推进一步。

基于模型的强化学习有几个很重要的问题：

基于所学的这样一个非完美模型能不能改进我们的数据效率呢？
基于深度学习所训练的环境模型肯定不是那么准确的，这个时候我们还能不能去相信我们的模型呢？如何去相信模型采样所得到的数据呢？
如何使用我们的模型，从而获得更好的策略呢？

随机打靶算法：RS，PETS，POPLIN

在有了模型之后，能不能在近乎不学习policy的情况下能够去获得比较高的性能。因为我们有模型，这样我们就能从模型中直接进行搜索，得到最好的action。

有了model之后，通过做任何形式的action，模型都会给予反馈，告诉你当前这个决策好不好。shooting method说的就是给定当模型 $p\left(s^{\prime}, r \mid s, a\right)$ ，对于每个状态前state $s$ ，和一个候选(candidate)动作 $a$ 。可以构建一个长度为 $T$ 的action sequence：

$\left[a,a_{1}, a_{2}, \ldots, a_{T}\right]$

有了状态和所有的动作序列之后，就可以和环境进行交互，产生相应的episode：

$\left\{\left[s_{1}^{(k)}, a_{1}, r_{1}^{(k)}, s_{2}^{(k)}, a_{2}, r_{2}^{(k)}, \ldots, s_{T}^{(k)}, a_{T}, r_{T}^{(k)}\right]\right\}_{k=1, \ldots, N}$

基于上述采样样本，我们可以估计 $Q$ 值函数并得到策略 $\pi(s)$ ：

$\hat{Q}(s, a)=\frac{1}{N} \sum_{k=1}^{N} \sum_{t=0}^{T} \gamma^{t} r_{t}^{(k)} \quad \pi(s)=\arg \max _{a} \hat{Q}(s, a)$

这个时候我们根本就没学习，有了一个模型之后，之后模拟计算，走到终局或者指定的 $T$ 步，看看哪个候选动作 $a$ 能够获得较大的收益，就选哪个。当智能体走到了真正的 $s_{1}$ 之后再做一遍这个操作。这个也叫做MPC。

Random Shooting(RS)

在RS算法中，action sequence是随机采样得到的，它有一些好处，第一个好处就是这个action sequence它可以非常简单得到。它甚至不管你的state是啥，先可以把动作序列给做出来。在这个过程中是不做学习的，没有梯度的计算。它也不太需要去考虑task到底有多长这样。

同样这种做法带来的坏处也很明显，像variance就很大，因为搜索的空间很大，而只采样了一条。一种可行的办法就是说，我们把每个action不看它state的情况下，整体来看它到底能带来更大的value还是更低的value。给它做成像一个二分类一样的东西，叫cross entropy method。就是对action做一些简单的分堆，采样的时候就期望去采样得到高reward或者高value的action。这种方法与完全随机采样相比是能够获得更好的reward的。

PETS：Probabilistic Ensembles with Trajectory Sampling

在2018年的NIPS上面发表了一篇RS类算法的文章PETS。它拿一系列可训练的高斯模型做了一个ensemble。

$\operatorname{lossp}(\boldsymbol{\theta})=-\sum_{n=1}^{N} \log \widetilde{f}_{\theta}\left(\boldsymbol{s}_{n+1} \mid \boldsymbol{s}_{n}, \boldsymbol{a}_{n}\right)$

每一个高斯模型去采样下一个state的时候，他就是去follow一个mean和一个variance matrix。做一个Gaussian NN：

$\tilde{f}=\operatorname{Pr}\left(s_{t+1} \mid s_{t}, a_{t}\right)=\mathcal{N}\left(\mu_{\theta}\left(s_{t}, a_{t}\right), \Sigma_{\theta}\left(s_{t}, a_{t}\right)\right)$

本身的 $\mu_{\theta}$ 和 $\Sigma_{\theta}$ 都是用 $\theta$ 参数化的神经网络。当给定当前 $s_{t}, a_{t}$ ，我就可以确定性地去计算到 $\mu$ 和 $\Sigma$ ，基于这个 $\mu$ 和 $\Sigma$ 我就可以采样接下来的这个 $s_{t+1}$ 。

从上述论述我们可以看到每个模型都是一个Gaussian NN，我们有 $N$ 个高斯做了一个Ensemble操作。这里其实是通过集成学习降低模型的variance，这里的variance并不是 $\Sigma$ ，而是一些没有见过的数据导致的泛化性能的variance。

当我们有了 $N$ 个高斯的概率模型之后，我们就可以用这 $N$ 个概率模型去做trajectory sampling(TS)。这里所采样的trajectory sampling的方法其实是比较特殊的。因为我们有 $N$ 个高斯模型，所以我们可以直接采样出来一个高斯模型，走一步，得到一个新的高斯分布，在这个高斯分布里面，我们再采样一个新的state，接下来我们又要走下一步，走下一步的时候，我们又从这 $N$ 个高斯模型里面去采样，这样就能够实现trajectory的前向传播。基于这 $N$ 个高斯模型，我们就可以去做planning。在每一个time step上，MPC算法通过采样去计算多个最优动作序列，之后采用第一个action，然后重复上述的规划任务。这样的一种算法就称作Planning via Model Predictive Control。

这里采样获取动作的时候，采用的是CEM的方式来获取相对来说比较好的action。然后对每个动作序列去做一个评估，之后更新CEM。但是最终对于环境的执行来说，是执行最好的动作序列 $a^{*}_{t:t+T}$ 中的第一个action。采样得到的数据重新加入到数据集中去。

POPLIN

POPLIN是policy planning的一个简称，PETS这个算法采样的方式是最简单的CEM方法，它没有关注当前的state是啥，就随机给action。POLIN算法中就用一个policy去采样，也就是说在POPLIN中需要保留一个policy用来在给定当前仿真状态的时候采样一个动作。使得其在当前的状态下能够采样出来更好的action。给定一个状态，拿策略进行采样，得到的期望奖励可以表达为以下形式：

$\mathcal{R}\left(s_{i}, \mathbf{a}_{i}\right)=\mathbb{E}\left[\sum_{t=i}^{i+\tau} r\left(s_{t}, a_{t}\right)\right]$

其中 $s_{t+1} \sim f_{\phi}\left(s_{t+1} \mid s_{t}, a_{t}\right)$ ，这个时候如果在动作层面去增加一些噪声的话，可以表示为： $\mathcal{R}\left(s_{i}, \boldsymbol{\delta}_{i}\right)=\mathbb{E}\left[\sum_{t=i}^{i+\tau} r\left(s_{t}, \hat{a}_{t}+\delta_{t}\right)\right]$ 。如果直接在策略 $\pi$ 的参数层面增加噪声的话，可以表示为： $\mathcal{R}\left(s_{i}, \boldsymbol{\omega}_{i}\right)=\mathbb{E}\left[\sum_{t=i}^{i+\tau} r\left(s_{t}, \pi_{\theta+\omega_{t}}\left(s_{t}\right)\right)\right]$ 。

理论边界分析：SLBO，MBPO & BMPO

从理论层面去思考一下模型到底有多准，以至于它最终训练出来的policy和真实的policy能有多接近。这就会决定如何来使用这样一个模型。模型如果不准的话，原则上我们就少用它，少用它的话，我们的采样效率就不高。模型不准的情况下又多用它的话，最终的性能就会很低，因为引入了一些noise。

值差异界限

$V^{\pi, M^{\star}} \geq V^{\pi, \widehat{M}}-D(\widehat{M}, \pi)$

策略 $\pi$ 与环境进行交互的过程中会得到策略值函数 $V^{\pi}$ ，如果是与真实的环境进行交互的话，我们把这个值函数定义为 $V^{\pi, M^{\star}}$ ，其中的 $M^{\star}$ 表示真实的环境。如果策略 $\pi$ 是与所学环境模型 $\widehat{M}$ 获得的值函数的话，我们将这个价值定义为 $V^{\pi, \widehat{M}}$ 。这个bound的差异(discrepancy)，就在于策略 $\pi$ 与所学模型 $\widehat{M}$ 所带来的对值函数的影响，把这个影响定义为 $D(\widehat{M}, \pi)$ 。

这个bound需要一些实际的要求与假设：

R1：数据是从一个参考策略 $\pi_{ref}$ 中得到的，从 $\pi_{ref}$ 采样得到的数据中学习到的策略 $\pi$ ，与 $\pi_{ref}$ 的差距不要太大。

$V^{\pi, M^{\star}} \geq V^{\pi, \widehat{M}}-D_{\pi_{\mathrm{ref}}, \delta}(\widehat{M}, \pi), \quad \forall \pi \text { s.t. } d\left(\pi, \pi_{\mathrm{ref}}\right) \leq \delta$

R2：第二个是一个很强的假设，假设 $\widehat{M}$ 能够取到 $M^{\star}$ 。如果能够做到与真实环境一样的话，值函数之间的差异应该为0，这一点很容易理解。

$\widehat{M}=M^{\star} \Longrightarrow D_{\pi_{\text {ref }}}(\widehat{M}, \pi)=0, \quad \forall \pi, \pi_{\text {ref }}$

R3： $D_{\pi_{\text {ref }}}(\widehat{M}, \pi)$ 需要满足一个形式，参考策略 $\pi_{ref}$ 与真实环境交互采样出来的trajector $\tau$ ，所构建出来的函数再取期望： $\underset{\tau \sim \pi_{\mathrm{ref}}, M^{\star}}{\mathbb{E}}[f(\widehat{M}, \pi, \tau)]$ ，比如说我们可以定义为，所学模型的预测值与真实环境的值做L1距离：

$\text { e.g. } D_{\pi_{\text {ref }}}(\widehat{M}, \pi)=L \cdot \operatorname{E}_{S_{0}, \ldots, S_{t}, \sim \pi_{\text {ref }}, M^{\star}}\left[\left\|\widehat{M}\left(S_{t}\right)-S_{t+1}\right\|\right]$

其中 $L$ 为普希茨常数，表示神经网络上梯度最大的那个常数。

有了上述三个条件之后，就可以去做一个meta algorithm：

这里的meta algorithm说的是训练模型是一个algorithm，训练policy是一个algorithm，从meta层面上理解就是元算法。

因为trpo算法的约束与上述优化目标的约束一样，所以在训练策略的时候，直接拿trpo训练即可。策略训练完了之后，就可以拿到数据去训练模型。通过这种方式，让策略和模型相互迭代更新。通过这种方式，能够拿到策略所需要的环境模型。

这个时候就会有一个理论的收敛证明：

Theorem：基于Algorithm 1，产生得到的策略 $\pi_{0},\cdots,\pi_{T}$ 对于如下值函数单调上升：

$V^{\pi_{0}, M^{\star}} \leq V^{\pi_{1}, M^{\star}} \leq \cdots \leq V^{\pi_{T}, M^{\star}}$

Proof：

因为 $D$ 和 $d$ 满足R1，所以有：

$V^{\pi_{k+1}, M^{\star}} \geq V^{\pi_{k+1}, M_{k+1}}-D_{\pi_{k}}\left(M_{k+1}, \pi_{k+1}\right)$

通过Algorithm 1可知， $\pi_{k+1}$ 和 $M_{k+1}$ 是最优方程得到的，所以我们有(最后一个等式基于R2)：

$V^{\pi_{k+1}, M_{k+1}}-D_{\pi_{k}}\left(M_{k+1}, \pi_{k+1}\right) \geq V^{\pi_{k}, M^{\star}}-D_{\pi_{k}}\left(M^{\star}, \pi_{k}\right)=V^{\pi_{k}, M^{\star}}$

这里有两个非常强的假设：1. 能够取到这个argmax；2. 神经网络找到的 $M_{k+1}$ 能够拟合到最优的 $M^{*}$ 。

有了上述的理论分析之后，就能够去导出SLBO(Stochastic Lower Bound Optimization)：

上述算法2模型的loss为：

$\mathcal{L}_{\phi}^{(H)}\left(\left(s_{t: t+h}, a_{t: t+h}\right) ; \phi\right)=\frac{1}{H} \sum_{i=1}^{H}\left\|\left(\hat{s}_{t+i}-\hat{s}_{t+i-1}\right)-\left(s_{t+i}-s_{t+i-1}\right)\right\|_{2}$

模型和策略的优化目标为：

$\max _{\phi, \theta} V^{\pi_{\theta}, \operatorname{sg}\left(\widehat{M}_{\phi}\right)}-\lambda_{\left(s_{t: t+h}, a_{t: t+h}\right) \sim \pi_{k}, M^{\star}} \mathbb{E}\left[\mathcal{L}_{\phi}^{(H)}\left(\left(s_{t: t+h}, a_{t: t+h}\right) ; \phi\right)\right]$

SLBO提供了一种策略如何学习才能够获得性能单调递增的思路。但是这里有个很强的假设就是model能够拟合到最优真实模型。

基于模型的策略优化

两个环境模型所带来的误差有两部分组成，一个是转移模型所带来的 $\epsilon_{m}$ ，一个是策略带来的 $\epsilon_{\pi}$ ：

$\eta[\pi] \geq \hat{\eta}[\pi]-\underbrace{\left[\frac{2 \gamma r_{\max }\left(\epsilon_{m}+2 \epsilon_{\pi}\right)}{(1-\gamma)^{2}}+\frac{4 r_{\max } \epsilon_{\pi}}{(1-\gamma)}\right]}_{C\left(\epsilon_{m}, \epsilon_{\pi}\right)}$

这里的 $\eta$ 看作SLBO中的value即可。后面的与SLBO很像，以差异的方式显示出来。

$\epsilon_{\pi}=\max _{s} D_{T V}\left(\pi \| \pi_{D}\right)$ ，收集数据的 $\pi_{D}$ 和当前需要学习的 $\pi$ 产生total variation distance。total variation distance可以在空间中满足三角不等式，所以经常会被用到。KL散度就不满足，所以强化学习中常用total variation。 $\epsilon_{\pi}$ 也被叫做policy shift，意思是说policy进行相应的改变之后，它和收集数据的那个policy其实已经差距比较大了，以至于现在是在有偏的数据上进一步在训练我们当前的policy，这个值尽量越小越好。在SLBO里面用的是KL散度做的bound。

第二个是model的差距： $\epsilon_{m}=\max _{t} \mathbb{E}_{s \sim \pi_{D, t}}\left[D_{T V}\left(p\left(s^{\prime}, r \mid s, a\right) \| p_{\theta}\left(s^{\prime}, r \mid s, a\right)\right)\right]$ 。

如果模型不准的话，只能往后推演 $k$ 步。我们把这个叫做 $\eta^{branch}$

$\eta[\pi] \geq \eta^{\text {branch }}[\pi]-2 r_{\max }\left[\frac{\gamma^{k+1} \epsilon_{\pi}}{(1-\gamma)^{2}}+\frac{\gamma^{k}+2}{(1-\gamma)} \epsilon_{\pi}+\frac{k}{1-\gamma}\left(\epsilon_{m}+2 \epsilon_{\pi}\right)\right]$

在branch上采样k步得到的数据拿来训练policy，与真实policy的bound如上所示。后面的这一项中有三小项，前面两个与 $\epsilon_{\pi}$ 有关，前面两小项与 $\gamma$ 有关， $k$ 越大整体值越小。第三项与 $k$ 成线性关系。想要max住后面这一项的话，对后面的求导，发现 $k$ 等于0的效果是最好的，也就是说不要去使用model是最好的，这是一个悲观的推导。但是有值得注意的地方：

$\epsilon_{m}=\max _{t} \mathbb{E}_{s \sim \pi_{D, t}}\left[D_{T V}\left(p\left(s^{\prime}, r \mid s, a\right) \| p_{\theta}\left(s^{\prime}, r \mid s, a\right)\right)\right]$

$\epsilon_{m}$ 是在之前收集数据的策略 $\pi_{D}$ 上求期望的，如果说 $\epsilon_{m}$ 转换一下，变成使用当前策略 $\pi_{t}$ 去采样数据：

$\hat{\epsilon}_{m^{\prime}}\left(\epsilon_{\pi}\right) \approx \epsilon_{m}+\epsilon_{\pi} \frac{\mathrm{d} \epsilon_{m^{\prime}}}{\mathrm{d} \epsilon_{\pi}} \quad \epsilon_{m^{\prime}}=\max _{t} \mathbb{E}_{s \sim \pi_{t}}\left[D_{T V}\left(p\left(s^{\prime}, r \mid s, a\right) \| p_{\theta}\left(s^{\prime}, r \mid s, a\right)\right)\right]$

就可以推出新的bound：

$\eta[\pi] \geq \eta^{\text {branch }}[\pi]-2 r_{\max }\left[\frac{\gamma^{k+1} \epsilon_{\pi}}{(1-\gamma)^{2}}+\frac{\gamma^{k} \epsilon_{\pi}}{(1-\gamma)}+\frac{k}{1-\gamma}\left(\epsilon_{m^{\prime}}\right)\right]$

如果模型变化的速度，与policy shift变化的速度比例： $\frac{\mathrm{d} \epsilon_{m^{\prime}}}{\mathrm{d} \epsilon_{\pi}}$ 足够小， $k$ 就能大于0。这就使得需要使用模型去做rollout。

最终的算法如下：

通过路径反向传播：SVG and MAAC

这里我们介绍白盒模型，我们把模型打开，看到里面梯度的传递方式，我们就可以直接对于当前policy的参数求导，期望能够maxmize我们未来value的值。

与环境交互的过程中就像RNN一样，只要构建了能够反向求导的模型，我们就可以打穿整条trajectory把梯度求下来。

确定性策略梯度

在DDPG里面，策略是可以用在连续动作空间中的。critic模块对状态-动作的估计可以表示为如下形式：

$\begin{array}{c} Q^{w}(s, a) \simeq Q^{\pi}(s, a) \\ L(w)=\mathbb{E}_{s \sim \rho^{\pi}, a \sim \pi_{\theta}}\left[\left(Q^{w}(s, a)-Q^{\pi}(s, a)\right)^{2}\right] \end{array}$

上述公式中的 $a$ 就是给定状态 $s$ 之后的输出： $a=\pi_{\theta}(a)$ 。 $Q$ 函数训练好之后，就可以从当前的某一个状态 $s$ 出发，对目标函数 $J\left(\pi_{\theta}\right)$ 求导，因为要最大化 $Q$ 值，所以直接对 $a$ 求导，但 $a$ 又正好等于 $\pi_{\theta}(s)$ ，以至于我们可以把导数求下去：

$\begin{array}{c} J\left(\pi_{\theta}\right)=\mathbb{E}_{s \sim \rho^{\pi}}\left[Q^{\pi}(s, a)\right] \\ \nabla_{\theta} J\left(\pi_{\theta}\right)=\mathbb{E}_{s \sim \rho^{\pi}}\left[\left.\nabla_{\theta} \pi_{\theta}(s) \nabla_{a} Q^{\pi}(s, a)\right|_{a=\pi_{\theta}(s)}\right] \end{array}$

这样在状态 $s$ 下，想要出什么样的 $a$ 能够使得 $Q$ 值最大。这就是链式法则去优化策略参数的一种方式。

随机性策略值函数梯度

Learning Continuous Control Policies by Stochastic Value Gradients

若环境和策略都是随机的(stochastic)的话，我们就可以用重参数化的方法(reparameterization)：

通常的策略可以用一个从状态到动作的函数表示： $\mathbf{a}=\pi(\mathbf{s} ; \theta)$ 。状态转移也是用一个函数表示，输入当前状态和动作，预测下一个状态： $\mathbf{s}^{\prime}=\mathbf{f}(\mathbf{s}, \mathbf{a})$ ，当然在这个状态转移函数中我们可以去加一些噪声，这样就使得一个确定行的状态转移变成了一个随机的输出。

通过一些链式法则，对值函数求导，用下标表示求导函数，比如 $g_{x} \triangleq \partial g(x, y) / \partial x$ 这样。值函数可以表示为即时奖励和对未来值函数的预期值：

$V(\mathbf{s})=r(\mathbf{s}, \mathbf{a})+\gamma V^{\prime}(\mathbf{f}(\mathbf{s}, \mathbf{a}))$

因为我们想要最大化 $V(\mathbf{s})$ ，所以我们对 $s$ 进行求导。首先是奖励 $r(\mathbf{s}, \mathbf{a})$ 对 $s$ 进行求导，再一个因为 $r$ 中的 $a$ 也是 $s$ 的函数，所以 $r$ 先对 $a$ 求导，然后 $a$ 再对 $s$ 求导。同理 $V^{\prime}(\mathbf{f}(\mathbf{s}, \mathbf{a}))$ 需要对 $s^{\prime}$ 求导，里面 $\mathbf{f}(\mathbf{s}, \mathbf{a})$ 同样需要对 $s$ 求导，然后还要对 $a$ 求导，得到如下结果：

$V_{\mathrm{s}}=r_{\mathrm{s}}+r_{\mathrm{a}} \pi_{\mathrm{s}}+\gamma V_{\mathrm{s}^{\prime}}^{\prime}\left(\mathrm{f}_{\mathrm{s}}+\mathrm{f}_{\mathrm{a}} \pi_{\mathrm{s}}\right)$

相应的 $V$ 也可以对策略的参数 $\theta$ 进行求导：

$V_{\theta}=r_{\mathbf{a}} \pi_{\theta}+\gamma V_{\mathbf{s}^{\prime}}^{\prime} \mathbf{f}_{\mathbf{a}} \pi_{\theta}+\gamma V_{\theta}^{\prime}$

通过这种方式就可以把随机采样出来的一个轨迹直接求导往前传，通过重参数化的方法来做到这一点。本来是一个条件分布：

$\mid x)=\mathcal{N}\left(y \mid \mu(x), \sigma^{2}(x)\right)$

但是我们因为加入了一些高斯白噪声，我们可以把一个高斯变成一个均值，加上方差乘上一个白噪声：

$y=\mu(x)+\sigma(x) \xi, \text { where } \xi \sim \mathcal{N}(0,1)$

这里的 $\mu$ 和 $\sigma$ 都是完全确定性的函数，我们只是加入了一个白噪声，让其像一个高斯分布而已。同样的方式可以在状态转移函数和策略上都加入相应的噪声，这样所有的模块都是确定性的，就能将导数进行传递了。

$\mathbf{y}=\mathbf{f}(\mathbf{x}, \xi), \text { where } \xi \sim \rho(\cdot)$

$\mathbb{E}_{p(\mathbf{y} \mid \mathbf{x})} \mathbf{g}(\mathbf{y})=\int \mathbf{g}(\mathbf{f}(\mathbf{x}, \xi)) \rho(\xi) d \xi$

$\nabla_{\mathbf{x}} \mathbb{E}_{p(\mathbf{y} \mid \mathbf{x})} \mathbf{g}(\mathbf{y})=\left.\mathbb{E}_{\rho(\xi)} \mathbf{g}_{\mathbf{y}} \mathbf{f}_{\mathbf{x}} \approx \frac{1}{M} \sum_{i=1}^{M} \mathbf{g}_{\mathbf{y}} \mathbf{f}_{\mathbf{x}}\right|_{\xi=\xi_{i}}$

对于随机环境下求梯度的方式可以表示为：

$\mathbf{a}=\pi(\mathbf{s}, \eta ; \theta) \quad \mathbf{s}^{\prime}=\mathbf{f}(\mathbf{s}, \mathbf{a}, \xi) \quad \eta \sim \rho(\eta) \text { and } \xi \sim \rho(\xi)$

$\eta$ 是在策略上的白噪声， $\xi$ 是在状态转移函数上的白噪声。有了这两个模块之后，奖励模块、策略模块、状态转移模块全部都是确定性的，这就使得我们可以直接求导求下去：

$V(\mathbf{s})=\mathbb{E}_{\rho(\eta)}\left[r(\mathbf{s}, \pi(\mathbf{s}, \eta ; \theta))+\gamma \mathbb{E}_{\rho(\xi)}\left[V^{\prime}(f(\mathbf{s}, \pi(\mathbf{s}, \eta ; \theta), \xi))\right]\right]$

$V_{\mathbf{s}}=\mathbb{E}_{\rho(\eta)}\left[r_{\mathbf{s}}+r_{\mathbf{a}} \pi_{\mathbf{s}}+\gamma \mathbb{E}_{\rho(\xi)} V_{\mathbf{s}^{\prime}}^{\prime}\left(\mathbf{f}_{\mathbf{s}}+\mathbf{f}_{\mathbf{a}} \pi_{\mathbf{s}}\right)\right]$

$V_{\theta}=\mathbb{E}_{\rho(\eta)}\left[r_{\mathbf{a}} \pi_{\theta}+\gamma \mathbb{E}_{\rho(\xi)}\left[V_{\mathbf{s}^{\prime}}^{\prime} \mathbf{f}_{\mathbf{a}} \pi_{\theta}+V_{\theta}^{\prime}\right]\right]$

这就是SVG，在状态 $s$ 下直接对 $\theta$ 进行求导使得值函数变大。 $SVG(\infty)$ 对整个轨迹进行求导更新：

Model-Augmented Actor Critic: Backpropagation through paths

这篇文章的整个思路是和SVG非常像的，

$J_{\pi}(\boldsymbol{\theta})=\mathbb{E}\left[\sum_{t=0}^{H-1} \gamma^{t} r\left(s_{t}\right)+\gamma^{H} \hat{Q}\left(s_{H}, a_{H}\right)\right] \begin{array}{c} s_{t+1} \sim \hat{f}\left(s_{t}, a_{t}\right) \\ a_{t} \sim \pi_{\boldsymbol{\theta}}\left(s_{t}\right) \end{array}$