强化学习 GAE算法：HIGH-DIMENSIONAL CONTINUOUS CONTROL USINGGENERALIZED ADVANTAGE ESTIMATION》论文笔记

最新推荐文章于 2024-02-17 14:55:20 发布

chencjiajy

最新推荐文章于 2024-02-17 14:55:20 发布

阅读量267

点赞数 1

分类专栏：强化学习文章标签：论文阅读强化学习

本文链接：https://blog.csdn.net/beingstrong/article/details/131860087

版权

强化学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

文章讨论了在高维连续控制中使用广义优势估计(GAE)来降低策略梯度算法的方差。GAE是一种利用指数加权平均减少方差的折扣优势函数估计方法，通过调整γ和λ参数来平衡偏差和方差。文章还提到了奖励塑形(Rewardshaping)的概念，以及它如何与GAE相联系，通过改变奖励函数来影响优势函数的计算。

摘要由CSDN通过智能技术生成

文章目录

1. 简介

论文《HIGH-DIMENSIONAL CONTINUOUS CONTROL USINGGENERALIZED ADVANTAGE ESTIMATION》是策略梯度算法中常用的优势估计算法GAE对应的论文，OpenAI Spinning Up教程推荐读一读这篇论文。

论文摘要翻译：策略梯度方法在强化学习中是一种很有吸引力的方法，因为它们直接优化累积奖励，并且可以直接与神经网络等非线性函数近似器一起使用。但是它存在两个主要挑战：一是通常需要大量样本；二是尽管有输入数据的非平稳性，但很难获得稳定和平稳的改进。我们让值函数以某种偏差为代价大幅减少策略梯度估计的方差来解决第一个挑战，其优势函数的指数加权估计器类似于 TD(λ)。我们通过对由神经网络表示的策略和价值函数使用信任区域优化过程来解决第二个挑战。我们的方法在极具挑战性的 3D 运动任务上产生了强大的经验结果，学习双足和四足模拟机器人的跑步步态，并学习一种策略使两足机器人从躺在地面到站立。与之前使用手工策略表示的工作相比，我们的神经网络策略直接从原始运动学映射到关节力矩。我们的算法是完全无模型的，3D双足机器人上学习任务所需的模拟经验量对应于实际时间的1-2周。

论文提出的策略梯度估计器GAE(generalized advantage estimator, GAE)可以显著降低方差，同时将偏差维持在一个可以接受的范围内，它有两个参数 $\gamma \in [0, 1]$ 和 $\lambda \in [0, 1]$ 。

2. 准备知识

设初始状态 $s_0$ 从分布 $\rho_0$ 采样得到，根据策略 $a_t \sim \pi(a_t \mid s_t)$ 采样动作，根据环境动态性 $s_{t+1} \sim P(s_{t+1} \mid s_t, a_t)$ 采样状态，直到终止状态来生成轨迹 $(s_0, a_0,s_1, a_1, \cdots)$ 。在每一时刻会得到奖励 $r_t = r(s_t, a_t, s_{t+1})$ ，强化学习的目标是最大化期望总奖励 $\sum_{t=0}^{\infty} r_t$ （假设对所有策略这个总奖励是有穷的，并且这里是不带折扣的奖励，带折扣奖励则为 $\sum_{t=0}^{\infty} \gamma^t r_t$ ）。

策略梯度最大化期望奖励是通过不断估计梯度 $\nabla_{\theta} \mathbb{E}[\sum_{t=0}^{\infty} r_t]$ ，有如下形式：
$\begin {aligned} g &= \mathbb{E} \left [\sum_{t=0}^{\infty} \Psi_t \nabla_{\theta}\ log{\pi}_{\theta}(a_t \mid s_t) \right], \ \qquad (1) \end {aligned}$
式中的 $\Psi_t$ 是下列中的任一一种：

$\sum_{t=0}^{\infty} r_t$ ：轨迹的总奖励
$\sum_{t^{\prime}=t}^{\infty} r_{t^{\prime}}$ ：从动作 $a_t$ 开始的奖励和
$\sum_{t^{\prime}=t}^{\infty} r_{t^{\prime}} - b(s_t)$ ：上一式子的baseline版本
$Q^{\pi}(s_t, a_t)$ ：状态-动作价值函数
$A^{\pi}(s_t, a_t)$ ：优势函数
$r_t + V^{\pi}(s_{t+1}) - V^{\pi}(s_t)$ ： TD残差

价值函数和状态-价值函数的定义为:
$V^{\pi}(s_t) := \mathbb{E}_{s_{t+1}:\infty, a_{t:\infty}} \left[ \sum_{l=0}^{\infty} r_{t+l} \right] \ \qquad Q^{\pi}(s_t, a_t) := \mathbb{E}_{s_{t+1}:\infty, a_{t+1:\infty}} \left[ \sum_{l=0}^{\infty} r_{t+l} \right] \ \qquad (2)$
优势函数的定义为下式，它衡量一个动作比策略的默认行为更好还是更差：
$A^{\pi}(s_t, a_t) := Q^{\pi}(s_t, a_t) - V^{\pi}(s_t) \ \qquad (3)$
尽管在实践中，优势函数是未知的必须估计得到，但是选择 $\Psi_t = A^{\pi}(s_t, a_t)$ 几乎可以得到最小的方差。该式可以通过对策略梯度的解释来直观地证明：策略梯度方向的每一步应该增加优于平均水平的动作的概率，同时减少比平均水平更差的动作的概率。

接下来引入参数 $\gamma$ 来减少方差，这是通过降低与延迟效应对应的奖励的权重来实现的，但代价是引入偏差。这个参数也对应着MDP的折扣形式里的折扣因子，但是在论文中作者们把它当做在不加折扣问题中的方差减少参数。加折扣的价值函数定义如下：
$V^{\pi, \gamma}(s_t) := \mathbb{E}_{s_{t+1}:\infty, a_{t:\infty}} \left[ \sum_{l=0}^{\infty} \gamma^lr_{t+l} \right] \ \qquad Q^{\pi, \gamma}(s_t, a_t) := \mathbb{E}_{s_{t+1}:\infty, a_{t+1:\infty}} \left[ \sum_{l=0}^{\infty} \gamma^l r_{t+l} \right] \ \qquad (4)$

$A^{\pi, \gamma}(s_t, a_t) := Q^{\pi, \gamma}(s_t, a_t) - V^{\pi, \gamma}(s_t) \ \qquad (5)$

策略梯度的折扣近似定义为：
$g^{\gamma} := \mathbb{E}_{s_{0:\infty}, a_{0:\infty}} \left [\sum_{t=0}^{\infty}A^{\pi, \gamma}(s_t, a_t) \nabla_{\theta}\ log{\pi}_{\theta}(a_t \mid s_t) \right], \ \qquad (6)$

优势函数的 $\gamma-just$ 估计器是在估计式(6)的 $g^{\gamma}$ 时用它来代替 $A^{\pi, \gamma}$ 不引入偏差的估计器。

定义1：如果满足下式，估计器 $\hat{A_t}$ 是 $\gamma-just$ ：
$\mathbb{E}_{\substack{s_{0:\infty}\\ a_{0:\infty}}} \left[\hat{A_t}(s_{0:\infty}, a_{0:\infty}) \nabla_{\theta} log \pi_{\theta}(a_t \mid s_t) \right] = \mathbb{E}_{\substack{s_{0:\infty}\\ a_{0:\infty}}} \left[A^{\pi, \gamma}(s_t, a_t) \nabla_{\theta} log \pi_{\theta}(a_t \mid s_t) \right] \ \qquad (7)$
如果对于所有t都满足 $\hat{A_t}$ 是 $\gamma-just$ ，那么有：
$\mathbb{E}_{\substack{s_{0:\infty}\\ a_{0:\infty}}} \left[ \sum_{t=0}^{\infty} \hat{A_t}(s_{0:\infty}, a_{0:\infty}) \nabla_{\theta} log \pi_{\theta}(a_t \mid s_t) \right] = g^{\gamma} \ \qquad (8)$
Proposition 1. 假设 $\hat{A_t}$ 对于所有的 $s_t, a_t)$ 可以写成形式： $\hat{A_t}(s_{0:\infty}, a_{0:\infty}) = Q(s_{0:\infty}, a_{0:\infty})\ - \ b_t(s_{0:\infty}, a_{0:\infty})$

， $\mathbb{E}_{s_{t+1:\infty} ,a_{t+1:\infty}\mid s_t, a_t} [Q_t(s_{t:\infty}, a_{t:\infty})] = Q^{\pi, \gamma}(s_t, a_t)$ ，那么 $\hat{A_t}$ 是 $\gamma-just$ 。

也就是说 $\hat{A_t}$ 是 $\gamma-just$ 的一个充分条件是 $\hat{A_t}$ 可以分解为两个函数 $Q_t$ 和 $b_t$ 之差， $Q_t$ 是可以依赖于任意轨迹变量但是给定为 $\gamma$ 折扣Q函数的无偏估计器， $b_t$ 是在 $a_t$ 之前采样的状态和动作的任意函数。

Proposition 1的证明，先将期望写成包含Q和b的形式：
$\begin{aligned} & \mathbb{E}_{s_{0: \infty}, a_{0: \infty}}\left[\nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right)\left(Q_t\left(s_{0: \infty}, a_{0: \infty}\right)-b_t\left(s_{0: t}, a_{0: t-1}\right)\right)\right] \\ & \quad=\mathbb{E}_{s_{0: \infty}, a_{0: \infty}}\left[\nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right)\left(Q_t\left(s_{0: \infty}, a_{0: \infty}\right)\right)\right] \\ & \quad-\mathbb{E}_{s_{0: \infty}, a_{0: \infty}}\left[\nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right)\left(b_t\left(s_{0: t}, a_{0: t-1}\right)\right)\right] \ \qquad (33) \end{aligned}$
再分别考虑分解后的两项，再应用定理1，说明Proposition 1是成立的：
$\begin{aligned} & \mathbb{E}_{s_{0: \infty}, a_{0: \infty}}\left[\nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right) Q_t\left(s_{0: \infty}, a_{0: \infty}\right)\right] \\ & \quad=\mathbb{E}_{s_{0: t}, a_{0: t}}\left[\mathbb{E}_{s_{t+1: \infty}, a_{t+1: \infty}}\left[\nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right) Q_t\left(s_{0: \infty}, a_{0: \infty}\right)\right]\right] \\ & \quad=\mathbb{E}_{s_{0: t}, a_{0: t}}\left[\nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right) \mathbb{E}_{s_{t+1: \infty}, a_{t+1: \infty}}\left[Q_t\left(s_{0: \infty}, a_{0: \infty}\right)\right]\right] \\ & \quad=\mathbb{E}_{s_{0: t}, a_{0: t-1}}\left[\nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right) A^\pi\left(s_t, a_t\right)\right] \end{aligned}$
$\begin{aligned} & \mathbb{E}_{s_{0: \infty}, a_{0: \infty}}\left[\nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right) b_t\left(s_{0: t}, a_{0: t-1}\right)\right] \\ & \quad=\mathbb{E}_{s_{0: t}, a_{0: t-1}}\left[\mathbb{E}_{s_{t+1: \infty}, a_{t: \infty}}\left[\nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right) b_t\left(s_{0: t}, a_{0: t-1}\right)\right]\right] \\ & \quad=\mathbb{E}_{s_{0: t}, a_{0: t-1}}\left[\mathbb{E}_{s_{t+1: \infty}, a_{t: \infty}}\left[\nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right)\right] b_t\left(s_{0: t}, a_{0: t-1}\right)\right] \\ & \quad=\mathbb{E}_{s_{0: t}, a_{0: t-1}}\left[0 \cdot b_t\left(s_{0: t}, a_{0: t-1}\right)\right] \\ & \quad=0 \end{aligned}$

我们也可以证明下列式子都是 $\hat{A_t}$ 的 $\gamma-just$ 优势估计器：

$\sum_{l=0}^{\infty} \gamma^l r_{t+l}$
$A^{\pi, \gamma}(s_t, a_t)$
$Q^{\pi, \gamma}(s_t, a_t)$
$r_t + V^{\pi, \gamma}(s_{t+1}) - V^{\pi,\gamma}(s_t)$

3. 优势函数估计

本节考虑生成折扣优势函数 $A^{\pi, \gamma}(s_t, a_t)$ 的准确估计 $\hat{A}_t$ ，它将被用于下式，式中的n是一批回合(episodes)中的索引：
$\hat{g} = \frac{1}{N} \sum_{n=1}^{N} \sum_{t=0}^{\infty} \hat{A}^{n}_t\nabla_{\theta}\ log{\pi}_{\theta}(a_t^n \mid s_t^n) , \ \qquad (9)$

设V是近似价值函数，带折扣因子 $\gamma$ 的V的TD残差为： $\delta_t^V = r_t + \gamma V(S_{t+1}) - V(s_t)$ 。 $\gamma_t^V$ 可以被看作成动作 $a_t$ 的优势估计。如果我们有正确的价值函数 $V=V^{\pi, \gamma}$ ，那么它是一个 $\gamma-just$ 优势估计器，并且 $A^{\pi, \gamma}$ 的无偏估计器为：
$\begin {aligned} \mathbb{E}_{s_{t+1}} [\delta_t^{V^{\pi, \gamma}}] & = \mathbb{E}_{s_{t+1}}[r_t + \gamma V^{\pi, \gamma}(s_{t+1}) - V^{\pi, \gamma}(s_{t})] \\ &= \mathbb{E}_{s_{t+1}}[Q^{\pi, \gamma}(s_{t}, a_t) - V^{\pi, \gamma}(s_{t})]=A^{\pi, \gamma}(s_t, a_t) \ \qquad (10) \end {aligned}$
但是这个估计器只有当 $V=V^{\pi, \gamma}$ 时是 $\gamma-just$ ，其他时候则会生成有偏的梯度策略估计。

接着，考虑一下这些 $\delta$ 项的k步之和，将它们记作 $\hat{A}_t^{(k)}$ :
$\begin {aligned} \hat{A}_t^{(1)} &:= \delta_t^V &= -V(s_t) + r_t + \gamma V(s_{t+1}) \ \qquad (11) \\ \hat{A}_t^{(2)} &:= \delta_t^V + \gamma \delta_{t+1}^V &= -V(s_t) + r_t + \gamma r_{t+1} + \gamma^2 V(s_{t+3}) \ \qquad (12) \\ \hat{A}_t^{(3)} &:= \delta_t^V + \gamma \delta_{t+1}^V + \gamma^2 \delta_{t+2}^V &= -V(s_t) + r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + \gamma^3 V(s_{t+3}) \ \qquad (13) \\ \\ \hat{A}_t^{(k)} &:= \sum_{l=0}^{k-1} \gamma^l \delta_{t+l}^V &= -V(s_t) + r_t + \gamma r_{t+1} + \cdots + \gamma^{k-1}r_{t+k-1} + \gamma^k V(s_{t+k}) \ \qquad (14) \\ \end {aligned}$
所以我们可以发现 $\hat{A}_t^{(k)}$ 是k-step估计回报减去基础项 $V(s_t)$ ，当 $\rightarrow \infty$ 时，偏差将变得很小，表示为下式，即经验回报减去基线价值函数：
$\hat{A}_t^{(\infty)} := \sum_{l=0}^{\infty} \gamma^l \delta_{t+l}^V = -V(s_t) + \sum_{l=0}^{\infty} \gamma^l r_{t+l} \ \qquad (15) \\$

介绍了这么多概念后，到了论文最关键的部分了， $GAE(\gamma, \lambda)$ 就是这些k-step估计器的指数加权平均：
$\begin{aligned} \hat{A}_t^{\mathrm{GAE}(\gamma, \lambda)}:= & (1-\lambda)\left(\hat{A}_t^{(1)}+\lambda \hat{A}_t^{(2)}+\lambda^2 \hat{A}_t^{(3)}+\ldots\right) \\ = & (1-\lambda)\left(\delta_t^V+\lambda\left(\delta_t^V+\gamma \delta_{t+1}^V\right)+\lambda^2\left(\delta_t^V+\gamma \delta_{t+1}^V+\gamma^2 \delta_{t+2}^V\right)+\ldots\right) \\ = & (1-\lambda)\left(\delta_t^V\left(1+\lambda+\lambda^2+\ldots\right)+\gamma \delta_{t+1}^V\left(\lambda+\lambda^2+\lambda^3+\ldots\right)\right. \\ & \left.\quad+\gamma^2 \delta_{t+2}^V\left(\lambda^2+\lambda^3+\lambda^4+\ldots\right)+\ldots\right) \\ = & (1-\lambda)\left(\delta_t^V\left(\frac{1}{1-\lambda}\right)+\gamma \delta_{t+1}^V\left(\frac{\lambda}{1-\lambda}\right)+\gamma^2 \delta_{t+2}^V\left(\frac{\lambda^2}{1-\lambda}\right)+\ldots\right) \\ = & \sum_{l=0}^{\infty}(\gamma \lambda)^l \delta_{t+l}^V \ \qquad \qquad (16) \end{aligned}$
GAE与 $TD(\lambda)$ 很类似，只是 $TD(\lambda)$ 是价值函数的估计，而GAE是优势函数的估计。

对于GAE有两种特殊的形式，通过使 $\lambda=0$ 和 $\lambda=1$ 分别得到：
$GAE(\gamma, 0): \ \ \hat{A}_t \ := \delta_t^V \qquad = r_t + \gamma V(S_{t+1}) - V(s_t) \ \qquad (17)$

$GAE(\gamma, 1): \ \ \hat{A}_t \ := \sum_{l=0}^{\infty}\delta_{t+l} \qquad = \sum_{l=0}^{\infty} \gamma^l r_{t+l} - V(s_t) \ \qquad (18)$

$GAE(\gamma, 1)$ 不管V的准确性都是 $\gamma-just$ ，但是因为求和项的存在使得它的方差很高， $GAE(\gamma, 0)$ 当 $V=V^{\pi, \gamma}$ 时是 $\gamma-just$ ，其余时会引入偏差，但是会有更低的方差。所以GAE控制 $\lambda$ 参数使 $0<\lambda <1$ 来进行偏差和方差的平衡。

GAE有两个参数 $\gamma$ 和 $\lambda$ ，在使用一个近似价值函数的时候，两者都是用来控制方差和偏差的平衡的，但是它们的目的不同且有不同的取值范围。 $\gamma$ 主要决定价值函数 $V^{\pi, \gamma}$ 的尺度，这不依赖于 $\lambda$ 。不管价值函数的准确与否， $\gamma <1$ 在梯度策略中引入偏差。而 $\lambda <1$ 只有在价值函数不准确时才会引入偏差。经验上，最佳 $\lambda$ 远小于最佳 $\gamma$ 值，可能因为对于很可能是准确的价值函数， $\lambda$ 相比 $\gamma$ 引入小的多的偏差。

使用GAE，从方程(6)可知，相应的折扣梯度策略为：
$g^{\gamma} \approx \mathbb{E} \left [\sum_{t=0}^{\infty}\nabla_{\theta}\ log{\pi}_{\theta}(a_t \mid s_t) \hat{A}^{GAE(\gamma, \lambda)} \right] = \mathbb{E} \left [\sum_{t=0}^{\infty}\nabla_{\theta}\ log{\pi}_{\theta}(a_t \mid s_t) \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l}^V \right], \ \qquad (19)$
当 $\lambda = 1$ 的时候，上述等式是成立的。

4. 用Reward shaping来解释

Reward shaping 是指对MDP的奖励函数进行如下式的转换：设 $\Phi \ : \ \mathcal{S} \rightarrow \mathbb{R}$ 是在状态空间的任意的scalar-valued function，定义转换后的奖励函数 $\widetilde{r}$ 为：
$\widetilde{r}(s, a, s^{\prime}) = r(s, a, s^{\prime}) + \gamma \Phi(s^{\prime}) - \Phi{s} \ \qquad (20)$
这其实是定义了一个transformed MDP。

首先考虑从状态 $s_t$ 开始的轨迹的折扣奖励和为：
$\sum^{\infty}_{l=0} \gamma^{l} \tilde{r}(s_{t+l}, a_t, s_{t+l+1}) = \sum^{\infty}_{l=0} \gamma^{l} r(s_{t+l}, a_t, s_{t+l+1}) - \Phi(s_t) \ \qquad (21)$
transformed MDP 的价值函数和优势函数，根据定义有下列式子，可知这个转换使得折扣优势函数 $A^{\pi, \gamma}$ 对任何策略都是不变的：
$\begin {aligned} \tilde{Q}^{\pi, \gamma}(s, a) &= Q^{\pi, \gamma}(s, a) - \Phi(s) \ \qquad (22) \\ \tilde{V}^{\pi, \gamma}(s, a) &= V^{\pi, \gamma}(s, a) - \Phi(s) \ \qquad (23) \\ \tilde{A}^{\pi, \gamma}(s, a) &= (Q^{\pi, \gamma}(s, a) - \Phi(s) ) - (V^{\pi, \gamma}(s, a) - \Phi(s)) = {A}^{\pi, \gamma}(s, a) \ \qquad (24) \\ \end {aligned}$
值得注意的是，如果 $\Phi$ 碰巧是原来的MDP的状态价值函数 $V^{\pi, \gamma}$ ，那么对于transformed MDP有一个有趣的性质：对于每一个状态的 $\tilde{V}^{\pi, \gamma}(s, a)$ 都为0.

将式(21)中的 $\gamma$ 用 $\gamma \lambda$ 代替，其中 $0<\lambda <1$ ，如果我们令 $\Phi=V$ ，可以发现shaped reward $\tilde{r}$ 为贝尔曼残差项 $\delta^V$ :
$\sum^{\infty}_{l=0} (\gamma \lambda)^{l} \tilde{r}(s_{t+l}, a_t, s_{t+l+1}) = \sum^{\infty}_{l=0} (\gamma \lambda)^{l} \delta^V_{t+l} = \hat{A}^{GAE(\gamma, \lambda)}_t \ \qquad (25)$
所以，通过考虑 $\gamma \lambda-discounted$ sum of shaped rewards，也得到了第三节的GAE，当 $\lambda = 1$ 时是无偏差的 $g^{\gamma}$ ，当 $\lambda <1$ 时为有偏差估计。

定义一个响应函数 $\chi$ :
$\chi(l; s_t, a_t) = \mathbb{E}[r_{t+l} \mid s_t, a_t] - \mathbb{E}[r_{t+l} \mid s_t] \ \qquad (26)$
注意 $A^{\pi, \gamma}(s, a) = \sum_{l=0}^{\infty} \gamma^l \chi(l;s,a)$ ，因此，响应函数在时间步上分解了优势函数。响应函数让我们能够量化时间信用分配问题（temporal credit assignment problem）：行动和奖励之间的长程依赖性对应于当 $\gg 0$ 时响应函数的非零值。

对于式（6）的求和项有：
$\nabla _{\theta} log \pi_{\theta}(a_t\mid s_t) A^{\pi, \gamma}(s_t, a_t) = \nabla _{\theta} log \pi_{\theta}(a_t\mid s_t) \sum_{l=0}^{\infty} \gamma^l \chi(l;s,a) \ \qquad (27)$
使用 $\gamma<1$ 对应于删除那些 $\gg 1/(1-\gamma)$ 的项，因此如果随着l的增加 $\chi$ 急剧下降的话由这个近似引起的误差会很小。比如在 $\approx 1/(1- \gamma)$ 时间步后，一个动作在在奖励上的效果将被”遗忘forgotten“。

如果奖励函数 $\tilde{r}$ 通过使用 $\Phi = V^{\pi, \gamma}$ 获得，对于 $l > 0$ 有 $\mathbb{E}[\tilde r_{t+l} \mid s_t, a_t] = \mathbb{E}[\tilde r_{t+l} \mid s_t] = 0$ ，也就是响应函数只有在l=0时才是非零值。因此这个变换temporally extended response 变成immediate response。

考虑到 $V^{\pi, \gamma}$ 完全减少响应函数的时间传播(temporal spread)，我们希望一个好的的近似 $\approx V^{\pi, \gamma}$ 能部分减轻时间传播。这个观察给出了公式(16)的一个解释：使用V来reshape 奖励来减少响应函数的temporal extent，引入一个“steeper"的折扣 $\gamma \lambda$ 减小从长延时得到的噪声，即当 $\gg 1/(1-\gamma \lambda)$ 时忽略 $\nabla _{\theta} log \pi_{\theta}(a_t\mid s_t) \delta^V_{t+l}$ 。

5. 价值函数估计

价值函数的估计方法有很多种，如果使用一个非线性函数近似器来表示价值函数，最简单的方式是求解非线性回归问题：
$\mathop{minimize}_{\phi} \sum_{n=1}^N \parallel V_{\phi}(s_n) - \hat{V}_n \parallel ^2 \ \qquad (28)$
式中的 $\hat{V}_t = \sum^{\infty}_{l=0} \gamma^l r_{t+l}$ 是折扣奖励和，n是一批轨迹的时间步的索引。估计价值函数时这也被称为Monte Carlo或TD(1)方法。

参考资料

Schulman, John, Philipp Moritz, Sergey Levine, MichaelI. Jordan, and Pieter Abbeel. 2015. “High-Dimensional Continuous Control Using Generalized Advantage Estimation.” arXiv: Learning,arXiv: Learning, June.
https://zhuanlan.zhihu.com/p/139097326
https://danieltakeshi.github.io/2017/03/28/going-deeper-into-reinforcement-learning-fundamentals-of-policy-gradients/
https://danieltakeshi.github.io/2017/04/02/notes-on-the-generalized-advantage-estimation-paper/

chencjiajy

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
强化学习 GAE算法：HIGH-DIMENSIONAL CONTINUOUS CONTROL USINGGENERALIZED ADVANTAGE ESTIMATION》论文笔记

论文《HIGH-DIMENSIONAL CONTINUOUS CONTROL USINGGENERALIZED ADVANTAGE ESTIMATION》是策略梯度算法中常用的优势估计算法GAE对应的论文
复制链接

扫一扫

专栏目录