GAE 算法

最新推荐文章于 2024-07-09 18:33:04 发布

chnyist

最新推荐文章于 2024-07-09 18:33:04 发布

阅读量1.7k

点赞数 3

本文链接：https://blog.csdn.net/chnyist/article/details/107847564

版权

本文详细介绍了策略梯度算法中优势函数的重要性和估计方法，特别是广义优势估计（GAE）的概念。GAE通过指数加权平均的方式平衡了偏差和方差，用于减少长期回报的噪声。文章还探讨了折扣因子γ和λ的影响，并解释了回报变形后的意义。

摘要由CSDN通过智能技术生成

由于 CSDN 只支持 KaTeX, 因此有些公式可能无法正常显示, 如果想要获得更好的阅读体验请前往原博客

准备

~~众所周知,~~ 策略梯度有多种写法, 总的来说, 在保持策略梯度不变的情况下, 策略梯度可以写作
$g=\mathbb{E}\left[\sum_{t=0}^{\infty}\Psi_t\nabla_\theta \log\pi_0(a_t\mid s_t)\right]\tag{1}$
其中 $\Psi$ 可以是
$\begin{aligned} 1.\;&\sum\nolimits_{t=0}^\infty r_t&轨迹的总回报\\ 2.\;&\sum\nolimits_{t'=t}^\infty r_{t'}&动作后轨迹的总回报\\ 3.\;&\sum\nolimits_{t'=t}^\infty r_{t'}-b(s_t)&基线形式\\ 4.\;&Q^{\pi}(s_t,a_t)&状态-动作价值函数\\ 5.\;&A^{\pi}(s_t,a_t)&优势函数\\ 6.\;&r_t+V^{\pi}(s_{t+1})-V^\pi(s_t)&\text{TD}\,残差 \end{aligned}$
其中
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ V^\pi(s_t):=\m…$
这里逗号表示 $a : b$ 指的是 $(a,a+1,\dots,b)$ 这样的序列, $\mathbb{E}$ 的下标枚举了要被积分的变量. 前面 $5$ 项的推导或者推导资料在参数优化中都有说明, 而 $\text{TD}$ 残差其实是优势函数的一种无偏估计.

其中令 $\Psi_t=A^\pi(s_t, a_t)$ (优势函数) 的选择有几乎最小的方差. 这一点可以从策略梯度的角度直观的解释: 策略梯度中的每一步都会增加 “高于平均水平的动作” 的概率, 减少 “低于平均水平的动作” 的概率, 而优势函数 $A^{\pi}(s_t,a_t)=Q^{\pi}(s_t,a_t)-V^{\pi}(s_t)$ 恰好衡量了动作相对平均水平的好坏, 当动作高于平均水平时, 优势函数会取正数, 从而增加其概率; 当动作低于平均水平时, 优势函数会取负数. 从而降低其概率.

我们利用一个参数 $\gamma$ 来降低回报对延迟效应的反应的权重 (即减少未来回报的影响) 来减少方差, 代价是引入偏差. 这个参数相当于有折损的 $\text{MDPs}$ 公式, 但是我们将其当做一个在无折损问题中的一个减少方差的参数. 这些有折损的公式可以表示为
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ V^{\pi, \gamma…$
梯度的有折损近似可以表示为
$KaTeX parse error: Undefined control sequence: \substack at position 24: …a:=\mathbb{E}_{\̲s̲u̲b̲s̲t̲a̲c̲k̲{s_{0:\infty},\…$
由于优势函数是未知的, 所以我们需要对它进行估计. 在实践中, 往往只能学习到 $A^{\pi,\gamma}$ 的一个有偏估计 (但没有那么偏) .

我们引入一个关于 $A^{\pi,\gamma}$ 的一个估计, 并且这个估计是无偏的. 考虑一个与整个轨迹有关的优势函数的估计 $\hat{A}_t(s_{0:\infty},a_{0:\infty})$ .

我们定义: 一个估计 $\hat{A}_t$ 是 $\gamma\text{-just}$ 的当且仅当
$KaTeX parse error: Undefined control sequence: \substack at position 14: \mathbb{E}_{\̲s̲u̲b̲s̲t̲a̲c̲k̲{s_{0:\infty},\…$
因此如果对于所有的 $t$ 来说