GAE 算法

本文详细介绍了策略梯度算法中优势函数的重要性和估计方法,特别是广义优势估计(GAE)的概念。GAE通过指数加权平均的方式平衡了偏差和方差,用于减少长期回报的噪声。文章还探讨了折扣因子γ和λ的影响,并解释了回报变形后的意义。
摘要由CSDN通过智能技术生成

由于 CSDN 只支持 KaTeX, 因此有些公式可能无法正常显示, 如果想要获得更好的阅读体验请前往原博客

准备

众所周知, 策略梯度有多种写法, 总的来说, 在保持策略梯度不变的情况下, 策略梯度可以写作
g = E [ ∑ t = 0 ∞ Ψ t ∇ θ log ⁡ π 0 ( a t ∣ s t ) ] (1) g=\mathbb{E}\left[\sum_{t=0}^{\infty}\Psi_t\nabla_\theta \log\pi_0(a_t\mid s_t)\right]\tag{1} g=E[t=0Ψtθlogπ0(atst)](1)
其中 Ψ \Psi Ψ 可以是
1.    ∑ t = 0 ∞ r t 轨 迹 的 总 回 报 2.    ∑ t ′ = t ∞ r t ′ 动 作 后 轨 迹 的 总 回 报 3.    ∑ t ′ = t ∞ r t ′ − b ( s t ) 基 线 形 式 4.    Q π ( s t , a t ) 状 态 − 动 作 价 值 函 数 5.    A π ( s t , a t ) 优 势 函 数 6.    r t + V π ( s t + 1 ) − V π ( s t ) TD   残 差 \begin{aligned} 1.\;&\sum\nolimits_{t=0}^\infty r_t&轨迹的总回报\\ 2.\;&\sum\nolimits_{t'=t}^\infty r_{t'}&动作后轨迹的总回报\\ 3.\;&\sum\nolimits_{t'=t}^\infty r_{t'}-b(s_t)&基线形式\\ 4.\;&Q^{\pi}(s_t,a_t)&状态-动作价值函数\\ 5.\;&A^{\pi}(s_t,a_t)&优势函数\\ 6.\;&r_t+V^{\pi}(s_{t+1})-V^\pi(s_t)&\text{TD}\,残差 \end{aligned} 1.2.3.4.5.6.t=0rtt=trtt=trtb(st)Qπ(st,at)Aπ(st,at)rt+Vπ(st+1)Vπ(st)线TD
其中
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ V^\pi(s_t):=\m…
这里逗号表示 a : b a:b a:b 指的是 ( a , a + 1 , … , b ) (a,a+1,\dots,b) (a,a+1,,b) 这样的序列, E \mathbb{E} E 的下标枚举了要被积分的变量. 前面 5 5 5 项的推导或者推导资料在参数优化中都有说明, 而 TD \text{TD} TD 残差其实是优势函数的一种无偏估计.

其中令 Ψ t = A π ( s t , a t ) \Psi_t=A^\pi(s_t, a_t) Ψt=Aπ(st,at) (优势函数) 的选择有几乎最小的方差. 这一点可以从策略梯度的角度直观的解释: 策略梯度中的每一步都会增加 “高于平均水平的动作” 的概率, 减少 “低于平均水平的动作” 的概率, 而优势函数 A π ( s t , a t ) = Q π ( s t , a t ) − V π ( s t ) A^{\pi}(s_t,a_t)=Q^{\pi}(s_t,a_t)-V^{\pi}(s_t) Aπ(st,at)=Qπ(st,at)Vπ(st) 恰好衡量了动作相对平均水平的好坏, 当动作高于平均水平时, 优势函数会取正数, 从而增加其概率; 当动作低于平均水平时, 优势函数会取负数. 从而降低其概率.

我们利用一个参数 γ \gamma γ 来降低回报对延迟效应的反应的权重 (即减少未来回报的影响) 来减少方差, 代价是引入偏差. 这个参数相当于有折损的 MDPs \text{MDPs} MDPs 公式, 但是我们将其当做一个在无折损问题中的一个减少方差的参数. 这些有折损的公式可以表示为
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ V^{\pi, \gamma…
梯度的有折损近似可以表示为
KaTeX parse error: Undefined control sequence: \substack at position 24: …a:=\mathbb{E}_{\̲s̲u̲b̲s̲t̲a̲c̲k̲{s_{0:\infty},\…
由于优势函数是未知的, 所以我们需要对它进行估计. 在实践中, 往往只能学习到 A π , γ A^{\pi,\gamma} Aπ,γ 的一个有偏估计 (但没有那么偏) .

我们引入一个关于 A π , γ A^{\pi,\gamma} Aπ,γ 的一个估计, 并且这个估计是无偏的. 考虑一个与整个轨迹有关的优势函数的估计 A ^ t ( s 0 : ∞ , a 0 : ∞ ) \hat{A}_t(s_{0:\infty},a_{0:\infty}) A^t(s0:,a0:) .

我们定义: 一个估计 A ^ t \hat{A}_t A^t γ -just \gamma\text{-just} γ-just 的当且仅当
KaTeX parse error: Undefined control sequence: \substack at position 14: \mathbb{E}_{\̲s̲u̲b̲s̲t̲a̲c̲k̲{s_{0:\infty},\…
因此如果对于所有的 t t t 来说

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值