由于 CSDN 只支持 KaTeX, 因此有些公式可能无法正常显示, 如果想要获得更好的阅读体验请前往原博客
准备
众所周知, 策略梯度有多种写法, 总的来说, 在保持策略梯度不变的情况下, 策略梯度可以写作
g = E [ ∑ t = 0 ∞ Ψ t ∇ θ log π 0 ( a t ∣ s t ) ] (1) g=\mathbb{E}\left[\sum_{t=0}^{\infty}\Psi_t\nabla_\theta \log\pi_0(a_t\mid s_t)\right]\tag{1} g=E[t=0∑∞Ψt∇θlogπ0(at∣st)](1)
其中 Ψ \Psi Ψ 可以是
1. ∑ t = 0 ∞ r t 轨 迹 的 总 回 报 2. ∑ t ′ = t ∞ r t ′ 动 作 后 轨 迹 的 总 回 报 3. ∑ t ′ = t ∞ r t ′ − b ( s t ) 基 线 形 式 4. Q π ( s t , a t ) 状 态 − 动 作 价 值 函 数 5. A π ( s t , a t ) 优 势 函 数 6. r t + V π ( s t + 1 ) − V π ( s t ) TD 残 差 \begin{aligned} 1.\;&\sum\nolimits_{t=0}^\infty r_t&轨迹的总回报\\ 2.\;&\sum\nolimits_{t'=t}^\infty r_{t'}&动作后轨迹的总回报\\ 3.\;&\sum\nolimits_{t'=t}^\infty r_{t'}-b(s_t)&基线形式\\ 4.\;&Q^{\pi}(s_t,a_t)&状态-动作价值函数\\ 5.\;&A^{\pi}(s_t,a_t)&优势函数\\ 6.\;&r_t+V^{\pi}(s_{t+1})-V^\pi(s_t)&\text{TD}\,残差 \end{aligned} 1.2.3.4.5.6.∑t=0∞rt∑t′=t∞rt′∑t′=t∞rt′−b(st)Qπ(st,at)Aπ(st,at)rt+Vπ(st+1)−Vπ(st)轨迹的总回报动作后轨迹的总回报基线形式状态−动作价值函数优势函数TD残差
其中
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ V^\pi(s_t):=\m…
这里逗号表示 a : b a:b a:b 指的是 ( a , a + 1 , … , b ) (a,a+1,\dots,b) (a,a+1,…,b) 这样的序列, E \mathbb{E} E 的下标枚举了要被积分的变量. 前面 5 5 5 项的推导或者推导资料在参数优化中都有说明, 而 TD \text{TD} TD 残差其实是优势函数的一种无偏估计.
其中令 Ψ t = A π ( s t , a t ) \Psi_t=A^\pi(s_t, a_t) Ψt=Aπ(st,at) (优势函数) 的选择有几乎最小的方差. 这一点可以从策略梯度的角度直观的解释: 策略梯度中的每一步都会增加 “高于平均水平的动作” 的概率, 减少 “低于平均水平的动作” 的概率, 而优势函数 A π ( s t , a t ) = Q π ( s t , a t ) − V π ( s t ) A^{\pi}(s_t,a_t)=Q^{\pi}(s_t,a_t)-V^{\pi}(s_t) Aπ(st,at)=Qπ(st,at)−Vπ(st) 恰好衡量了动作相对平均水平的好坏, 当动作高于平均水平时, 优势函数会取正数, 从而增加其概率; 当动作低于平均水平时, 优势函数会取负数. 从而降低其概率.
我们利用一个参数 γ \gamma γ 来降低回报对延迟效应的反应的权重 (即减少未来回报的影响) 来减少方差, 代价是引入偏差. 这个参数相当于有折损的 MDPs \text{MDPs} MDPs 公式, 但是我们将其当做一个在无折损问题中的一个减少方差的参数. 这些有折损的公式可以表示为
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ V^{\pi, \gamma…
梯度的有折损近似可以表示为
KaTeX parse error: Undefined control sequence: \substack at position 24: …a:=\mathbb{E}_{\̲s̲u̲b̲s̲t̲a̲c̲k̲{s_{0:\infty},\…
由于优势函数是未知的, 所以我们需要对它进行估计. 在实践中, 往往只能学习到 A π , γ A^{\pi,\gamma} Aπ,γ 的一个有偏估计 (但没有那么偏) .
我们引入一个关于 A π , γ A^{\pi,\gamma} Aπ,γ 的一个估计, 并且这个估计是无偏的. 考虑一个与整个轨迹有关的优势函数的估计 A ^ t ( s 0 : ∞ , a 0 : ∞ ) \hat{A}_t(s_{0:\infty},a_{0:\infty}) A^t(s0:∞,a0:∞) .
我们定义: 一个估计 A ^ t \hat{A}_t A^t 是 γ -just \gamma\text{-just} γ-just 的当且仅当
KaTeX parse error: Undefined control sequence: \substack at position 14: \mathbb{E}_{\̲s̲u̲b̲s̲t̲a̲c̲k̲{s_{0:\infty},\…
因此如果对于所有的 t t t 来说