原文链接:https://www.yuque.com/yahei/hey-yahei/rl-actor_critic
参考:机器学习深度学习(李宏毅) - Actor-Critic
Actor with Critic
以policy-based的actor为主体,融入value-based的critic;
一般Policy Gradient的改进技巧在这里依旧同样适用
AC: Actor-Critic
回顾Policy Gradient,梯度的计算公式如下,
∇ R ˉ θ ≈ 1 N ∑ n = 1 N ∑ t = 1 T n ( ∑ t ′ = t T n γ t ′ − t r t ′ n − b ) ∇ log p ( a t n ∣ s t n , θ ) \nabla \bar{R}_{\theta} \approx \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}}\left(\sum^{T_n}_{t'=t} \gamma^{t'-t} r_{t'}^n - b \right) \nabla \log p\left(a_{t}^{n} | s_{t}^{n}, \theta\right) ∇Rˉθ≈N1n=1∑Nt=1∑Tn(t′=t∑Tnγt′−trt′n−b)∇logp(atn∣stn,θ)
记 G t n = ∑ t ′ = t T n γ t ′ − t r t ′ n G^n_t = \sum^{T_n}_{t'=t} \gamma^{t'-t} r_{t'}^n Gtn=t′=t∑Tnγt′−trt′n,在实际训练过程中,KaTeX parse error: Expected group after '_' at position 4: G^n_̲是很不稳定的——这是因为G值很可能差异很大,而我们采样的数量却很少,容易采样到比较极端的数值。
所以我们会想到,能不能用稳定的KaTeX parse error: Expected group after '_' at position 4: G^n_̲的期望 E [ G t n ] E[G^n_t] E[Gtn]来替代采样的 G t n G^n_t Gtn呢?答案显然是可以的,按照Q Learning的定义, Q π θ ( s t n , a t n ) Q^{\pi_\theta}(s_t^n, a_t^n) Qπθ(stn,atn)恰好就是这个期望,也即 E [ G t n ] = Q π θ