演员-评论员算法是一种结合策略梯度和时序差分学习的强化学习方法。
- 演员:指策略函数 π θ ( a ∣ s ) \pi_\theta(a|s) πθ(a∣s),输入状态输出动作或动作的概率,以期获得尽可能高的回报。
- 评论员:指价值函数 V π ( s ) V^\pi(s) Vπ(s),对当前策略的价值进行估计。
常见算法
- A3C:异步优势演员-评论员算法
- A2C:优势演员-评论员算法
1. 策略梯度与深度Q网络
策略网络希望输入一个状态,输出动作或动作的概率,使得输出动作获得的奖励最大。
(1)策略梯度
∇ R ˉ θ = 1 N ∑ n = 1 N ∑ t = 1 T ( ∑ t ′ = t T γ t ′ − t r t ′ − b ) ∇ log p θ ( a t n ∣ s t n ) \nabla \bar{R}_\theta = \frac{1}{N}\sum_{n=1}^N \sum_{t=1}^T (\sum_{t'=t}^T \gamma^{t'-t}r_{t'}-b) \nabla \log p_\theta(a_t^n|s_t^n) ∇Rˉθ=N1n=1∑Nt=1∑T(t′=t∑Tγt′−trt′−b)∇logpθ(atn∣stn)
其中, G = ∑ t ′ = t T γ t ′ − t r t ′ G=\sum_{t'=t}^T \gamma^{t'-t}r_{t'} G=∑t′=t