文章目录 Critic(通过学习使得自己估值越来越准确)相对于没有 critic的方法 Critic(通过学习使得自己估值越来越准确) 相对于没有 critic的方法 用 Q π θ ( s t n , a t n ) − V π θ ( s t n ) Q^{\pi_{\theta}}\left(s_{t}^{n}, a_{t}^{n}\right)-V^{\pi_{\theta}}\left(s_{t}^{n}\right) Qπθ(stn,atn)−Vπθ(stn) 代替那个累加的 r r r