强化学习算法(三)——演员-评论员算法

本文介绍了演员-评论员算法在强化学习中的应用,它结合策略梯度和时序差分学习。演员是策略函数,输出动作或动作概率;评论员是价值函数,评估策略价值。文章探讨了A3C和A2C算法,策略梯度与Q网络的关系,并指出A2C通过消除Q网络估计以提高稳定性。
摘要由CSDN通过智能技术生成

演员-评论员算法是一种结合策略梯度和时序差分学习的强化学习方法。

  • 演员:指策略函数 π θ ( a ∣ s ) \pi_\theta(a|s) πθ(as),输入状态输出动作或动作的概率,以期获得尽可能高的回报。
  • 评论员:指价值函数 V π ( s ) V^\pi(s) Vπ(s),对当前策略的价值进行估计。

常见算法

  • A3C:异步优势演员-评论员算法
  • A2C:优势演员-评论员算法

1. 策略梯度与深度Q网络

策略网络希望输入一个状态,输出动作或动作的概率,使得输出动作获得的奖励最大。
(1)策略梯度
∇ R ˉ θ = 1 N ∑ n = 1 N ∑ t = 1 T ( ∑ t ′ = t T γ t ′ − t r t ′ − b ) ∇ log ⁡ p θ ( a t n ∣ s t n ) \nabla \bar{R}_\theta = \frac{1}{N}\sum_{n=1}^N \sum_{t=1}^T (\sum_{t'=t}^T \gamma^{t'-t}r_{t'}-b) \nabla \log p_\theta(a_t^n|s_t^n) Rˉθ=N1n=1Nt=1T(t=tTγttrtb)logpθ(atnstn)

其中, G = ∑ t ′ = t T γ t ′ − t r t ′ G=\sum_{t'=t}^T \gamma^{t'-t}r_{t'} G=t=t

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冠long馨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值