【强化学习】Actor-Critic

原文链接:https://www.yuque.com/yahei/hey-yahei/rl-actor_critic

参考:机器学习深度学习(李宏毅) - Actor-Critic

Actor with Critic

以policy-based的actor为主体,融入value-based的critic;
一般Policy Gradient的改进技巧在这里依旧同样适用

AC: Actor-Critic

回顾Policy Gradient,梯度的计算公式如下,
∇ R ˉ θ ≈ 1 N ∑ n = 1 N ∑ t = 1 T n ( ∑ t ′ = t T n γ t ′ − t r t ′ n − b ) ∇ log ⁡ p ( a t n ∣ s t n , θ ) \nabla \bar{R}_{\theta} \approx \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}}\left(\sum^{T_n}_{t'=t} \gamma^{t'-t} r_{t'}^n - b \right) \nabla \log p\left(a_{t}^{n} | s_{t}^{n}, \theta\right) RˉθN1n=1Nt=1Tn(t=tTnγttrtnb)logp(atnstn,θ)
G t n = ∑ t ′ = t T n γ t ′ − t r t ′ n G^n_t = \sum^{T_n}_{t'=t} \gamma^{t'-t} r_{t'}^n Gtn=t=tTnγttrtn,在实际训练过程中,KaTeX parse error: Expected group after '_' at position 4: G^n_̲是很不稳定的——这是因为G值很可能差异很大,而我们采样的数量却很少,容易采样到比较极端的数值。
所以我们会想到,能不能用稳定的KaTeX parse error: Expected group after '_' at position 4: G^n_̲的期望 E [ G t n ] E[G^n_t] E[Gtn]来替代采样的 G t n G^n_t Gtn呢?答案显然是可以的,按照Q Learning的定义, Q π θ ( s t n , a t n ) Q^{\pi_\theta}(s_t^n, a_t^n) Qπθ(stn,atn)恰好就是这个期望,也即 E [ G t n ] = Q π θ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值