【强化学习】Actor-Critic公式推导分析

本文深入探讨强化学习中的Actor-Critic算法,分析其通过价值函数估计轨迹价值以降低方差的原理,并介绍了A3C算法如何通过异步更新加速学习过程。
摘要由CSDN通过智能技术生成

本文是在DQN与stochastic policy gradient基础上进行介绍,部分公式源头可以在DQNstochastic policy gradient中找到。

一、AC算法

在之前的随机策略梯度算法中,我们可以采用类似蒙特卡洛的方法采样一条轨迹后对策略进行更新,如下所示
∇ θ J ( θ ) = 1 N ∑ i = 0 N ∑ t = 0 T [ ∇ θ log ⁡ π θ ( a i , t ∣ s i , t ) ( ∑ t ′ = t T r ( s i , t , a i , t ) − b ) ] ( 1 ) \nabla_{\theta}J(\theta)=\frac{1}{N}\sum_{i=0}^N\sum_{t=0}^T[\nabla_{\theta}\log \pi_{\theta}(a_{i,t}|s_{i,t})(\sum_{t'=t}^Tr(s_{i,t},a_{i,t})-b)] \qquad(1) θJ(θ)=N1i=0Nt=0T[θlogπθ(ai,ts

  • 7
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值