A2C和A3C

A2C Advantage Actor-Critic

 G_t^n=\sum_{t^\prime=t}^{T_n}\gamma^{t^\prime-t}r^n_{t^\prime} -b是一个随机变量,在采样数据不非常充足的情况下,方差会很大,如何提高训练的稳定性呢?直接估算G的期望值, 让期望值去代替采样到的值。

在Q-learning中有两种Critic

 

用MC会更精确但TD会更稳定。

上图在实做时需要训练两个网络Q和V, 更大可能性的引入估算的偏差, 如何转换为只估算一个网络呢?

只需要估算一个V就可以,但坏处是会引入一定的随机性, 因为引入了r_t^n.

 先用TD或者MC去估算V^\pi(s), 再用V^\pi(s)去更新得到新的\pi^\prime, 再用新的\pi和环境做互动得到新的资料再去更新V^\pi(s)。 

A3C Asynchronous Advantage Actor-Critic(A3C)

目的:增加训练的速度

每个Worker对应一个CPU, 首先从全局网络拷贝参数至worker,然后每个worker单独采样数据,计算梯度\theta^1,然后传回给中央的控制中心,中央控制中心会拿\theta^1去更新原来的参数值。每个worker在自己的环境中各自做各自的,彼此互不干扰。

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值