一句话:支持分布式运算的AC
如果理解了AC,理解A3C很容易,没有理论上的创新,主要是工程上效果好。
如图所示,A3C算法通过多个work和环境互动,把环境的梯度给一个全局的网络,也就是通过不同work共同更新一个网络,每次更新全局网络,都把work的网络和全局网络同步,在下次work返回梯度的时候,都是比较的全局网络与环境互动的梯度,保障了全局网络不断朝好的方向发展。个人理解这样离线更新的方式还能防止过估计。也可以用下图表示:
参考文章:
一句话:支持分布式运算的AC
如果理解了AC,理解A3C很容易,没有理论上的创新,主要是工程上效果好。
如图所示,A3C算法通过多个work和环境互动,把环境的梯度给一个全局的网络,也就是通过不同work共同更新一个网络,每次更新全局网络,都把work的网络和全局网络同步,在下次work返回梯度的时候,都是比较的全局网络与环境互动的梯度,保障了全局网络不断朝好的方向发展。个人理解这样离线更新的方式还能防止过估计。也可以用下图表示:
参考文章: