A3C框架

本文探讨了A3C算法如何通过异步训练降低数据相关性,使用多个worker线程进行环境交互,积累经验更新全局网络。优势函数在A3C中起到归一化Q值、提高学习效率和稳定性的作用。
摘要由CSDN通过智能技术生成


一、动机

基于AC框架的算法很难收敛,因此可以采用DQN的经验回放的方法降低数据间的相关性,基于这种思想A3C算法采用异步的思想降低数据间的差异性,具体做法:在多个线程里与环境进行交互,将每个线程内的交互的经验收集起来,共同保存,指导所有智能体与环境进行交互

二、A3C算法

异步训练框架如下图所示:
在这里插入图片描述
包括全局的网络架构和n个worker线程,n个worker线程中的网络与全局网络相同,每个线程独立的与环境进行交互得到数据,积累一定数据便计算自身worker网络的损失函数的梯度,但并不用于自身网络更新,而是更新全局网络,即n个线程根据自身计算的梯度独立的去更新全局网络,每个一段时间,n个worker的参数会copy为全局网络的参数继续进行交互

优势函数:表达动作a相对于平均而言的优势,公式: A π ( s , a ) = Q π ( s , a ) − V π ( s ) A^{\pi}(s,a)=Q^{\pi}(s,a)-V^{\pi}(s) Aπ(s,a)=Qπ(s,a)Vπ(s),优势函数其实就是将Q值归一化到Value baseline上,这样有助于提高学习效率,同时使学习更加稳定;同时经验表明,优势函数也有助于减小方差,而方差过大导致过拟合的重要因素。

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值