强化学习模型-Priority Replay Buffer

论文:Schaul T, Quan J, Antonoglou I, et al. Prioritized Experience Replay[J] . Computer Science,2015

前言

1.首先提下Replay Buffer吧,Replay Buffer是最基本的样本收集再采样的过程,是之前在做DDQN实验中使用的一种样本利用方式,原因是当我们使用Q-learning算法进行在线方式学习时,会存在两个问题:

           [1]交互得到的序列存在一定相关性(因为在线学习往往就是得到一个就立马拿来训练 )。而我们的机器学习模型对训练样本的假设是独立、同分布的,所以序列打破了这种独立同分布特性,因此效果不太好。

           [2]交互样本使用的效率过低。因为每次要使用一定的时间获取一个batch的样本才能完成一次训练,所以对样本的获取是有些慢的,而且在线学习方式往往会将学习后的样本直接丢弃,这样下来利用的效率不高。 针对这一问题提出下图这样的结构,可以发现就是之前一直使用哪种 设置‘样本回放缓存区’的架构,主要就包括样本收集和样本采样两个过程,一种有限量的保存和 均匀随机的采样。

2.注意这里还有个track点是必须均匀采样,也就是说这里会均匀从多个序列中采样轨迹,而不是只使用一次交互得到序列中的样本,这样可以减轻使用单一序列所导致的波动,从而可以很好地稳定训练的效果,同时可以将一份样本进行多次训练,从而提升样本利用率。      

3.traick

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值