论文:Schaul T, Quan J, Antonoglou I, et al. Prioritized Experience Replay[J] . Computer Science,2015
前言
1.首先提下Replay Buffer吧,Replay Buffer是最基本的样本收集再采样的过程,是之前在做DDQN实验中使用的一种样本利用方式,原因是当我们使用Q-learning算法进行在线方式学习时,会存在两个问题:
[1]交互得到的序列存在一定相关性(因为在线学习往往就是得到一个就立马拿来训练 )。而我们的机器学习模型对训练样本的假设是独立、同分布的,所以序列打破了这种独立同分布特性,因此效果不太好。
[2]交互样本使用的效率过低。因为每次要使用一定的时间获取一个batch的样本才能完成一次训练,所以对样本的获取是有些慢的,而且在线学习方式往往会将学习后的样本直接丢弃,这样下来利用的效率不高。 针对这一问题提出下图这样的结构,可以发现就是之前一直使用哪种 设置‘样本回放缓存区’的架构,主要就包括样本收集和样本采样两个过程,一种有限量的保存和 均匀随机的采样。
2.注意这里还有个track点是必须均匀采样,也就是说这里会均匀从多个序列中采样轨迹,而不是只使用一次交互得到序列中的样本,这样可以减轻使用单一序列所导致的波动,从而可以很好地稳定训练的效果,同时可以将一份样本进行多次训练,从而提升样本利用率。
3.traick