强化学习模型-Priority Replay Buffer

最新推荐文章于 2025-03-29 22:05:32 发布

马飞飞

最新推荐文章于 2025-03-29 22:05:32 发布

阅读量1.5w

点赞数 9

本文链接：https://blog.csdn.net/maqunfi/article/details/90897587

版权

论文：Schaul T, Quan J, Antonoglou I, et al. Prioritized Experience Replay[J] . Computer Science,2015

前言

1.首先提下Replay Buffer吧，Replay Buffer是最基本的样本收集再采样的过程，是之前在做DDQN实验中使用的一种样本利用方式，原因是当我们使用Q-learning算法进行在线方式学习时，会存在两个问题：

[1]交互得到的序列存在一定相关性（因为在线学习往往就是得到一个就立马拿来训练）。而我们的机器学习模型对训练样本的假设是独立、同分布的，所以序列打破了这种独立同分布特性，因此效果不太好。

[2]交互样本使用的效率过低。因为每次要使用一定的时间获取一个batch的样本才能完成一次训练，所以对样本的获取是有些慢的，而且在线学习方式往往会将学习后的样本直接丢弃，这样下来利用的效率不高。针对这一问题提出下图这样的结构，可以发现就是之前一直使用哪种设置‘样本回放缓存区’的架构，主要就包括样本收集和样本采样两个过程，一种有限量的保存和均匀随机的采样。