强化学习： Experience Replay

最新推荐文章于 2023-08-06 17:27:19 发布

Johnny_Cuii

最新推荐文章于 2023-08-06 17:27:19 发布

阅读量5.2k

点赞数 2

分类专栏：强化学习

本文链接：https://blog.csdn.net/cuihuijun1hao/article/details/83049351

版权

强化学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

我第一次接触 Experience Replay 概念是李宏毅老师的视频课上。当时李宏毅老师说为什么Experience Replay 可行留作自己思考，然后并没有做太详细的解释。接下来，我就把我对Experience Replay 的理解写下来。
首先，我把李宏毅老师的Q-learning 算法贴出来，他的Q-learning 算法跟传统Q-learning 算法有一些微小的区别
在这里插入图片描述

以下是Experience Replay
在这里插入图片描述

在看到这里的时候，就会有一个疑问，在buffer 中存储的是很多之前的策略，用这个策略能够作为当前策略的学习数据吗？
结论当然是可以的。
因为这些只是数据，并不是策略。（st,at,rt,st+1)这样一组数据，其实跟策略是没有什么关系的。rt是环境返回的，可以当作是个常量，st+1 这个也是环境决定的。我们的目标学习是（st,at）状态对的 Q value.
所以这个 Experience Buffer是可以一定程度上增加数据多样性的。因为同一个策略在st上产生的行为总是at，而我们的Q-learning是希望能够学习更多的状态对，这样他的泛化性能也会更好。在这里我举个例子：
我们在训练神经网络的时候，在每个batch里面，我们希望数据之间会更加多样性（还有很多其他说法，更加独立，更加diverse 其实都死一个意思）。为什么呢？
加入我们要一个语义相似度任务，跟sentence1 和 sentence2 判断他们相似还是不相似，相似的话输出结果为1 ，不相似的话，输出结果为2
这个时候我们一定是要数据打乱在传入神经网络。如果你尝试把相似句子为一批传进神经网络不相似数据为一批在传进神经网络，你会发现网络根本没法训练。网络就不断地交替学习所有输出数据全部输出1 或者全部输出 0。

在同一个策略上产生的数据显然不能满足这样的要求。而Experience Replay就可以解决这样的问题。