强化学习: Experience Replay

我第一次接触 Experience Replay 概念是李宏毅老师的视频课上。当时李宏毅老师说 为什么Experience Replay 可行留作自己思考,然后并没有做太详细的解释。接下来,我就把我对Experience Replay 的理解写下来。
首先,我把李宏毅老师的Q-learning 算法贴出来,他的Q-learning 算法跟传统Q-learning 算法有一些微小的区别
在这里插入图片描述

以下是Experience Replay
在这里插入图片描述

在看到这里的时候,就会有一个疑问,在buffer 中存储的是很多之前的策略,用这个策略能够作为 当前策略的学习数据吗?
结论当然是可以的。
因为这些只是数据,并不是策略。(st,at,rt,st+1)这样一组数据,其实跟策略是没有什么关系的。rt是环境返回的,可以当作是个常量,st+1 这个也是环境决定的。 我们的目标学习是(st,at)状态对的 Q value.
所以这个 Experience Buffer是可以一定程度上 增加数据多样性的。因为同一个策略 在st上产生的行为 总是at,而我们的Q-learning是希望能够学习更多的状态对,这样他的泛化性能也会更好。在这里我举个例子:
我们在训练神经网络的时候,在每个batch里面,我们希望数据之间会更加多样性(还有很多其他说法,更加独立,更加diverse 其实都死一个意思)。为什么呢?
加入我们要一个语义相似度任务,跟sentence1 和 sentence2 判断他们相似还是不相似,相似的话 输出结果为1 ,不相似的话,输出结果为2
这个时候我们一定是要数据打乱在传入神经网络。如果你尝试把相似句子为一批传进神经网络 不相似数据为一批 在传进神经网络,你会发现网络根本没法训练。网络就不断地交替学习 所有输出数据全部输出1 或者全部输出 0。

在同一个策略上产生的数据显然不能满足这样的要求。而Experience Replay就可以解决这样的问题。

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值