强化学习六(高阶) || 经验回放
- 传统的TD算法会浪费经验
![image-20220219220745073](https://img-blog.csdnimg.cn/img_convert/c985ad6ec21678495d95daff6cfedbe2.png)
- 传统的 transition 两个状态间的相关性非常强,这对强化学习是有害的,我们应该打散这些状态序列
![image-20220219221000191](https://img-blog.csdnimg.cn/img_convert/c2ae2b73300f1c53c6ca902193dec385.png)
replay buffer:存放transition的集合
![image-20220219221312720](https://img-blog.csdnimg.cn/img_convert/585731efc53d1a768689de1cefd4487e.png)
![image-20220219221502936](https://img-blog.csdnimg.cn/img_convert/4b90c66a0f4e07b15e977d86cb0b2731.png)
![image-20220219222039605](https://img-blog.csdnimg.cn/img_convert/11a406b4f506b8fa0a2dc5980a7ecd19.png)
优先经验回放
针对一些稀有的场景,我们不像经验回放一样均匀抽取transition,而是非均匀抽样
![image-20220219222913532](https://img-blog.csdnimg.cn/img_convert/e0529eab2d257826246e353215de7ce8.png)
比如我们要充分利用上图右边的经验
随机非均匀抽样的策略
![image-20220219223134634](https://img-blog.csdnimg.cn/img_convert/5500d26621beb858cf674867424c338c.png)
就是TD error的绝对值越大,被抽中的概率就越大
如果一条transition有较大的抽中概率,那么它的学习率应该设置得要比较小
![image-20220219223738533](https://img-blog.csdnimg.cn/img_convert/694b4d7a6c97effb751670dd95c5b646.png)
![image-20220219224056772](https://img-blog.csdnimg.cn/img_convert/ed30d0a469113465cc267fcae7a1eb1d.png)
总结规律
![image-20220219224112399](https://img-blog.csdnimg.cn/img_convert/50f00dd64032645eb82f88132c811076.png)