强化学习六(高阶) || 经验回放
- 传统的TD算法会浪费经验
![image-20220219220745073](https://i-blog.csdnimg.cn/blog_migrate/a692ea516601822ddc9f5a9c2979f7f9.png)
- 传统的 transition 两个状态间的相关性非常强,这对强化学习是有害的,我们应该打散这些状态序列
![image-20220219221000191](https://i-blog.csdnimg.cn/blog_migrate/49494aee0e3eeeebbd3e23315ab45aa3.png)
replay buffer:存放transition的集合
![image-20220219221312720](https://i-blog.csdnimg.cn/blog_migrate/6706b8752b815072c1e386ae72f01539.png)
![image-20220219221502936](https://i-blog.csdnimg.cn/blog_migrate/6e66591751347115abdd1b16a4050b36.png)
![image-20220219222039605](https://i-blog.csdnimg.cn/blog_migrate/7169656d7d958c85d914ed1b39833f7c.png)
优先经验回放
针对一些稀有的场景,我们不像经验回放一样均匀抽取transition,而是非均匀抽样
![image-20220219222913532](https://i-blog.csdnimg.cn/blog_migrate/75e27b71444a44c6e791450137069ae9.png)
比如我们要充分利用上图右边的经验
随机非均匀抽样的策略
![image-20220219223134634](https://i-blog.csdnimg.cn/blog_migrate/0f68babd4e4e3b9633635536fcd5d6ff.png)
就是TD error的绝对值越大,被抽中的概率就越大
如果一条transition有较大的抽中概率,那么它的学习率应该设置得要比较小
![image-20220219223738533](https://i-blog.csdnimg.cn/blog_migrate/aabc234338da5c50eadd0f31d1d2f17a.png)
![image-20220219224056772](https://i-blog.csdnimg.cn/blog_migrate/c80065cf5e6c59c126f8c57780fd09bb.png)
总结规律
![image-20220219224112399](https://i-blog.csdnimg.cn/blog_migrate/f961e33eef8edb35a23a5a411540a490.png)