2017 Fall CS294 Lecture 8 Advanced Q-learning algorithms

最新推荐文章于 2021-05-10 16:56:08 发布

qiusuoxiaozi

最新推荐文章于 2021-05-10 16:56:08 发布

阅读量535

点赞数

分类专栏：强化学习文章标签： cs294

本文链接：https://blog.csdn.net/qiusuoxiaozi/article/details/79128917

版权

强化学习专栏收录该内容

8 篇文章 5 订阅

订阅专栏

今天接着上一讲，继续讲value functions相关的内容
这里写图片描述

先回顾Q-learning。上一讲讲到 $Q_{\phi}$ 除了tabular的情形之外，用任何function approximator（比如NN），那么算法的收敛性就无法得到保证。但本讲主要讲，怎么在实际中，让算法以较大的概率收敛。

这里写图片描述

两个问题，一个是correlation，另一个是not gradient descent！

这里写图片描述

correlation问题的解释如下，由于相关性很严重，那么最终拟合的曲线就是一部分，而无法对整条曲线获得很好的拟合，因为samples不是iid的。在actor-critic算法中也会遇到这种情况，最终的解决办法是，parallelism！这同样可以用到Q-learning中：

这里写图片描述

但上面不是唯一的解决办法，还有一种更好的（利用了Q-learning是off-policy算法）：

这里写图片描述

好的，correlation的问题使用replay buffer的方法解决了，但是还有一个no gradient descent的问题！这个问题没有因为replay buffer的使用而得到解决，因为no gradient descent讨厌的原因在于，它的target y总是在变化。

这里写图片描述

对比Q-learning和regression，引出fixed target 。也就是让Q-learning more regression-like，也会更加stable。因为target不再每个iteration都变化，从原先的 moving target变成了fixed target（不过也只是阶段性的fixed）！

这里写图片描述