DRL之DQN Deep Q Network 学习总结

最新推荐文章于 2023-06-29 09:24:37 发布

置顶 Snail_Walker

最新推荐文章于 2023-06-29 09:24:37 发布

阅读量3.3k

点赞数 1

分类专栏： RL & DL & SLAM 文章标签： DQN RL 强化学习

本文链接：https://blog.csdn.net/c602273091/article/details/79029848

版权

RL & DL & SLAM 专栏收录该内容

38 篇文章 5 订阅

订阅专栏

本次总结从最底下的Ref Links的material中得来，如果对于某些细节不清楚可以看看链接中的内容。我在看10-703的视频的时候，我觉得Russ讲课还是很不错的，很多东西讲得言简意赅，短短几句就把DQN的核心讲得清楚。

RL中核心的三个东西：policy，model和value function。policy就是根据当前的state进行对应的action，当然可以是deterministic（确定的，一对一）或者是stochastic的（概率的）表示。一般来说，当state表示为离散的，action space比较小的时候使用确定的比较合适，效果比较好。value function是描述一个state和action的好坏，通过value function我们可以推出policy，因为我们的目标是最大化reward，reward的expectation越大，那么value就越大。model就是对environment的建模，有了model，就可以simulate experience，就可以增加experience的数目，可以用MC和TD得到value function和policy。在这个基础上，如果把real experience和simulated experience一起计算value function和policy，就叫做dyna。

对于value function在进一步，因为这是DQN的重点。value function就是对未来的总的reward的一个expectation。value function分为state-value function和action-value function，state-value function就是对在policy $\pi$ 下，处于state $S_t$ 的expectation total reward。action-value function就是在某个policy下，执行action的一个total reward expectation。此处对于这两个function的具体计算可以看David的Lecture 2（多看几遍就清楚了）。

对于action-value function也叫Q-value function，因为它用字母Q表示了action-value function。具体可以表示为如下式子：
这里写图片描述

上诉式子可以写成Bellman equation来表示：s’ 就是在s进行action之后的状态。
这里写图片描述

如果我们可以找到optimal的Q-value function，那么就可以得到policy，就是在state s的执行怎么样的action才适合，才能最大化value。
这里写图片描述

当然，根据Bellman Equation可以得到，因为reward是固定的，所以应该maximize是下一个state的Q value。
这里写图片描述

我们可以发现在这样的情况下，求得optimal value maximize就是求解每一步都要maximize reward（下面的公式这里说的是使用greedy的策略，为的是表示这种想法，要最大化的reward的意思）
这里写图片描述

到目前为止了，我就把三个要点policy，model，value function介绍了一下。在RL领域，有value-based RL（在任何的policy下进行最大化maximum value function，对应policy evaluation），policy-based RL（直接进行policy优化，其实就是policy improvement，进行greedy的policy改进，看David的Lecture 3），model-based RL(对environment进行建模，那么就可以进行planning，就是知道在state s进行action之后的reward和state，也就是MDP的state transition和reward，那么问题就变成了已知MDP，如何最大化reward，使用随机策略的policy evaluation就可以)。同时，如果得到了model，就可以得到simulation experience。

今天要讲的呢是对Q-value function进行estimation，如何进行approximation呢？那么就要找到一个近似函数，使得：
这里写图片描述

这种approximation可以有以下形式，输入s，a，然后estimate Q。或者输入state，estimate Q。当然，有了Q-value，那么可以选取Q-value最大的action作为接下来的action，那么policy也就出来了。
这里写图片描述

既然是这种approximation，那么我们的目标函数是是神马呢？根据刚才说的Bellman equation可以使用以下作为target value，你会发现这个就是TD Q-value。你说用MC可以不可以，当然是更好了，但是总的来说，使用TD的话，可以得到大量的experience，方便训练，使用MC的话，时间会比较长，需要整个episode。
这里写图片描述

到这里，DQN的大致的loss function已经呼之欲出，就是用某个函数approximation Q-value function，但是在目前的训练中，上面的loss function是有问题的，就是它的target居然会随着w变化，那么就会导致很难对target进行拟合，这种unstable的loss是不适合训练的。所以这里就需要对target进行保留一段时间来让approximation function进行拟合。所以在loss里面保留了两套的w，一个是旧的w，一个新的w。如果进行了固定次的新的w的更新以后，就把新的w付给旧的。这就是所谓的不同步的w，通过这样的方法来解决non-stationarity的问题。保留transition（ $s_t,a_t,r_{t+1},s_{t+1}$ ，然后使用旧的weight的计算的target作为target，用新的w进行拟合，用stochastic gradient descent进行计算）
这里写图片描述

现在有了loss function，接下来就是选定approximation model，那么可以选择现在用烂了的CNN。比如下图中就是输入四帧，然后输出18个action的value，也就是Q(s,a)。
这里写图片描述

reward就是该时刻的输出和上一个的差值就可以计算出reward。这里有一个DQN代码的例子：【6】。

DQN中有人提出了Double Q-Learning，这个东西就是使用有两个action-value，Q1和Q2。使用Q1的value来更新Q2，使用Q2的value来更新Q1。然后action的选择使用 ?-greedy。
这里写图片描述

具体流程为：
这里写图片描述

那么这种Double DQN用什么用呢，可以使用这种方法来表示刚才说的DQN中的新旧的w，这种对偶训练有很好的效果，在Atari中使用Double的DQN比DQN好很多，效果好很多。

在训练的过程中，有人觉得针对不同的experience应该有不同的权重，对于error小的experience应该更不需要改进，对于error大的权重更需要改变。所以权重的改进可以采用下面的公式：
这里写图片描述

另外，有人对网络结构进行改变，叫做Dueling Networks，我觉得这个灵感很可能来自于R-CNN。网络分为action-independent value function V(s,v)和action-dependent advantage function A(s,a,w)。
这里写图片描述