Q学习和深度Q学习（DQN）论文笔记

最新推荐文章于 2024-08-21 09:48:25 发布

geter_CS

最新推荐文章于 2024-08-21 09:48:25 发布

阅读量2w

点赞数 14

分类专栏：强化学习文章标签： Q学习 DQN 深度Q学习 Double Q-learning

本文链接：https://blog.csdn.net/geter_CS/article/details/85618242

版权

强化学习专栏收录该内容

10 篇文章 3 订阅

订阅专栏

最近想做个汇总，所以这里简单写一下。

Q学习（Q-learning）

强化学习中有个很重要的递归关系，贝尔曼方程（Bellman Equation）：
$Q^\pi(s_t,a_t)=E[r+\gamma E[Q^\pi(s_{t+1},a_{t+1})]]$
这个公式实际上也揭露了状态的马尔科夫性质，也就是下一个状态只与当前状态有关。强化学习中大多数方法都是基于这个公式，Q学习也一样。Q学习的更新公式如下：
$Q(s,a)=Q(s,a)+\alpha[r+\gamma max_{a'}Q(s,a)-Q(s,a)]$
可以看见不同于贝尔曼方程中使用下一个状态的期望来估计当前Q值，Q学习中使用的是下一个状态的最大Q值来估计当前状态Q值。这是由于强化学习的agent目标是最大化累积奖赏，也就是Q值。但是这会带来的问题是高估。这篇文章是没有涉及解决这个问题的，Sutton的书中提到的解决方法是Double Q-learning，结合深度学习就是DDQN，我们组老师也在17年IJCAI发了一篇解决这个问题的文章Weighted Double Q-learning。下面是Q-learning和Double Q-learning的算法：
在这里插入图片描述
在double Q-learning中会定义两个Q函数，选择动作时是在两者之和的基础上进行 $\epsilon-greedy$ 选择，在更新时这两个函数是交互使用的，若一个Q1更新则Q2则作为max评估，这样在一定程度上可以解决高估问题。(简单理解就是因为Q2下的max并不是Q1下的max)
在这里插入图片描述

深度Q学习（DQN）

DQN中使用神经网络来作为Q值的逼近函数。权重和偏置用 $\theta$ 表示。损失函数表示为： $L(s,a|\theta_i)\approx (r+\gamma max_{a'}Q(s',a|\theta_i)-Q(s,a|\theta_i))^2$
梯度更新公式：
$\theta_{i+1}=\theta_i+\alpha\ \bigtriangledown_\theta L(\theta_i)$
但是若使用相同的网络来生成下一个目标Q值和估计当前Q值，会导致振荡性甚至发散。还有就是，深度学习要求样本之间相互独立且同分布，但强化学习样本并不满足这个条件。因此DQN中使用三个技巧来来解决这一系列问题：经验回放，目标网络和自适应性学习率调整方法。（事实上当使用函数逼近时（比如神经网络作为逼近函数），强化学习会表现的不稳定甚至发散，主要原因是：序列观察值之间具有关性，对于Q网络的微小更新会导致策略明显的变化，以及action value Q(s,a)和target action value $r+\gamma max Q(s',a')$ 之间的关联性。这三点都是一定会存在的问题，不可比避免的。DQN中使用的经验回放主要是一定程度上打破序列之间的相关性，而目标网络是解决Q值和目标Q值之间的相关性的（原文Human-level control through deep reinforcement
learning第四段）。但是对于第二个原因，并由和好的解决，所以可以朝着这个方向拓展。）
经验回放，是指在Agent与环境交互过程中，经验会以 $s_t,a_t,r_t,s_{t+1})$ 的形式存放在经验池D中，每次训练会从D中随机抽样出一批数据来进行训练，这样就可以在一定程度上消除样本之间的相关性。目标网络是指，DQN中使用两个网络，一个网络是当前网络，与环境交互，并不断更新。另一个网络是目标网络，它并不与环境交互，也不在每个时间步进行更新，而是每隔一定时间步才会更新，每次更新都是把当前网络参数直接赋值给它。
具体的操作是每此训练时，比如第 $i$ 次迭代，一个小批量经验（minibatch）经验 $e_t=(s_t,a_t,r_t,s_{t+1})$ 会从经验池中随机抽样出来。损失函数定义为: $L_i(\theta_i)=E_{(s,a,r,s')\sim D}[(y_i-Q(s,a|\theta_i))^2]$ 其中 $y_i=r+\gamma max_{a'}Q^-(s',a'|\theta^-)$ 这里 $Q^-$ 就是目标网络。每过一定时间步就会将 $\theta$ 赋值给 $\theta^-$ 。伪代码如下：
在这里插入图片描述