深度强化学习（1）Deep Q-Learning

最新推荐文章于 2021-10-27 21:40:23 发布

#妖言惑众

最新推荐文章于 2021-10-27 21:40:23 发布

阅读量733

点赞数 2

分类专栏：深度强化学习文章标签：深度强化学习 Deep Q-learning

本文链接：https://blog.csdn.net/weixin_43316082/article/details/90108287

版权

深度强化学习专栏收录该内容

8 篇文章 2 订阅

订阅专栏

Deep Q-Learning

强化学习的求解方法，无论是动态规划DP，蒙特卡罗方法MC，还是时序差分TD，使用的状态都是离散的有限个状态集合 $S$ 。此时问题的规模比较小，比较容易求解。但是假如我们遇到复杂的状态集合呢？甚至很多时候，状态是连续的，那么就算离散化后，集合也很大，此时我们的传统方法（如Q-Learning），根本无法在内存中维护这么大的一张Q表。

值函数逼近
由于问题的状态集合规模大，一个可行的建模方法是价值函数的近似表示。从数学角度来看，函数逼近方法可以分为参数逼近和非参数逼近，因此强化学习值函数估计可以分为参数化逼近和非参数化逼近。其中参数化逼近又分为线性参数化逼近和非线性化参数逼近。

这一节，我们主要介绍参数化逼近。方法是我们引入一个状态价值函数 $\hat{v}$ , 这个函数由参数 $\theta$ 描述，并接受状态 $s$ 作为输入，计算后得到状态 $s$ 的价值，我们将逼近的值函数写为： $\hat{\upsilon}\left(s,\theta\right)$ 。类似的，引入一个动作价值函数 $\hat{q}$ ，这个函数由参数 $\theta$ 描述，并接受状态 $s$ 与动作 $a$ 作为输入，计算后得到动作价值，我们将逼近的值函数写为： $\hat{q}(s, a, \theta)$ 。

当逼近的值函数结构确定时，那么值函数的逼近就等价于参数的逼近。值函数的更新也就等价于参数的更新。也就是说，我们需要利用试验数据来更新参数值。

函数逼近 $\hat{\upsilon}\left(s,\theta\right)$ 的过程是一个监督学习的过程，其数据和标签对为： $\left(S_t,U_t\right)$ , 其中 $U_t$ 等价于蒙特卡罗方法中的 $G_t$ ，TD方法中的 $r+\gamma Q\left(s',a'\right)$ ，以及 $TD\left(\lambda\right)$ 中的 $G_{t}^{\lambda}$ 。
训练的目标函数为：

$argmin_{\theta}\left(q\left(s,a\right)-\hat{q}\left(s,a,\theta\right)\right)^2$

值函数可以采用线性逼近也可以采用非线性逼近。非线性逼近常用的是神经网络。下面我们讨论非线性逼近。

DQN
本部分主要讲解DQN，也就是DeepMind发表在Nature上的一篇论文。题目是：Human-level control through deep reinforcement learning

Q-learning算法是1989年Watkins提出来的，2015年Nature论文所提出的DQN就是在Q-learning的基础上修改得到的。DQN对Q-learning的修改主要体现在三个方面：
（1）DQN利用深度卷积神经网络逼近值函数；
（2）DQN利用了经验回放对强化学习的学习过程进行训练；
（3）DQN独立设置了目标网络来单独处理时间差分算法中的TD偏差。

（1）DQN利用深度卷积神经网络逼近行为值函数
值函数利用神经网络进行逼近，属于非线性逼近。虽然逼近方法不同，但都是参数逼近。这里的值函数对应着一组参数，在神经网络里参数是每层网络的权重，我们用 $\theta$ 表示。用公式表示值函数为： $Q\left(s,a;\theta\right)$ 。我们这时候对值函数进行更新时其实更新的是参数 $\theta$ ，当网络结构确定时， $\theta$ 就代表值函数。DQN所用的网络结构是三个卷积层加两个全连接层，如图：
在这里插入图片描述

（2）DQN利用了经验回放对强化学习的学习过程进行训练
人在睡觉的时候，海马体会把一天的记忆重放给大脑皮层。利用这个启发机制，DeepMind团队的研究人员构造了一种神经网络的训练方法：经验回放。
通过经验回放为什么可以令神经网络的训练收敛且稳定？
原因是：对神经网络进行训练时，存在的假设是独立同分布。而通过强化学习采集到的数据之间存在着关联性，利用这些数据进行顺序训练，神经网络当然不稳定。经验回放可以打破数据间的关联。具体是这么做的：
在这里插入图片描述
在强化学习过程中，智能体将数据存储到一个数据库中，然后利用均匀随机采样的方法从数据库中抽取数据，然后利用抽取的数据对神经网络进行训练。这种经验回放的技巧可以打破数据之间的关联性。

（3）DQN设置了目标网络来单独处理时间差分算法中的TD偏差
利用神经网络对值函数进行逼近时，值函数更新的是参数 $\theta$ ，更新方法是梯度下降法。因此值函数更新实际上变成了监督学习的一次更新过程，其梯度下降法为：

$\theta_{t+1}=\theta_{t}+\alpha\left[r+\gamma \max _{a^{\prime}} Q\left(s^{\prime}, a^{\prime} ; \theta\right)-Q(s, a ; \theta)\right] \nabla Q(s, a ; \theta)$

其中 $r+\gamma\max_{a'}Q\left(s',a';\theta\right)$ 为TD目标，在计算
$\max_{a'}Q\left(s',a';\theta\right)$ 值时用到的网络参数为 $\theta$ 。

我们称计算TD目标时所用的网络为TD网络。以往的神经网络逼近值函数时，计算TD目标的动作值函数所用的网络参数 $\theta$ ，与梯度计算中要逼近的值函数所用的网络参数相同，这样就容易使得数据间存在关联性，训练不稳定。为了解决这个问题，DeepMind提出计算TD目标的网络表示为 $\theta^-$
；计算值函数逼近的网络表示为 $\theta$ ；用于动作值函数逼近的网络每一步都更新，而用于计算TD目标的网络每隔固定的步数更新一次。
因此值函数的更新变为：

$\theta_{t+1}=\theta_{t}+\alpha\left[r+\gamma \max _{a^{\prime}} Q\left(s^{\prime}, a^{\prime} ; \theta^{-}\right)-Q(s, a ; \theta)\right] \nabla Q(s, a ; \theta)$

DQN的算法流程

输入：迭代轮数 $T$ ，状态特征维度 $n$ , 动作集 $A$ , 步长 $α$ ，衰减因子 $γ$ , 探索率 $ϵ$ , 当前 $Q$ 网络 $Q$ ，目标 $Q$ 网络 $Q^{\prime}$ , 批量梯度下降的样本数 $m$ ,目标 $Q$ 网络参数更新频率 $C$ 。
输出： $Q$ 网络参数

随机初始化所有的状态和动作对应的价值 $Q$ . 随机初始化当前 $Q$ 网络的所有参数 $w$ ,初始化目标 $Q$ 网络 $Q^{\prime}$ 的参数 $w^{\prime}=w$ 。清空经验回放的集合 $D$ 。
for i from 1 to $T$ ，进行迭代：
　a) 初始化 $S$ 为当前状态序列的第一个状态, 拿到其特征向量 $ϕ (S)$
　
　b) 在 $Q$ 网络中使用 $ϕ (S)$ 作为输入，得到 $Q$ 网络的所有动作对应的 $Q$ 值输出。用 $ϵ -$ 贪婪法在当前 $Q$ 值输出中选择对应的动作 $A$
　
　c) 在状态 $S$ 执行当前动作 $A$ ,得到新状态 $S^{\prime}$ 对应的特征向量 $\phi\left(S^{\prime}\right)$ 和奖励 $R$ ，是否终止状态is_end
　
　d) 将 $\left\{\phi(S), A, R, \phi\left(S^{\prime}\right), i s_{-} e n d\right\}$ 这个五元组存入经验回放集合 $D$
　
　e) $S=S^{\prime}$
　
　f) 从经验回放集合 $D$ 中采样 $m$ 个样本 $\left\{\phi\left(S_{j}\right), A_{j}, R_{j}，\phi\left(S_{j}^{\prime}\right), i s_{-} e n d_{j}\right\}, j=1,2,,, m$ 计算当前目标Q值 $y_{j}$ ：
　 $y_{j}=\left\{\begin{array}{ll}{R_{j}} & {i s_{-} e n d_{j}}\quad is \quad true\\ {R_{j}+\gamma \max _{a^{\prime}} Q^{\prime}\left(\phi\left(S_{j}^{\prime}\right), A_{j}^{\prime}, w^{\prime}\right)} & {i s_{-} e n d_{j}}\quad is\quad false\end{array}\right.$
　
　g) 使用均方差损失函数 $\frac{1}{m} \sum_{j=1}^{m}\left(y_{j}-Q\left(\phi\left(S_{j}\right), A_{j}, w\right)\right)^{2}$ ，通过神经网络的梯度反向传播来更新 $Q$ 网络的所有参数 $w$
　
　h) 如果 $T$ % $C$ =1，则更新目标 $Q$ 网络参数 $w^{\prime}=w$
　
　i) 如果 $S^{\prime}$ 是终止状态，当前轮迭代完毕，否则转到步骤 b)