深度强化学习——DQN

最新推荐文章于 2025-04-07 15:52:16 发布

草帽B-O-Y

最新推荐文章于 2025-04-07 15:52:16 发布

阅读量10w+

点赞数 130

分类专栏：深度强化学习文章标签：深度学习深度强化学习强化学习

本文链接：https://blog.csdn.net/u013236946/article/details/72871858

版权

深度强化学习专栏收录该内容

5 篇文章

订阅专栏

联系方式：860122112@qq.com

DQN（Deep Q-Learning）可谓是深度强化学习（Deep Reinforcement Learning，DRL）的开山之作，是将深度学习与强化学习结合起来从而实现从感知（Perception）到动作（ Action ）的端对端（End-to-end）学习的一种全新的算法。由DeepMind在NIPS 2013上发表1，后又在Nature 2015上提出改进版本2。

一、DRL

原因：在普通的Q-learning中，当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值，而当状态和动作空间是高维连续时，使用Q-Table不现实。

通常做法是把Q-Table的更新问题变成一个函数拟合问题，相近的状态得到相近的输出动作。如下式，通过更新参数 $\theta$ 使Q函数逼近最优Q值

Q (s, a; θ) \approx Q' (s, a)

$Q(s,a;\theta)\approx Q'(s,a)$ 而深度神经网络可以自动提取复杂特征，因此，面对高维且连续的状态使用深度神经网络最合适不过了。

DRL是将深度学习（DL）与强化学习（RL）结合，直接从高维原始数据学习控制策略。而DQN是DRL的其中一种算法，它要做的就是将卷积神经网络（CNN）和Q-Learning结合起来，CNN的输入是原始图像数据（作为状态State），输出则是每个动作Action对应的价值评估Value Function（Q值）。

二、DL与RL结合的问题

DL需要大量带标签的样本进行监督学习；RL只有reward返回值，而且伴随着噪声，延迟（过了几十毫秒才返回），稀疏（很多State的reward是0）等问题；
DL的样本独立；RL前后state状态相关；
DL目标分布固定；RL的分布一直变化，比如你玩一个游戏，一个关卡和下一个关卡的状态分布是不同的，所以训练好了前一个关卡，下一个关卡又要重新训练；
过往的研究表明，使用非线性网络表示值函数时出现不稳定等问题。

三、DQN解决问题方法

通过Q-Learning使用reward来构造标签（对应问题1）
通过experience replay（经验池）的方法来解决相关性及非静态分布问题（对应问题2、3）
使用一个CNN（MainNet）产生当前Q值，使用另外一个CNN（Target）产生Target Q值（对应问题4）

1、构造标签

前面提到DQN中的CNN作用是对在高维且连续状态下的Q-Table做函数拟合，而对于函数优化问题，监督学习的一般方法是先确定Loss Function，然后求梯度，使用随机梯度下降等方法更新参数。DQN则基于Q-Learning来确定Loss Function。

Q-Learning
有关RL的基础知识不再啰嗦，直接看Q-Learning的更新公式：

Q * (s, a) = Q (s, a) + α (r + γ max a' Q (s', a') - Q (s, a))

$Q^*(s,a) = Q(s,a)+\alpha(r+\gamma \max_{a'}Q(s',a')-Q(s,a))$
而DQN的Loss Function为

L (θ) = E [(T a r g e t Q - Q (s, a; θ)) 2]

$L(\theta)=E[(TargetQ-Q(s,a;\theta))^2]$
其中

θ $\theta$ 是网络参数，目标为

T a r g e t Q = r + γ max a' Q (s', a'; θ)

$TargetQ = r+\gamma \max_{a'}Q(s',a';\theta)$

显然Loss Function是基于Q-Learning更新公式的第二项确定的，两个公式意义相同，都是使当前的Q值逼近Target Q值。

接下来，求 $L(\theta)$ 关于 $\theta$ 的梯度，使用SGD等方法更新网络参数 $\theta$ 。

2、经验池（experience replay）

经验池的功能主要是解决相关性及非静态分布问题。具体做法是把每个时间步agent与环境交互得到的转移样本 $(s_t, a_t, r_t,s_{t+1})$ 储存到回放记忆单元，要训练时就随机拿出一些（minibatch）来训练。（其实就是将游戏的过程打成碎片存储，训练时随机抽取就避免了相关性问题）

3、目标网络

在Nature 2015版本的DQN中提出了这个改进，使用另一个网络（这里称为TargetNet）产生Target Q值。具体地， $Q(s,a;\theta_{i})$ 表示当前网络MainNet的输出，用来评估当前状态动作对的值函数； $Q(s,a;\theta_{i}^-)$ 表示TargetNet的输出，代入上面求 $TargetQ$ 值的公式中得到目标Q值。根据上面的Loss Function更新MainNet的参数，每经过N轮迭代，将MainNet的参数复制给TargetNet。