【强化学习】DQN、Double DQN、Dueling DQN的总结

刘兴禄

已于 2022-02-28 16:51:41 修改

阅读量798

点赞数

分类专栏： RL+OR 机器学习+强化学习-笔记文章标签：强化学习深度学习机器学习

于 2022-02-28 03:10:42 首次发布

本文链接：https://blog.csdn.net/HsinglukLiu/article/details/123165881

版权

本文详细介绍了强化学习中的DQN算法，包括其工作原理和潜在的过高估计问题。接着，文章阐述了Double DQN如何通过使用两个独立的网络来解决这个问题，以减少动作价值的过高估计。最后，简要提到了Dueling DQN，该算法通过分离状态价值和优势函数来改进DQN，以更好地估计每个动作的价值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者：刘兴禄，清华大学，清华伯克利深圳学院，博士在读

DQN

(图片来自Wang Shusen的教学视频,网址：https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=18272266068137655483&spm_id_from=333.337.0.0)

综上，我们来总结一下用TD-learning的DQN版本的算法流程：

观察到一个交互(transition) $s_t, a_t, r_t, s_{t+1})$ ；

计算TD target： $y_{\text{target}} = r_t + \gamma \underset{a}{\max \,\,}Q(s_{t+1}, a; \mathbf{w}_{t})$ ;

计算TD error: $\delta_t = Q(s_{t}, a_t; \mathbf{w}_{t})-y_{\text{target}}$ ；

更新神经网络参数： $\mathbf{w}_{t+1}\leftarrow \mathbf{w}_{t} - \alpha \cdot \delta_t \frac{\partial Q(s_t, a_t; \mathbf{w})}{\partial\mathbf{w}}$

这里注意：

我们在状态 $s_t$ 下，试探了一步 $a_t$ ，得到了reward $r_t$ ，状态更新到 $s_{t+1}$ ，我们觉得基于这个试探(探索动作 $a_t$ )，我们可以做一个更靠谱的估计 $y_{\text{target}} = r_t + \gamma \underset{a}{\max \,\,}Q(s_{t+1}, a; \mathbf{w}_{t})$
我们将这个更靠谱的估计，就当做真实的值（这也就是为什么叫他target），我们努力往这个方向靠拢。
在下图中，就是左边的q_target，他的输入是状态 $s_{t+1}$ 以及上一步的奖励 $r_t$ 。由于我们对嗲一步可以采取的动作 $a$ 做了 $\max$ ，因此动作 $a$ 就被消掉了，因此q_target不依赖与动作 $a$ 。只需要 $s_{t+1}$ 和 $r_t$ 即可。

(图片来自莫凡的github: https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow)

q_target或者 $y_{\text{target}}$ 是我们想要达到的目标，我们其实相当于有将它作为了标签。但是我们预估出来的是多少呢，其实就是 $\hat{y} = Q(s_{t}, a_t; \mathbf{w}_{t})$

最低0.47元/天解锁文章