莫烦python强化学习系列-DQN学习

最新推荐文章于 2025-03-12 20:37:07 发布

cy冲鸭

最新推荐文章于 2025-03-12 20:37:07 发布

阅读量3.7k

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/weixin_41841797/article/details/84996128

版权

本文介绍了DQN如何将神经网络与Q-learning相结合，以解决传统Q-learning在状态多时的局限性。DQN通过神经网络输入状态并输出动作的Q值，利用experience replay和fixed Q-targets两大技术提升学习效果。DQN算法概述包括从经历中随机抽取样本学习以及使用两个参数不同的神经网络分别预测Q估计和Q现实。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

传统的Q-learning，我们使用表格来存储每一个状态 state, 和在这个 state 下，每个行为 action 所拥有的 Q 值。传统的Q-learning不适用状态多的情况。

	a1	a2
s1	Q(s1,a1)	Q(s1,a2)
s2	Q(s2,a1)	Q(s2,a2)
......	......	......

DQN将神经网络和Q-learning结合。我们可以将状态和动作当成神经网络的输入, 然后经过神经网络分析后得到该动作的 Q 值；还有一种形式的是这样, 我们也能只输入状态值, 输出所有的动作值, 然后按照 Q learning 的原则, 直接选择拥有最大值的动作当做下一步要做的动作。莫烦老师的课程采用第二种形式。