基于值函数的强化学习算法之深度Q网络（DQN）详解

搏博

已于 2025-05-21 19:49:46 修改

阅读量980

点赞数 24

分类专栏：机器学习文章标签：算法 pytorch 人工智能 python 语言模型深度学习

于 2025-03-06 19:27:39 首次发布

本文链接：https://blog.csdn.net/lzm12278828/article/details/146078088

版权

Q-Learning存在如维度灾难这样的局限性，为解决这样的问题，深度Q网络（Deep Q-Network, DQN）对Q-Learning进行了扩展，用深度神经网络替代Q表，引入经验回放、目标网络等关键技术，解决高维状态空间的问题。其中经验回放的作用是打破数据相关性，提高数据利用率，而目标网络则是为了稳定训练过程，防止Q值的过快变化。

DQN是强化学习领域的重要里程碑，首次将深度神经网络与Q-Learning结合，解决了传统Q-Learning在高维状态空间（如图像输入）中的维度灾难问题。

一、核心思想

Q值函数近似：用深度神经网络Q(s,a;θ)近似Q值函数，替代传统的Q表。在原来Q值表的基础上，增加了神经网络参数θ。

目标函数：通过最小化贝尔曼误差（Bellman Error）优化网络参数：

其中θ⁻是目标网络Q(θ⁻)的参数，θ是主网络Q(θ)的参数，与 Q(θ⁻)与Q(θ)异步更新。

关于Q值表：

在数学或文档中，Q值表通常以矩阵形式呈现，每个单元格存储对应状态-动作对的Q值即Q(s,a)。例如，对于状态s1 ,s2 ,s3和动作a1 ,a2：

假设一个3x3网格世界，每个状态对应网格中的一个位置，所以状态为9个位置，动作有上下左右4个方向，Q值表则是一个9x4的矩阵（9个状态（行），4个动作（列）），Q值表如下：

状态（位置）	动作（上）	动作（下）	动作（左）	动作（右）
(0,0)	Q(0,0,上)	Q(0,0,下)	Q(0,0,左)	Q(0,0,右)
(0,1)	Q(0,1,上)	Q(0,1,下)	Q(0,1,左)	Q(0,1,右)
...	...	...	...	...
(2,2)	Q(2,2,上)	Q(2,2,下)	Q(2,2,左)	Q(2,2,右)