深度强化学习研究笔记（3）——Deep Q-Network（DQN）（DQN问题引入，建模，一个Python小例子）

最新推荐文章于 2023-04-27 17:19:33 发布

越野者

最新推荐文章于 2023-04-27 17:19:33 发布

阅读量5.6k

点赞数 5

分类专栏：强化学习（Reinforcement learning）深度学习（Deep learning） TensorFlow Python 文章标签：强化学习深度学习 DQN 研究笔记 Q-learning

本文链接：https://blog.csdn.net/discoverer100/article/details/88588357

版权

本文介绍了深度强化学习中的Deep Q-Network（DQN）算法，阐述了DQN如何解决传统Q-learning在高维数据上的挑战。通过问题建模和算法描述，展示了DQN在CartPole游戏中的应用，包括游戏接口定义、网络结构、训练过程和ε-greedy动作选择策略。DQN利用神经网络近似Q值，实现了在复杂环境中的学习和决策。

摘要由CSDN通过智能技术生成

1. 深度强化学习（Deep Q-Network，DQN）问题引入

传统Q-learning方法难以处理真实场景下的高维数据，将大量的state和 $Q$ value存储在内存中会导致计算复杂。于是有研究者想到利用深度神经网络（DNN）来高维数据的强化学习问题，其核心思想是利用价值函数的近似（Value Function Approximation）求解，通过深度神经网络来表示 $Q$ 值的近似分布。粗略地理解，可以认为利用深度神经网络（DNN）来代替Q-learning中的Q-table。下图描述了如何利用深度神经网络来进行强化学习（图片来源：Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., … & Petersen, S. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529. 在线阅读）

在这里插入图片描述

从某种意义上，我们可以将深度神经网络（DNN）视为一个黑盒子。拿强化学习代理玩游戏作为应用场景案例，DNN将游戏状态作为输入并返回每个动作的Q值近似值，之后我们选择具有最大Q值的动作——就像传统的Q-learning方法一样。为了使我们的神经网络能够根据环境进行预测，我们必须为它们提供输入和输出对进行训练，神经网络将通过迭代地更新参数来训练该数据以基于输入来近似输出。

为什么玩电子游戏没办法直接用Q-learning 来学习最佳路径呢？因为电子游戏的每一帧图片就可以是一种状态，游戏中的角色又可以有多种动作(上下左右，下蹲跳跃等等)。如果用Q表来记录每一个动作所对应的状态，那么这张Q表将大到无法想象。

—— from AI学习笔记——深度Q-Learning(Deep Q-Learing(DQN))

2. 问题建模

首先，我们按照深度学习范式来构建损失函数，如下所示：
$L_i\left ( \theta_i \right )=\mathbb{E}_{s,a\sim \rho \left ( \cdot \right )}\left [ \left ( y_i-Q\left ( s,a;\theta_i \right ) \right ) ^{2} \right ] \tag {1}$

其中， $i$ 表示迭代次数， $\theta_i$ 表示第 $i$ 次迭代时的Q-network的网络权重。 $\rho (s,a)$ 是状态序列 $s$ 和动作 $a$ 的概率分布，我们将其称之为行为分布（behaviour distribution）。 $Q\left ( s,a;\theta_i \right )$ 表示Q-network中通过神经网络来拟合的Q值函数，即 $Q\left ( s,a;\theta \right ) \approx Q^*\left ( s,a \right )$ 。 $y_i$ 表示第 $i$ 次迭代的目标 $Q$ 值（target $Q$ ）：

$y_i=\mathbb{E}_{s' \sim \varepsilon }\left [ r+\gamma \cdot \text{max}_{a'} Q\left ( s',a';\theta_{i-1} \right ) \mid s,a \right ] \tag {2}$

和深度学习方法一致，在第 $i$ 次迭代计算损失值时，我们采用的是第 $i - 1$ 次迭代的网络权重。上述公式(2)中， $r+\gamma \cdot \text{max}_{a'} Q\left ( s',a';\theta_{i-1} \right )$ 表示目标 $Q$ 值（它通过以前的网络权重进行计算）， $Q\left( {s,a} \right)$ 表示当前的 $Q$ 值（它通过当前最新的网络权重进行计算）。这里，我们可以回顾Q-learning算法中的 $Q$ 值更新公式（学习率设置为1）：
$\begin{aligned} Q\left( { {s_t},{a_t}} \right) &\leftarrow Q\left( { {s_{t + 1}},{a_t}} \right) \\ &\leftarrow {r_t} + \lambda \cdot \mathop {\max }\limits_a Q\left( { {s_{t + 1}},a} \right) \\ & \leftarrow {r_t} + \gamma \cdot \mathop {\max }\limits_a Q\left( { {s_{t + 1}},a} \right) \end{aligned} \tag {3}$

通过公式(3)能够佐证，公式(2)中的 $\left( {r + \gamma \cdot \mathop {\max }\limits_{a'} \hat Q\left( {s,a'} \right)} \right)$

最低0.47元/天解锁文章

越野者

关注

5
点赞
踩
45

收藏

觉得还不错? 一键收藏
3
评论
深度强化学习研究笔记（3）——Deep Q-Network（DQN）（DQN问题引入，建模，一个Python小例子）

文章目录1. DQN问题描述1. DQN问题描述传统Q-learning方法难以处理真实场景下的高维数据，将大量的state和QQQ value存储在内存中会导致计算复杂。于是有研究者想到利用深度神经网络（DNN）来高维数据的强化学习问题，其核心思想是利用价值函数的近似（Value Function Approximation）求解，通过深度神经网络来表示QQQ值的近似分布。下图描述了如何利用...
复制链接

扫一扫

专栏目录