【深度强化学习】Double DQN 算法

WilliamChou123

已于 2023-12-21 23:25:12 修改

阅读量506

点赞数 11

分类专栏：深度强化学习（DRL）文章标签：算法

于 2023-12-17 10:04:26 首次发布

本文链接：https://blog.csdn.net/qq_40718185/article/details/135041554

版权

深度强化学习（DRL）专栏收录该内容

10 篇文章 1 订阅

订阅专栏

定义

DQN（Deep Q-Network）是一种用于解决强化学习问题的算法，特别是在处理离散动作空间的情况下。让我们用通俗易懂的语言来解释 DQN 算法：

目标

DQN 主要用于教会一个智能体（比如一个机器人或一个游戏玩家）在与环境的交互中学到一个最佳策略，以获得最大的累积奖励。

关键思想

DQN 的核心思想是通过深度神经网络来近似和优化 Q-value 函数。Q-value 函数衡量在给定状态下采取某个动作的预期累积奖励。

主要步骤

1. 建立经验回放缓冲区：

经验回放缓冲区： $\text{Replay Buffer} = \{(s, a, r, s', \text{done})\}$

2. 构建深度神经网络（Q网络）：

一个 Q-network 用于选择最优动作，输出： $Q(s, a;\theta)$
另一个 Q-network 用于计算目标 Q-value，输出 $Q(s', a;\theta^-)$
参数更新规则： $\theta \leftarrow \theta + \alpha \cdot \nabla_\theta \left( \text{$Q_{target}$-value} - Q(s, a;\theta) \right)^2$

3. ε-greedy 探索策略：

$a = \begin{cases} \text{Random Action}, & \text{with probability } \epsilon \\ \text{Optimal Action}, & \text{with probability } 1-\epsilon \end{cases}$

4. 经验回放：

从经验回放缓冲区中随机抽样一批经验：

$\text{Minibatch} = \text{sample}(\text{Replay Buffer}, \text{batch size})$

5. Q-learning 更新：

计算目标 Q-value： $\text{Target Q-value} = r + \gamma \cdot \max_{a'} Q(s', a';\theta^-)$
计算损失（误差）： $\text{Loss} = \left( \text{Target Q-value} - Q(s, a;\theta) \right)^2$
参数更新规则： $\theta \leftarrow \theta + \alpha \cdot \nabla_\theta \text{Loss}$

6. 重复训练过程：

持续与环境互动，不断重复上述步骤。

这些公式描述了 DQN 算法的关键步骤，其中 $\theta$ 是神经网络的参数， $\alpha$ 是学习率， $s$ 是当前状态， $a$ 是当前动作， $r$ 是获得的奖励， $s'$ 是下一个状态， $\gamma$ 是折扣因子。需要注意的是，为了增加稳定性，有时候会使用两个 Q-network，分别记作 $Q(s, a;\theta)$ 和 $Q(s, a;\theta^-)$ ，其中 $\theta^-$ 表示目标网络的参数，它的更新比主网络的更新慢。这有助于使目标 Q-value 的计算更加稳定。

优点

Double DQN（Double Deep Q-Network）算法的主要好处在于缓解 DQN 在估计 Q-value 时可能出现的过高估计问题。以下是 Double DQN 算法的一些优势：

减轻过高估计问题： Double DQN 的核心目标是通过引入目标网络来减轻 DQN 中 Q-value 过高估计的问题。这有助于提高对动作价值的准确估计，从而改善智能体的决策质量。
提高性能稳定性： 过高估计可能导致智能体在实际环境中选择不适当的动作，影响算法的性能。使用 Double DQN 可以提高算法在强化学习任务中的稳定性，使其更加可靠。
更快的学习收敛： 通过减轻过高估计问题，Double DQN 有助于更快地收敛到一个较优的策略。这对于在资源有限的情况下加速训练过程尤为重要。
保留 DQN 的其他优势： Double DQN 保留了 DQN 的其他优势，例如经验回放和目标网络，这些优势有助于提高算法的性能和稳定性。

总体而言，Double DQN 通过引入目标网络，使得 Q-value 估计更加准确，提高了在深度强化学习任务中的性能表现，尤其在处理过高估计问题时具有显著的优势。

WilliamChou123

关注

11
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
【深度强化学习】Double DQN 算法

Double DQN（Double Deep Q-Network）算法的主要好处在于缓解 DQN 在估计 Q-value 时可能出现的过高估计问题。Double DQN 的核心目标是通过引入目标网络来减轻 DQN 中 Q-value 过高估计的问题。总体而言，Double DQN 通过引入目标网络，使得 Q-value 估计更加准确，提高了在深度强化学习任务中的性能表现，尤其在。Double DQN 保留了 DQN 的其他优势，例如经验回放和目标网络，这些优势有助于提高算法的性能和稳定性。
复制链接

扫一扫