第1期技术: DQN算法原理及实现过程

原创

已于 2022-03-25 15:00:12 修改 · 置顶 · 4.8k 阅读

39 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #机器学习

于 2020-09-07 23:12:48 首次发布

本文深入解析深度强化学习的基础概念与DQN算法，详细介绍了Q-Learning、经验回放、目标网络等关键技术，通过Atari游戏实例，阐述DQN在高维状态空间的应用，适合深度学习与游戏AI领域的研究者。

在这里插入图片描述

深度强化学习实验室（DeepRLhub）

访问官网： http://deeprlhub.com

特别声明：本文是作者在充分知晓著作权细则的情况下，经过个人付出或者翻译他人著作内容，并已注明翻译原文来源的情况下授权给《深度强化学习实验室》CSDN博客发布，内容仅供深度强化学习领域的爱好者分享与交流使用，无任何商业行为，出处解释权归深度强化学习实验室，内容版权和解释权归作者所有，如有任何侵犯他人利益，请联系我们立即删除。

利用神经网络近似值函数的方法表示为：
$\hat{V}(s, w) \approx V_{\pi}(s) \\ \hat{q}(s, a, w) \approx q_{\pi}(s, a)$
那么具体的工作过程是怎样实现的? 以及如何从端到端的过程，本文将讲解Deep Q Network（DQN, 而这正是由DeepMind于2013年和2015年分别提出的两篇论文《Playing Atari with Deep Reinforcement Learning》《Human-level Control through Deep Reinforcement Learning：Nature杂志》

其中DeepMind在第一篇中第一次提出Deep Reinforcement Learning（DRL）这个名称，并且提出DQN算法，实现从视频纯图像输入，完全通过Agent学习来玩Atari游戏的成果。之后DeepMind在Nature上发表了改进版的DQN文章（Human-level …）, 这将深度学习与RL结合起来实现从Perception感知到Action动作的端到端的一种全新的学习算法。简单理解就是和人类一样，输入感知信息比如眼睛看到的东西，然后通过大脑（深度神经网络)，直接做出对应的行为（输出动作）的学习过程。而后DeepMind提出了AlphaZero（完美的运用了DRL+Monte Calo Tree Search）取得了超过人类的水平！下文将详细介绍DQN：

一、DQN算法

DQN算法是一种将Q_learning通过神经网络近似值函数的一种方法，在Atari 2600 游戏中取得了超越人类水平玩家的成绩，下文通过将逐步深入讲解：

1.1、 Q_Learning算法

$Q\_Learning$ 是Watkins于1989年提出的一种无模型的强化学习技术。它能够比较可用操作的预期效用（对于给定状态），而不需要环境模型。同时它可以处理随机过渡和奖励问题，而无需进行调整。目前已经被证明，对于任何有限的MDP，Q学习最终会找到一个最优策略，即从当前状态开始，所有连续步骤的总回报回报的期望值是最大值可以实现的。学习开始之前，Q被初始化为一个可能的任意固定值（由程序员选择）。然后在每个时间t, Agent选择一个动作 $a_{t}$ ，得到一个奖励 $R_t$ ，进入一个新的状态 $S_{t+1}$ 和Q值更新。其核心是值函数迭代过程，即：

$Q(s_{t},a_{t}) \leftarrow Q(s_{t},a_{t})+\alpha \cdot[r_{t}+\gamma \max\limits_{\pi}Q(s_{t+1},a_{t})-Q(s_{t},a_{t})]$

其中 $\alpha$ 是学习率， $\gamma$ 为折扣因子，具体的实现过程见下图伪代码：

这里写图片描述

首先初始化值函数矩阵，开始episode,然后选择一个状态state，同时智能体根据自身贪婪策略，选择action, 经过智能体将动作运用后得到一个奖励 $R$ 和 $S^{'}$ ,计算值函数，继续迭代下一个流程。

1.1.1、 $Q\_Learning$ 执行过程中有两个特点：异策略和时间差分

异策略：就是指行动策略和评估策略不是同一个策略，行动策略采用了贪心的 $\epsilon$ - $g r e e d y$ 策略（第5行），而评估策略采用了 $\max\limits_{\pi}Q(s, a)$ 贪心策略（第7行）！
时间差分：从值函数迭代公式(2)可以看出时间差分, 其中 $r_{t}+\max\limits_{\pi}(s_{t+1}, a_{t}）$