DQN:Playing Atari with Deep Reinfocement Learning

DarrenXf

于 2021-02-23 23:23:09 发布

阅读量1.1k

点赞数 1

分类专栏：强化学习文章标签：强化学习神经网络

强化学习专栏收录该内容

5 篇文章

订阅专栏

Playing Atari with Deep Reinfocement Learning

论文地址

https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

个人翻译，并不权威

深度强化学习玩Atari

摘要

我们提出了第一个成功通过强化学习直接从高维感官输入中学习控制策略的深度学习模型。
该模型是一个卷积神经网络，用Q-learing的变种训练，输入为原始像素，输出为估计未来reward的值函数。
我们将我们的方法应用于七个来自街机学习环境的Atari 2600游戏，而不需要调整架构或者学习算法。
我们发现它在六个游戏中表现超过了之前所有的方法，并且在其中三个游戏中超过了人类专家。

介绍

学习如何直接从视觉和语音等高维感知输入控制智能体是强化学习的长期挑战之一。
操作这些领域大多数成功的RL应用,依赖于联合线性值函数或者策略表示的手工设计的特征。显然，这些系统的性能很大程度上依赖于特征表示的质量。

深度学习的最新进展使得从原始感官数据中提取高级特征成为可能，这导致了计算机视觉和语音的突破。
这些方法使用一系列的神经网络结构，包括卷积网络，多层感知机，受限Boltzman机和递归神经网络，并利用了有监督和无监督学习。
很自然的会问,类似的技术是否使用感知数据RL收益。

然后，强化学习从深度学习的角度提出了一些挑战。
首先，迄今为止，成功的深度学习应用需要大量的手工标注的训练数据。
在另一方面，RL算法必须能够学习从一个经常是稀疏,有噪以及延迟的标量reward信号。
与监督学习中输入和目标之间的直接联系相比，行动和结果奖励之间的延迟可能长达数千个时间步，这似乎特别令人望而生畏。
另一个问题是,大多数深度学习算法假设数据样本是独立的，而在强化学习中，通常会遇到高度相关的状态序列。
此外，在RL中，数据分布随着算法学习新的行为而改变，这对于假设固定的潜在分布的深度学习方法来说可能是有问题的。

本文证明了卷积神经网络可以克服这些困难，在复杂的RL环境中，从原始视频数据中学习成功的控制策略。
该网络采用一个Q-learning算法的变种进行训练，用随机梯度下降来更新权重。
为了解决相关数据和非平稳分布的问题，我们使用了一种经验重演机制，随机抽样以前的transitions，从而平滑训练分布在过去的许多行为。

在这里插入图片描述

Figure1: Screenshots from ﬁve Atari 2600 Games: (Left-to-right)Pong,Breakout, Space Invaders, Seaquest, Beam Rider
图1：五个Atari 2600游戏的截图：(从左到右)乒乓球，突破，太空入侵者，海上探险，光束骑士

我们将我们的方法应用于在街机学习环境 The Arcade Learning Environment (ALE)中实现的一系列Atari 2600游戏。
Atari 2600是一个具有挑战性的RL实验台，它向智能体提供高维视觉输入(210x160RGB视频，60Hz)和一组多样化和有趣的，为人类玩家设计的任务。
我们的目标是创建一个单神经网络智能体能够成功的学习玩尽可能多的游戏。
该网络没有提供任何游戏专用信息或手工设计的视觉功能，也不知道模拟器的内部状态。
它只从视频输入，reward和终端信号以及一些列可能的动作中学习，就像人类玩家一样。
此外，网络结构和用于训练的所有超参数在整个训练期间保持不变。
到目前为止，在我们尝试过的七款游戏中，有六款游戏表现超过了所有的RL算法，其中三款游戏的表现也超过了一位专业的人类玩家。
图1 提供了五个用于训练的游戏的屏幕截图。

背景

我们考虑一个任务，在这个任务中，一个智能体与一个环境E交互，在这个例子中是Atari仿真器，按照一系列的动作，观察和奖励进行交互。
在每一个时间步，智能体从一个合法的游戏动作中选择一个动作
$a_t$
，A={1,…,K}。
动作被传递到模拟器，并修改其内部状态和游戏分数。
一般来说环境E 可能是随机的。
智能体不观察模拟器的内部状态，而是从仿真器观察图像， $x_t ∈ R^t$ 这个图像表示当前屏幕的原始像素值组成的向量。
此外智能体获得一个表示游戏分数变化的reward $r_t$ 。
请注意，一般情况下，游戏分数可能取决于整个先前的动作和观察序列;只有经过数千个时间步之后，才能收到有关动作的反馈。
由于智能体只观察当前屏幕的图像，任务被部分观察到，并且许多仿真器状态在感知上被混淆，即仅从当前屏幕 $x_t$ 无法完全理解当前情况。
因此，我们考虑行动和观察的序列， $s_t = x_1, a_1, x_2, ..., a_{t-1},x_t$ 并学习依赖这些序列的游戏策略。
仿真器中的所有序列都假定在有限的时间步长内终止。
这种形式导致了一个大型但有限的马尔可夫决策过程(MDP),其中每个序列都是一个不同的状态。
因此，我们可以将标准的强化学习方法应用于MDPs，只需要使用t时刻的完整序列 $s_t$ 作为状态表示。

智能体的目标是通过以最大化未来回报的方式选择动作来与仿真器交互。
我们假设未来rewards在每个时间步被 $\gamma$ 因子打折。并将时间t的未来return定义为

在这里插入图片描述

其中T是游戏终止的时间步。

在这里插入图片描述

我们将最优动作价值函数

在这里插入图片描述

定义为遵循任何策略，在看到一些序列s，然后采取一些行动a之后，可以实现的最大预期回报。

在这里插入图片描述

π 是一个映射序列到动作的策略。(或动作上的分布)

最优动作值函数服从一个重要的恒等式，即贝尔曼方程。
这基于下述: 对于所有可能的动作a’,下一个时间步s’的最优值函数都知道。则最佳策略是选择动作a’使

在这里插入图片描述

的期望值最大化

在这里插入图片描述

许多强化学习算法的基本思想是通过使用贝尔曼方程作为迭代更新来估计动作值函数。

在这里插入图片描述

这种值迭代算法收敛到最优的动作值函数。

在这里插入图片描述

在实践中，这种方法是完全不切实际的,因为每个序列对值函数的估计是单独的，没有任何泛化。
相反，通常使用函数逼近器来估计动作值函数。

在这里插入图片描述

在强化学习社区中，这通常是一个线性函数逼近器，但有时会使用非线性函数逼近器，例如神经网络。
我们将权值为θ的神经网络函数逼近器成为Q网络。
Q网络可以通过最小化在每次迭代i时变化的损失

在这里插入图片描述

序列来训练。
其中

在这里插入图片描述

是迭代i的目标，
在这里插入图片描述

是序列s和动作a的概率分布，我们称之为行为分布。

在这里插入图片描述

优化损失函数Li(θi)时，上一次迭代 θi-1 的参数保持不变。
请注意，目标取决于网络权重;这与用于监督学习的目标不一致，后者在学习开始之前就已经确定。
根据权重微分损失函数，我们得到如下的梯度:

在这里插入图片描述

与其计算上述梯度中的全部期望值，不如通过随机梯度下降来优化损失函数。

在这里插入图片描述

如果每一步都要更新权值，并分别用行为分布ρ和仿真器E的单样本代替期望值，则得到了常见的Q-learning算法

注意这个算法是 model-free:
它直接使用仿真器E的样本来解决强化学习任务，而不需要显示的构造一个E的估计。
它也是off-policy:
它学习贪婪策略，
同时遵守确保充分探索状态空间的行为分布。
在实践中，行为分布通常由一个 ε-gready 策略选择，该策略遵循概率为 1-ε的贪婪策略，并选择概率为 ε的随机行为。

深度强化学习

最近在计算机视觉和语音识别方面的突破依赖于在非常大的训练集上有效的训练深层神经网络。
最成功的方法直接从原始输入训练，使用基于随机梯度下降的轻量级更新。
通过向深层神经网络输入足够的数据，通常可以学习比手工制作的特征更好的表示。
这些成功激发了我们强化学习的方法。
我们的目标是将强化学习算法连接到一个深度神经网络，它直接对RGB图像进行操作，并通过使用随机梯度更新有效地处理训练数据。
Tesauro的TD Gammon架构为这种方法提供了一个起点。
该体系结构直接从算法和环境的交互(或在双陆棋的情况下，通过自演)直接从策略上的经验样本 $s_t, a_t, s_{t+1}, a_{t+1}$ (st,at,st+1，at+1)更新估计值的网络参数。
由于这种方法在20年前就已经超过了最好的人类双陆棋玩家，因此，我们自然会怀疑二十年的硬件改进，再加上现代深度神经网络架构和可伸缩的RL算法，是否会产生显著的进步。

与TD-Gammon和类似的在线方法不同，我们使用了一种称为经验回放的技术 experience replay ,其中我们将智能体在每个时间步， $e_t = (s_t, a_t, r_t,s_{t+1}$ 的经验存储在一个数据集 $D=e_1, ... , e_N$ 将多个幕汇集到回放内存中。
在算法的内循环中，我们将Q-learning更新或小批量更新应用于从存储样本池中随机抽取的经验样本， e ~ D
在执行经验回放后，智能体根据ε-greedy 策略选择并执行一个动作。
由于使用任意长度的历史作为神经网络的输入是很困难的，因此我们的Q函数将工作在由函数φ生成的历史固定长度表示上。

在这里插入图片描述

算法1给出了完整的算法，我们称之为 deep Q-learning。
这种方法比标准的在线Q-learning有几个优点。
首先，经验的每一步都可能用于许多权重更新，从而提高数据效率。
第二，直接从连续样本中学习是无效的，因为样本之间有很强的相关性，将样本随机化会破坏这些相关性，从而降低更新的方差。
第三，在学习策略时，当前参数决定了参数训练的下一个数据样本。
例如，如果最大化动作向左移动，则训练样本将由左侧样本控制;如果最大化动作随后切换至右侧，则训练分布也将切换。
很容易看出不必要的反馈回路时如何产生的，参数可能会陷入一个很差的局部最小值，甚至会发生灾难性的发散。
通过使用经验回放，行为分布在许多以前的状态下是平均的，平滑了学习，避免了参数的震荡或发散。
请注意，当通过经验回放学习时，有必要学习off-policy (因为我们当前的参数与用于生成样本的参数不同),这就促使了Q-learning的选择。

在实际应用中，我们的算法只在回放内存中存储最后N个经验元组，并在执行更新时从D中均匀地随机抽取样本。
这些方法在某些方面时有限的，因为内存缓冲区不区分重要的转换，并且总是由于有限的内存大小N而覆盖最近的转换。
同样的，在内存中，统一的采样对所有的transitions都是同等重要的。
一个更复杂的抽样策略可能会强调transitions，从中我们可以学到最多，类似于优先扫描，prioritized sweeping

4.1 Preprocessing and Model Architecture 预处理和模型体系结构

直接处理原始Atari帧(210x160像素，128个调色板)可能需要费力的计算，因此我们应用了一个基本的预处理步骤，旨在降低输入维度。
对原始帧进行预处理，首先将其RGB表示转换为灰度，然后向下采样为110x84的图像。
最终的输入表示时通过裁剪图像的84x84区域来获得的，该区域大致捕获了播放区域。
最后的裁剪阶段时必须的，因为我们使用了来自[11]的二维卷积GPU实现，它需要平方输入。
对于本文中的实验，算法1中的函数φ将此预处理应用于历史的最后4帧，并将他们叠加以生成Q函数的输入。

使用神经网络参数化Q有几种可能的方法。
由于Q将历史动作对映射成Q值的标量估计，过去的一些方法将历史和动作作为神经网络的输入。
这种结构的主要缺点是计算每个动作的Q值需要一个单独的前向传播，从而导致成本随动作数线性增加。
相反，我们使用一种体系结构，其中每个可能的动作都有一个单独的输出单元，只有状态表示才时神经网络的输入。
输出对应于输入状态的单个动作的预测Q值。
这种结构的主要优点时能够计算给定状态下所有可能动作的Q值，只需要通过网络的一次前向传播。
我们现在描述了所有七款Atari游戏的具体架构。
神经网络的输入是由φ产生的84x84x4的图像组成。
第一个隐藏层用步长为4的16个8x8的filters与输入图像卷积，并且应用一个rectifier nonlinearity。
第二个隐藏层用步长为2的32个4x4的filters 接着一个rectifier nonlinearity。
最终的隐藏层是全连接层，由256个rectifier units 组成。
输出层是一个全连接的线性层，每个有效动作只有一个输出。
我们考虑的游戏中，有效动作的数量在4到18之间变化。
我们将用我们的方法训练的卷积网络成为 Deep Q-Networks (DQN)

Experiments 实验

到目前为止，我们已经在七款流行的Atari 游戏中进行了实验，----- Beam Rider, Breakout, Enduro, Pong, Qbert, Seaquest, Space Invaders。
我们在所有七款游戏中使用相同的网络架构，学习算法和超参数设置，这表明我们的方法足够健壮，可以在不包含游戏特定信息的情况下处理各种游戏。
当我们在真实和未修改的游戏中对我们的智能体进行了评估，我们仅在训练期间对游戏的reward结构进行了一次更改。
由于不同游戏的分数差别很大，我们将所有的积极奖励设置为1，将所有的负奖励设置为-1，将0奖励保持不变。
以这种方式减少奖励限制了误差导数的规模，是在许多游戏中相同的学习率变得更容易。
同时，由于无法区分不同级别的奖励，这可能会影响我们智能体的表现。

在这些实验中，我们使用了批大小为32的RMSProp算法。
训练期间的行为策略是 ε-gready的，在前100万帧中ε-gready线性退火，从1到0.1线性退火，然后固定在0.1
我们总共训练了1000万帧，并使用了一百万个最近帧的回放内存。
按照以前的方法来玩Atari游戏，我们还使用了一个简单的跳帧技术。
更准确的说，智能体在每个第k帧上而不是在每一帧上看到并选择操作，最后一个操作在跳过的帧上重复。
由于向前运行仿真器一步所需要的计算量比让智能体选择一个操作要少的多，一次这种技术允许代理在不显著增加运行时间的情况下多玩大约k倍游戏。
我们在所有游戏中都是用k=4,除了 Space Invaders,我们注意到使用k=4会使激光隐形，因为他们会闪烁。
我们用k=3是激光可见，这个变化是所有游戏中超参数唯一的区别。

Training and Stability 训练和稳定性

在有监督学习中，通过在训练集和验证集上对模型进行评估，可以很容易地跟踪模型在训练过程中的性能。
而在强化学习中，准确评估一个智能体在训练过程中的进度可能是一个挑战。
由于我们的评估指标，如[3]中所建议，是智能体在一个幕或游戏中在多个游戏中平均获得地总奖励，因此我们在训练期间定期计算它。
平均总回报指标往往非常嘈杂，因为策略权重地微小变化可能导致策略访问地状态分布发生较大地变化。
图2中最左边地两个图显示了在游戏Seaquest和Breakout训练期间，平均总奖励是如何演变的
两个平均的奖励图确实相当嘈杂，给人的印象是学习算法没有取得稳定的进展。
另一个更稳定的度量是策略的估计动作值函数Q,它提供了代理在任何状态下遵循其策略可以获得多少折扣回报的估计值。
我们通过在训练开始前运行随机策略收集一组固定的状态，并跟踪这些状态的最大预测Q的平均值。
图2中最右边的两个图显示，平均预测Q值的增长比智能体获得的平均总回报更稳定，在其他五个游戏中绘制相同的指标也会产生类似的平滑曲线。
除了在训练期间看到预测Q值相对平稳的改善，我们在任何实验中都没有遇到任何发散问题。
这表明，尽管缺乏任何理论上的收敛保证，我们的方法能够以稳定的方式使用强化学习信号和随机梯度下降来训练大型神经网络。

在这里插入图片描述

Visualizing the Value Function 可视化值函数

图3显示了Seaquest游戏中学习值函数的可视化。
图上显示了预测值的跳跃当一个敌人出现在左侧屏幕之后（点A）
然后智能体向敌人发射鱼雷，当鱼雷即将击中敌人时，预测值达到了峰值(B点)
最后，在敌人消失后，这个值会下降到原来的值(C点)
图3演示了我们的方法能够了解值函数时如何在一个相当复杂的事件序列中演化的。

Main Evaluation 主要评估

我们将我们的结果与RL文献[3,4]中最佳执行方法进行了比较。标记为Sarsa的方法使用Sarsa算法来学习针对Atari任务手工设计的几个不同特征集的线性策略，并报告性能最好的特征集的得分[3]。

意外事件使用了与Sarsa相同的基本方法，但通过学习表示在智能体控制下的屏幕部分来扩充特征集[4]。
请注意，这两种方法都通过使用背景减法和将128种颜色种的每一种作为单独的通道来结合视觉问题的重要先验知识。

由于许多Atari游戏对每种类型的对象使用一种不同的颜色，因此将每种颜色视为一个单独的通道类似于生成一个单独的二进制映射来编码每种对象类型的存在。
相反，我们的智能体只接收原始的RGB屏幕截图作为输入，并且必须自己学会检测对象。
除了学习的智能体，我们还报告了一个人类游戏玩家专家的分数和一个随机统一选择行为的策略的分数。
人类的表现是在玩游戏两个小时后获得的平均奖励。
请注意，我们报告的人类分数远高于Bellemare等人[3]
对于所学习的方法，我们遵循Bellemare等人使用的评估策略[3,5]，并报告通过运行ε=0.05的ε-gready策略在固定步骤数下获得的平均分数。
表1的前5行显示了所有游戏的每场平均得分。
我们的方法(标记为DQN)在所有七个游戏中都优于其他学习方法，尽管几乎没有包含关于输入的先验知识。

在表1的最后三行种，我们还比较了[8]中的进化策略搜索方法。
我们报告了这两种方法的两组结果。

在这里插入图片描述

HNeat的最佳分数反映了通过使用手工设计的对象检测器算法获得的结果，该算法输出了Atari屏幕上的对象的位置和类型。
HNeat像素分数是通过使用Atari仿真器的特殊8色通道表示来获得的，改通道表示每个通道上的对象标签映射。
此方法在很大程度上依赖于找到表示成功利用漏洞的确定状态序列。
以这种方式学习的策略不太可能泛华为随机扰动;因此算法只在得分最高的单集上进行评估。
相反，我们的算法是在ε-gready控制序列上评估的，因此必须在各种可能的情况下推广。
然而，我们表明，在所有的游戏中，除了Space Invaders ，不仅我们的最大评估结果(第8行),而且我们的的平均结果(第4行)都取得了更好的性能。

最后，我们证明了我们的方法在Breakout， Enduro 和 Pong上的表现比专业级人类玩家选手好，并且在Beam Rider 上表现接近人类。
在 Qbert， Seaquest， Space Invaders 等游戏，我们离人类的表现还差的远，因为它们需要网络找到一种能够在长时间范围内扩展的策略。

Conclusion 结论

本文介绍了一种新的用于强化学习的深度学习模型，并证明了该模型仅使用原始像素作为输入，就能掌握Atari 2600电脑游戏的控制策略。
我们还提出了一种在线Q-learning的变体，它将随机小批量更新与经验回放存储器相结合，以简化RL深层网络的训练。
我们的方法是测试的七个游戏中有六个游戏的结果是最先进的，没有调整架构或者超参数。

References 引用

[1] Leemon Baird. Residual algorithms: Reinforcement learning with function approximation. In Proceedings of the 12th International Conference on Machine Learning (ICML 1995), pages 30–37. Morgan Kaufmann, 1995.
[2] Marc Bellemare, Joel Veness, and Michael Bowling. Sketch-based linear value function approximation. In Advances in Neural Information Processing Systems 25, pages 2222–2230, 2012.
[3] Marc G Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling. The arcade learning environment: An evaluation platform for general agents. Journal of Artiﬁcial Intelligence Research, 47:253–279, 2013.
[4] Marc G Bellemare, Joel Veness, and Michael Bowling. Investigating contingency awareness using atari 2600 games. In AAAI, 2012.
[5] Marc G. Bellemare, Joel Veness, and Michael Bowling. Bayesian learning of recursively factored environments. In Proceedings of the Thirtieth International Conference on Machine Learning (ICML 2013), pages 1211–1219, 2013.

[6] George E. Dahl, Dong Yu, Li Deng, and Alex Acero. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition. Audio, Speech, and Language Processing, IEEE Transactions on, 20(1):30 –42, January 2012.
[7] AlexGraves,Abdel-rahmanMohamed,andGeoffreyE.Hinton. Speechrecognitionwithdeep recurrent neural networks. In Proc. ICASSP, 2013.
[8] Matthew Hausknecht, Risto Miikkulainen, and Peter Stone. A neuro-evolution approach to general atari game playing. 2013.
[9] Nicolas Heess, David Silver, and Yee Whye Teh. Actor-critic reinforcement learning with energy-based policies. In European Workshop on Reinforcement Learning, page 43, 2012.
[10] Kevin Jarrett, Koray Kavukcuoglu, MarcAurelio Ranzato, and Yann LeCun. What is the best multi-stage architecture for object recognition? In Proc. International Conference on Computer Vision and Pattern Recognition (CVPR 2009), pages 2146–2153. IEEE, 2009.
[11] Alex Krizhevsky, Ilya Sutskever, and Geoff Hinton. Imagenet classiﬁcation with deep convolutional neural networks. In Advances in Neural Information Processing Systems 25, pages 1106–1114, 2012.
[12] Sascha Lange and Martin Riedmiller. Deep auto-encoder neural networks in reinforcement learning. In Neural Networks (IJCNN), The 2010 International Joint Conference on, pages 1–8. IEEE, 2010.
[13] Long-JiLin. Reinforcementlearningforrobotsusingneuralnetworks. Technicalreport,DTIC Document, 1993.
[14] Hamid Maei, Csaba Szepesvari, Shalabh Bhatnagar, Doina Precup, David Silver, and Rich Sutton. Convergent Temporal-Difference Learning with Arbitrary Smooth Function Approximation. In Advances in Neural Information Processing Systems 22, pages 1204–1212, 2009.
[15] HamidMaei, Csaba Szepesv´ari, Shalabh Bhatnagar, andRichard S. Sutton. Toward off-policy learning control with function approximation. In Proceedings of the 27th International Conference on Machine Learning (ICML 2010), pages 719–726, 2010.
[16] Volodymyr Mnih. Machine Learning for Aerial Image Labeling. PhD thesis, University of Toronto, 2013.
[17] Andrew Moore and Chris Atkeson. Prioritized sweeping: Reinforcement learning with less data and less real time. Machine Learning, 13:103–130, 1993.
[18] Vinod Nair and Geoffrey E Hinton. Rectiﬁed linear units improve restricted boltzmann machines. In Proceedings of the 27th International Conference on Machine Learning (ICML 2010), pages 807–814, 2010.
[19] Jordan B. Pollack and Alan D. Blair. Why did td-gammon work. In Advances in Neural Information Processing Systems 9, pages 10–16, 1996.
[20] Martin Riedmiller. Neural ﬁtted q iteration–ﬁrst experiences with a data efﬁcient neural reinforcement learning method. In Machine Learning: ECML 2005, pages 317–328. Springer, 2005.
[21] BrianSallansandGeoffreyE.Hinton. Reinforcementlearningwithfactoredstatesandactions. Journal of Machine Learning Research, 5:1063–1088, 2004.
[22] Pierre Sermanet, Koray Kavukcuoglu, Soumith Chintala, and Yann LeCun. Pedestrian detection with unsupervised multi-stage feature learning. In Proc. International Conference on Computer Vision and Pattern Recognition (CVPR 2013). IEEE, 2013.
[23] Richard Sutton and Andrew Barto. Reinforcement Learning: An Introduction. MIT Press, 1998.
[24] Gerald Tesauro. Temporal difference learning and td-gammon. Communications of the ACM, 38(3):58–68, 1995.
[25] John N Tsitsiklis and Benjamin Van Roy. An analysis of temporal-difference learning with function approximation. Automatic Control, IEEE Transactions on, 42(5):674–690, 1997.
[26] Christopher JCH Watkins and Peter Dayan. Q-learning. Machine learning, 8(3-4):279–292, 1992.