DOMAIN ADAPTATION FOR REINFORCEMENT LEARNING ONTHE ATARI

摘要

深度强化学习代理最近已经成功地跨越了各种离散和连续控制任务;然而,他们可能训练缓慢,需要大量与环境的互动来学习合适的政策。 强化学习代理没有对世界的先验知识,没有现成的数据可以依赖,因此必须投入大量时间进行探索,这一事实证明了这一点。 迁移学习可以通过在源任务上的学习来帮助在目标任务上的学习来缓解一些问题。 我们提出了一种初始化目标任务隐藏特征表示的算法。 我们提出了一种域自适应方法来转移状态表示,并演示了跨域、任务和动作空间的转移。 我们将对抗性域自适应思想与对抗性自动编码器体系结构相结合。 我们将新策略的表示空间与预先训练的源策略对齐,并从随机策略生成目标任务数据。 我们证明,当学习一个新的强化学习任务时,这个初始化步骤提供了显著的改进,这突出了对抗性适应方法的广泛适用性;即使任务和标签/动作空间也会发生变化。  

1、介绍

深度强化学习(DRL)是通过与复杂环境交互来学习复杂策略的成功范例。 DRL允许从图像或原始传感器数据进行端到端学习。 RL智能体通常通过随机参数化的神经网络开始tabula学习,这导致这些算法需要与环境进行大量交互才能学习到合适的策略。 在此背景下,迁移学习是降低这些算法样本复杂度的可行途径。 许多问题都有相似的特征;通过迁移,使代理能够快速识别这些特征的算法将优于从头学习这些表示的算法。  

在DRL中查看学习的一种方法是将隐藏层视为学习状态表示,在此基础上可以学习策略。 这一观点在标准的深度学习范式中也是成立的,习得的特征通常通过直接迁移而被重新利用,无论是否对后续任务[1]进行微调。 这种类型的方法也可以在域转移下工作,但是直接转移相对较小的域转移可能对性能[2]非常不利。 当要学习的任务被划分到不同的输入领域时,要学习的表示应该能够描述两个领域,也就是说,表示应该是共享的。 RL中的这种表示可以被认为是状态空间。 在此背景下,领域自适应方法是关于学习为目标域中相应的输入构建状态空间。 然而,这就提出了一个问题,即如何使这两个领域的观察结果保持一致。

 

我们的方法使用对抗正则化作为一种机制,以无监督的方式将源任务的嵌入结构强加到目标问题编码空间上。 如果任务是相关的,我们期望相似的状态将需要相似的嵌入,因此我们将目标状态表示规则化为源任务的状态表示。 Adversarial Auto-Encoders (AAE)结合了自动编码器(AE)和生成式Adversarial网络(GAN),提供了一种方法,以无监督的方式强制这种规则化,允许我们将知识从源领域转移到目标领域。   

我们的方法将这种正则化强加在分布水平上,并通过将这个问题传递给鉴别器生成器学习问题的动力学,从而使自己摆脱对齐数据点的问题,这些数据点应该共享一个共同的表示。 我们的架构如图2所示,并展示了如何训练目标任务编码器来重建其输入,并引导鉴别器网络相信它是从源任务编码器中采样的。 我们展示了这种方法如何成功地应用于跨非常不同的领域的强化学习问题,以提供较随机初始化的神经网络的早期性能提升。  

2、背景

在这里,我们介绍了强化学习、领域适应和对抗性自动编码器的概念并回顾了最近的工作——这是我们方法的主要构建块。  

2.1、RL

RL是一种以学习如何在环境中行动为中心的机器学习范式。 该问题被建模为求解马尔可夫决策过程(MDP),由元组定义:(S, A, T, R, \gamma),其中S是状态的集合,a是行为的集合,T是变换函数:T: S \times A \rightarrow \mathbb{S},R是奖励函数R: S \times A \times S \rightarrow \mathbb{R},折现因子γ为0 \leq \gamma \leq 1。 目的是学习一项政策\pi: S\rightarrow A,使折现期望报酬最大化,其中折现期望报酬为:

                              \mathbb{E}_{\pi}\left[\Sigma_{t=0}^{T} \gamma^{t} R\left(s_{t}, a_{t}\right)\right]

在我们的工作中,我们使用了A2C算法。 A2C是A3C算法的一个变体,它执行同步更新。 A2C算法是一种行为者-批判算法,联合学习状态值函数和动作分布; 价值功能批判政策。 行动者-批评算法是一种通用算法,[8]研究了其与生成式对抗网络的关系,并将其应用于分布式多任务学习问题。 

2.2、自动编码

自动编码器(AE)是一种强大的无监督表示学习工具。 有许多变体,然而普通AE是通过学习再现其输入来工作的,通常是通过通过低维度、瓶颈和再现。 这可以用一个直接的平方误差损失函数来完成:

                      L(X)=\frac{1}{N} \sum_{i=1}^{N}(x-A E(x))^{2}

AEs已经成功地应用于许多RL算法中,作为多步骤训练管道和端到端范式的一部分。 AE最明显的用途是学习低维状态表示。 许多RL算法是为低维状态空间设计的,AEs提供了一种强大的无监督方法来学习这种低维表示,而不是手工构建特征。 另一方面,AEs也作为初始化RL网络权值的方法,在卷积情况下,通过学习复杂的过滤器,这可能很难通过奖励函数学习。  

2.3、生成对抗网络

 生成对抗网络(Generative Adversarial Networks, GANs)是学习给定领域生成模型的一种强大方法。 它们的工作原理是让两个网络相互竞争。 生成器(G)寻求学习生成模型,判别器(D)学习从生成器分布和真分布中区分样本。 这在损失函数中表示:

              \begin{array}{r} \min _{G} \max _{D} V(D, G)= \\ \underset{x \sim P_{\text {data }}(x)}{\mathbb{E}}[\log D(x)]+\underset{z \sim P_{z}(z)}{\mathbb{E}}[1-\log (D(G(z)))] \end{array}

其中D(x)是鉴别器对真实样本的分类,D(G(z))是它对G(z)产生的假样本的分类,其中x是真实分布的样本,z是其他分布的样本。  

GAN框架的许多扩展已经被提出。 特别地,在这项工作中,我们使用了瓦瑟斯坦GAN (WGAN)。 WGAN使移土距离最小化,判别器成为预测样本连续值的批评家,而不是将它们分类为真实或虚假的。 实现此目的的鉴别器损失由:

                \begin{array}{r} \min _{G} \max _{D} V(D, G)= \\ \underset{x \sim P_{\text {data }}(x)}{\mathbb{E}}[D(x)]-\underset{z \sim P_{z}(z)}{\mathbb{E}}[D(G(z))] \end{array}

2.4、对抗自动编码器

AE和GAN的结合为我们提供了对抗性自动编码器(AAE)。 该模型将声发射编码器作为GAN框架的生成器; 它的编码被训练成模仿强加的先验分布和编码基本的域信息。 这是通过将编码通过GAN鉴别器和AE解码器来实现的。 网络由AE和GAN的两个损失函数训练,并通过交叉两个优化步骤。 这样,GAN可以被看作是正则化AE的编码。  

2.5、域适配

域适应是一种迁移学习方法,它寻求将在有监督的源任务上获得的知识与来自不同领域的未标记(或有限可用标签)目标数据集对齐。 这些数据集通常共享预测标签,因此它只是已经改变的信息的表示。  

许多方法寻求对齐源数据和目标数据的表示向量。 这可以在监督或不监督的方式下完成,取决于标签假设,但如果目标数据确实存在,通常是有限的。 对齐表示有很多方法; 也许最简单的方法是在源数据和目标数据的预测表示之间施加一个约束。  

这种对齐通常通过正则化嵌入空间来实现,如[16,17]。 这些方法显示了很大的前景,但是,必须考虑来自源和目标的样本对齐。 有多种方法可以达到这一目的,从使用监督数据[18],到假设对应,再到无监督方法。  

3、结构和方法

许多RL方法需要大量的样本来学习可接受的策略,这在一定程度上是由于依赖一个可能是稀疏的奖励函数,以及需要探索以探索-开发困境为特征的状态空间。 缓解这一问题需要许多创新; 从抽样数据中提取尽可能多的信息是至关重要的。 在不受监督的情况下这样做也是必要的,因为我们没有对作为代理行为收集的样品进行标签。 另一个问题是,从头开始解决问题不是一种自然的方法; 对于人类来说,问题往往是通过利用已经学过的知识来解决的。 RL代理的问题是,算法如何在无监督的方式下识别任务之间的相似性,并利用这些知识来增强对后续问题的学习。  

                 我们的方法通过初始化目标任务的状态表示来解决这个问题,使其看起来与源任务相似。 我们将网络的隐藏表示层(它被传递给策略层和价值层)看作状态表示层,其中包含了学习如何与世界交互所需的信息。 基于这一观点,我们还观察到相关游戏领域也需要类似的状态特征; 例如,有球的游戏可能有一个包含球的位置和速度的表示。 这样的状态信息显然可以在许多输入领域中共享。 

领域适应是解决知识转移问题的一种方法。 在这种方法中,我们已经有了一个能够解决源领域的模型,我们希望调整该知识,使其适用于目标领域。 以数字分类为例,在解决SVHN的基础上,考虑解决MNIST的问题。 我们应该能够利用SVHN模型来解决MNIST,而不需要额外的标记数据。 对抗性鉴别域适应(ADDA)方法解决了这个问题,方法是通过从源网络初始化的网络传递新的域数据,并使用对抗性域分类器将生成的表示规则化回源任务的表示。

 对于SVHN到MNIST,这种方法似乎是合适的,但随着域变得越来越不相似,这样明显的对齐可能不够。 我们的方法将应用于雅达利游戏之间的转换,当视觉领域与数字领域相比有很大的不同时。 因此,我们的方法利用了Adversarial Autoencoder体系结构。 这个体系结构允许我们学习一个特性空间,它捕获目标域,同时与源域保持一致。  

 我们的算法在算法1中进行了概述,并在后面的段落中进行了解释。 将ADDA方法与AAE方法相结合,需要我们用预先训练的源嵌入模型代替AAE的正则高斯分布。 在本工作中,该模型来自使用A2C算法训练的源策略。 其他算法可以在这里替代,但我们留下了对最佳算法状态空间的探索,以适应未来的工作。 由于在我们的自适应方法的训练过程中,源网络是固定的,为了使我们的嵌入样本更I.I.D,我们提前运行源代理,生成一个我们可以从中抽取样本的嵌入数据集。 我们还使用随机策略生成目标任务观测数据集; 我们再做一次,这样我们就能以更明确的方式抽取样本。  

我们现在可以训练目标嵌入网络。 这是按照AAE的培训程序完成的。 我们的培训程序每批有三个更新步骤。 首先,更新声发射以再现目标域图像。 第二,更新Discriminator以分离源域和目标域嵌入,第三,更新Generator以欺骗Discriminator。  

最后利用训练好的目标嵌入网络对目标模型进行初始化,并用A2C对其进行训练。 这偏离了对抗性领域适应方法的标准应用,在这种方法中,源任务分类器层可以直接用于被适应的主体,因为源任务和目标任务保持相同并共享目标标签。 在这项工作中,我们没有映射操作空间或策略,而是将策略和值函数视为必须从头学习的函数。  

4、实验

我们的实验研究了对抗性域适应在强化学习问题中的适用性。 我们使用街机学习环境(ALE)[22]提供了一套街机游戏,通常用作深度RL的基准。 我们通过OpenAi Gym平台[23]与ALE进行对接。 我们的实验专注于成对游戏之间的转移。 我们首先选择我们认为相关的对局,以验证我们方法的有效性; 我们将自动识别适当的源任务用于将来的工作。 在这项工作中,我们专注于三款游戏:《Pong》、《Breakout》和《Tennis》。  

“乒乓”是乒乓球的虚拟版本,游戏时,球在屏幕上横着移动,玩家的球拍沿着垂直轴移动。 《Breakout》是一款打破砖块的游戏,玩家在游戏中向上弹起一个球来打破砖块,同时在屏幕底部左右移动球拍。 《Breakout》和《Pong》使用了非常相似的机制,但图像领域、动作空间、过渡功能和奖励结构却有所不同。  

网球是一项比Pong或Breakout更困难的任务,许多深度RL算法都报告了平庸的分数[7]; 尽管[24]报告的人类表现往往更差。 这款游戏也注重回球。 《网球》的动作空间要大得多; 它完全是一个18维的行动空间,因为代理人可以向前和向后移动,覆盖整个球场。 网球也会在球场上变换代理的位置,每盘变换多次,所以对代理的控制变得更加复杂,因为算法必须确定它是两个代理中的哪一个。 这就导致了一个探索问题,即代理在许多游戏中往往无法获得高分。 我们从Pong(源)转移到Breakout(目标)。 我们用这些游戏来描述实验过程,然而,我们在其他实验中也遵循同样的过程; 平均五次试验的结果。  

         

  1. 训练代理人以标准的RL方式玩桌球; 我们使用A2C。  
  2. 运行代理通过几场Pong游戏捕捉最终隐藏层输出,直到我们收集了100k样本。 这表示嵌入空间。
  3. 在我们的目标游戏《Breakout》中运行随机策略,捕获10万帧。 在这个阶段没有学习。  
  4. 使用这两个数据集训练AAE。  
  5. 取我们AAE生成器的权重,初始化目标任务的新政策网络的权重。 策略和值函数层权重被随机初始化。  
  6. 针对目标任务对政策进行训练。  

5、结果

5.1、Between Pong and Breakout

从Breakout到Pong,我们可以清楚地看到使用随机初始化权重的训练所带来的进步。 我们的代理比基线更快地达到解决方案,更快地收敛到大约800000个样品的解决方案。 我们还注意到,虽然适应的政策学习得更快,但它的收敛速度低于基线。 这是负转移的一个例子,强调了评估转移本身是一个多方面的问题; 平衡改进的学习速度,改进的初始性能和改进的渐近性能。  

观察这个结果的另一种方法是观察游戏的帧数随时间的变化。 我们展示了100段移动平均线。 我们所期望的是,代理将学会得分,因此每场比赛将持续更长的时间,因为每场比赛将打出更多的分数。 随着代理的改进,对手的得分将会减少,帧数将再次开始减少。 这就是我们所观察到的基线,即游戏的最高帧数约为3500帧。 我们的转移实验通过比较,峰值在2500时要低得多。 这个观察是有趣的,因为它表明行动者直接学习获胜的策略,而不经过某种中间阶段。 我们还可以注意到,不仅我们的代理需要学习的游戏更少,而且每一款游戏的平均时间都比源游戏短。 进一步调查围绕这些变化的政策差异可能会提供有趣的见解; 例如,观察到的负转移可以解释为发现了一个局部最大获胜策略,尽管收敛程度较低,我们的代理仍然赢得了19个点,这是一个显著的优势。  

图4还显示了游戏长度的100个章节移动平均值。 我们可以清楚地看到,在转会的情况下,回合长度增加得更快,这意味着代理人更善于回击,并且方差小于基线。  

           

5.2、Pong and Breakout to Tennis


网球提供了一个具有挑战性的学习领域; 对手是一个强大的玩家,所以积极的奖励是很少的,即使我们的经纪人击中了球,因为对手能够回击。 大的行动空间也会带来探索问题。 这些困难让我们在网球环境中运行了8000万次时间步,远远超过了《Pong》和《Breakout》的4000万次时间步。  

图5显示了从Pong或Breakout转到Tennis的结果。 学习网球政策显然是困难的,因为我们所有的初始化都需要许多训练步骤,然后得分趋势才会出现。 使用Pong知识进行初始化可以减少代理需要玩的游戏数量。 使用Breakout知识进行初始化似乎有不同的效果,在进行大的学习步骤之前,会在更早的时候减慢代理的速度。 breakout初始化的方差也小于从Pong转移。  

5.3、What About the Policy?

我们提出的方法侧重于利用转移的知识学习初始状态表示,但不提供任何策略初始化。 将政策与我们的方法结合起来,可以提供进一步的改进。 作为概念演示的证明,我们进行了进一步的实验,从乒乓球转移到网球。 在这个实验中,我们使用了与之前相同的程序,但是,我们现在从一个训练有素的网球模型中取出策略和价值函数层,并使用它们初始化传递模型中相应的层。  

图6显示了添加这个额外策略信息的好处。 我们看到了显著的改进,这表明我们的算法可以集成到一个更大的传输系统中,该系统还可以预测政策初始化。  

      

            

6、相关工作

我们的方法与许多AE迁移学习方法密切相关,这些方法寻求对齐两个数据域的编码分布。 这通常与两个嵌入域之间的Kullback-Leibler (KL)散度有关,该散度可以隐式或显式最小化。 在[18]中,训练源和目标域共享编码和解码权的声发射,并在代价函数中显式地最小化它们嵌入之间的kl -发散。 它们的代价函数还通过使用嵌入层作为softmax预测层的输入,直接将源标签信息作为正则化项。  

在RL上下文中,AEs还可以用作初始化过程的一部分。 对于机器人应用程序,[25]中采用的方法使用Variational AEs来校准真实和合成图像,其中的解码器是共享的。 这允许他们将一个图像域转换为另一个。 然后他们在这些重建图像上训练一个物体检测器。 

[26]中的工作对并行训练的两个AEs的编码层施加了Kullback-Liebler发散约束。 当两个不同驱动的机器人解决同一个任务时,这种方法通过时间估计对齐。 这种方法是成功的,但需要估计样本之间的某种形式的对齐。 我们的方法与那些方法的不同之处在于,与AAE方法一样,我们通过Discriminator网络反馈以无监督的方式对编码分布进行对齐。 该方法利用生成式对抗网络学习算法将源域信息融合到目标域嵌入中。 我们的方法通过使用为对抗适应开发的方法,扩展了基于ae的迁移学习在强化学习中的使用。  

我们使用的对抗性方法与各种对抗性正则化方法有关。 最相关的是[3]的声发射,其中鉴别器被用作声发射嵌入的正则化术语。 我们通过引入从源任务传输信息的正规化空间来适应这种情况。 AAE本身与多种方法密切相关,如变分自动编码器(VAE)[14]。 在[27]中,使用对抗性正则化的类似方法也用于生成离散数据,如文本。 对抗性方法也被更明确地用于领域适配,[17]提供了一个通用框架,描述了可以更改的各个部分,以及到目前为止尝试过的内容。  

最近的一种方法[28]使用GAN在RL设置中的两个问题之间进行转换。 他们通过在RL训练中使用对或错样本的GAN损失作为额外的奖励变量来做到这一点。 该方法探索了当环境奖励缺失或信息不足时,如何利用这种奖励增强来实现学习。 然而,这个领域更加一致,因为他们专注于机器人代理从模拟环境到真实环境的转移。  

6.1、Transfer and the Atari

迁移学习已经在雅达利上以各种形式进行了尝试。 DQN[24]之后的早期方法是actor-mimic[29],在该方法中训练多任务雅达利代理,试图匹配专家的动作和表示。 然后,可以使用这个网络初始化某个目标任务的代理权重。 这个训练前机制初始化目标代理的过滤器,允许它从一个有用的状态空间开始。 [30]采用了类似的机制,不是将所有相关的过滤器构建成一个单一的网络,而是将一系列网络连接在一起,并将其添加到每个后续网络的层中,从而增加更多的特征检测器。 如果游戏有相似之处,那么这些方法将允许之前学习的过滤器对新任务的状态空间描述做出贡献。 将渐进式神经网络应用于雅达利的迁移学习有许多有趣的成功和失败的案例,这种方法伴随着网络规模不断扩大的缺点。 [31]最近的一项研究(进展和压缩)着眼于限制渐进网络的增长,他们的方法显示了有趣的结果。  

7、结论

在强化学习中,我们提出了一种对抗的知识转移方法。 我们已经演示了这种方法如何用于领域适应,以提高性能的困难任务学习玩雅达利游戏。 我们还演示了如何改变行动空间和奖励功能,并从转移方法中获得好处。  

对抗性自适应方法为领域自适应提供了一个强大的框架。 我们已经演示了如何在强化学习案例中简单应用该技术来帮助学习,即使最后一层由于行动空间和任务发生了变化而需要重新学习。 这表明,该技术并不局限于更简单或更紧密相关的领域,如前所述的MNIST到USPS,或SVHN到MNIST。 最近的工作是寻求扩大和改进该技术的应用,未来的工作将寻求在RL范式中整体地集成该技术。  

正如在相关工作中指出的,其他作者已经尝试了RL的迁移学习,并将其应用到雅达利的环境中。 这些方法中的许多都是从多任务或终身学习的角度来看待问题[29,32],因此没有直接与之进行比较。 今后的工作将寻求更充分地探讨方法之间的比较,并了解它们在哪里失败或成功。  

RL的迁移是一个具有挑战性的领域,最近许多对齐域的方法使用对齐来为目标任务代理生成额外的奖励信号。 我们的方法演示了跨越不同世界与不同目标的传输,通过表示对齐,而不需要在目标任务奖励功能中编码任何额外的奖励信息。 这证明了对抗性领域适应方法的强大力量,并为未来的各种研究方向提供了依据。  

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wanderer001

ROIAlign原理

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值