Progressive Neural Networks翻译

Progressive Neural Networks
渐进式神经网络

传送门

paper
code

Abstract

学习解决复杂的任务序列——同时利用转移和避免灾难性遗忘——仍然是实现人类水平智能的关键障碍。渐进式网络方法代表了向这个方向前进的一步:它们对遗忘免疫,并且可以通过与之前学习的特征的横向连接来利用先验知识。我们在各种强化学习任务(Atari和3D迷宫游戏)中对这种架构进行了广泛的评估,结果表明,它的表现优于基于预训练和微调的普通基线。利用一种新的敏感性测量方法,我们证明了迁移发生在学习策略的低水平感觉和高水平控制层。

Introduction

精细调优仍然是使用神经网络进行迁移学习的首选方法:在源域(数据通常丰富)上对模型进行预训练,模型的输出层适应于目标域,网络通过反向传播进行精细调优。这种方法最早出现在[7]中,通过将知识从生成式模型转移到判别式模型,并在[11]中得到了推广,取得了巨大成功。不幸的是,该方法有缺点,使其不适合跨多个任务传递:如果我们希望利用从一系列经验中获得的知识,我们应该使用哪个模型来初始化后续的模型?这似乎不仅需要一种能够支持转移学习而不出现灾难性遗忘的学习方法,还需要对任务相似度的预知。此外,虽然微调可以让我们恢复目标领域的专家性能,但这是一个破坏性的过程,丢弃了以前学到的函数。可以在微调之前复制每个模型,以显式地记住之前的所有任务,但仍然存在选择适当初始化的问题。虽然蒸馏[8]为多任务学习[17]提供了一种潜在的解决方案,但它需要所有任务的持久训练数据库,这一假设可能并不总是成立。

本文介绍了一种新的模型体系结构——渐进网络,该网络具有明确的跨任务序列传输支持。精细调优只在初始化时整合了先验知识,而渐进网络在整个训练过程中保留了一个预训练模型池,并从这些模型中学习横向连接,从而为新任务提取有用的特征。通过这种方式将之前学习到的特征组合在一起,渐进网络实现了更丰富的组合性,先验知识不再是短暂的,可以在特征层次的每一层进行集成。此外,在预先训练的网络的基础上增加新的容量,使这些模型具有重用旧计算和学习新计算的灵活性。正如我们将展示的那样,进步型网络自然地积累经验,并通过设计对灾难性遗忘免疫,使其成为解决长期存在的持续或终身学习问题的理想跳板。

本文的贡献有三个方面。虽然在渐进网中使用的许多单独成分可以在文献中找到,但它们在解决复杂的任务序列中的组合和使用是新颖的。其次,我们在复杂的强化学习领域中广泛地评估该模型。在这个过程中,我们还会评估RL域中的其他传输方法(比如微调)。特别地,我们展示了进步网络提供与传统微调相当(如果不是稍微更好的话)的传输性能,但没有破坏性的后果。最后,我们开发了一种基于Fisher信息和扰动的新分析方法,它允许我们详细分析任务间的迁移是如何和在哪里发生的。

Progressive Networks

持续学习是机器学习长期以来的目标,在机器学习中,agent不仅学习(并记住)一系列顺序经历的任务,而且还具有从之前的任务中转移知识的能力,以提高收敛速度[20]。渐进网络将这些需求直接集成到模型体系结构中:通过为每个被解决的任务实例化一个新的神经网络(一个列)来防止灾难性遗忘,同时通过与先前学习的列的特征的横向连接来实现迁移。本节最后将讨论这种方法的可伸缩性。

渐进式网络从一列开始:深度神经网络有L层,隐含激活h(1) i∈Rni, ni在第i层的单元个数≤L, parametersΘ(1)训练为收敛。当切换到第二个任务时,parametersΘ(1)被“冻结”,一个带有parametersΘ(2)的新列被实例化(随机初始化),其中层h(2) i通过横向连接接收来自h(2) i−1和h(1) i−1的输入。这可以推广到K个任务如下:1:
公式1
其中W (k) i∈Rni ×ni−1为第k列第i层的权值矩阵,U (k:j) i∈Rni ×nj为第j列第i−1层到第k列第i层的横向连接,h0为网络输入。F是一种基于元素的非线性:对于所有中间层,我们使用F (x) = max(0, x)。一个K = 3的渐进网络如图1所示。
图1

这些建模决策是由我们的愿望所决定的:(1)在训练结束时解决K个独立任务;(2)尽可能通过迁移加速学习;避免灾难性的遗忘。在标准的训练前和微调范式中,通常隐含着任务之间“重叠”的假设。在这种设置中,微调是有效的,因为只需要对目标域的参数进行轻微的调整,而且通常只对顶层[23]进行重新训练。相反,我们不假设任务之间的关系,实际上可能是正交的,甚至是对立的。虽然微调阶段可能会忘记这些特性,但这可能会被证明是困难的。渐进网络通过为每个新任务分配一个新列来规避这个问题,这些新任务的权值是随机初始化的。

相对于训练前的任务相关初始化,渐进网络中的列可以通过横向连接自由地重用、修改或忽略之前学习的特征。由于横向连接U (k:j) i仅从第k列到第j < k列,因此前向传程中之前的列不受新学习特征的影响。因为还有参数{Θ(j);当trainingΘ(k)时,J < k}被保持不变(即为优化器的常量),任务之间没有干扰,因此没有灾难性的遗忘。

Application to Reinforcement Learning强化学习的应用
虽然渐进网络应用广泛,但本文主要研究其在深度强化学习中的应用。在这种情况下,每个列都被训练来解决一个特定的马尔可夫决策过程(MDP):因此,第k列定义了一个策略π(k)(a | s),将环境给出的状态s作为输入,并生成π(k)(a | s)行动的概率:= h(k) L (s)。在每个时间步中,从这个分布中采样一个行动,并在环境中执行,产生后续状态。这个策略隐式定义了一个平稳分布ρπ(k) (s, a)在状态和动作上。

Adapters适配器
在实践中,我们用非线性的横向连接(我们称之为适配器)来增加方程2的渐进网络层。它们既能改善初始条件,又能进行降维。定义前向特征向量 h(<k)i−1 = [h(1)i−1 · · · h(j)i−1 · · · h(k−1)i−1 ]的维数 n(<k)i−1 ,在致密层的情况下,我们用单个隐层MLP代替线性横向连接。在将横向激活输入MLP之前,我们将它们乘以一个学习过的标量,初始化为一个随机的小值。它的作用是调整不同输入的不同规模。非线性适配器的隐藏层是一个在ni维子空间上的投影。随着指标k的增加,这确保了横向连接产生的参数数量与 ??Θ(1)??去掉偏置,我们得到
公式2

V (k:j)i ∈ Rni−1 ×n(<k)i−1就是投影矩阵。对于卷积层,通过1 × 1卷积进行降维
Limitations局限性
渐进式学习网络是通向完全持续学习的基石:它们包含了学习多个任务的必要成分,并且能够进行转移,并对灾难性遗忘免疫。这种方法的一个缺点是,参数的数量会随着任务的数量而增长。附录2的分析显示,只有一小部分新容量实际被使用,并且随着列的增加,这种趋势会增加。这表明可以解决增长问题,例如通过增加更少的层或更少的容量,通过修剪[9],或在学习过程中通过在线压缩[17]。此外,虽然渐进网络保留了在测试时间解决所有K个任务的能力,但选择使用哪一列进行推理需要任务标签的知识。这些问题留给未来的工作

Transfer Analysis 转移分析

与微调不同,渐进式网络不会破坏在先前任务中学习到的特征。这使我们能够详细研究哪些特征以及在哪些深度转移实际发生。我们探索了两种相关的方法:一种基于扰动分析的直观但缓慢的方法,以及一种基于Fisher信息的更快的分析方法

Average Perturbation Sensitivity (APS)平均扰动灵敏度(APS)
为了评估源列对目标任务的贡献程度,我们可以在体系结构中的孤立点(例如单个列的给定层)注入高斯噪声,并测量这种扰动对性能的影响。性能的显著下降表明最终的预测严重依赖于特征图或层。我们发现,这种方法得到的结果与下面给出的基于fisher的更快的方法相似。因此,我们将扰动分析的细节和结果放在附录中

Average Fisher Sensitivity (AFS)平均Fisher敏感性(AFS)

利用Fisher信息矩阵[2]可以得到扰动灵敏度的局部近似。虽然Fisher矩阵通常是根据模型参数计算的,但我们针对每一层的归一化激活2ˆh(k) i计算网络策略π的修正对角线Fisher Fˆ。对于卷积层,我们定义ˆF来隐式地对像素位置执行求和。ˆF可以解释为策略对表示中的小变化的敏感性。定义对角矩阵ˆF,元素ˆF (m, m),导出第k列第i层特征m的平均Fisher Sensitivity (AFS)为在这里插入图片描述
其中期望大于目标任务训练的渐进网络诱导的联合状态-行为分布ρ(s, a)。在实践中,它通常是有用的考虑AFS得分每层AFS (i (k) = P m AFS (k,我米),即对所有功能层我求和。AFS和APS从而估算网络依赖于每个特性或列在一层来计算其输出。

Related Literature相关文献

迁移和多任务强化学习存在许多不同的范式,这些范式长期以来被认为是人工智能研究的关键挑战[15,19,20]。许多迁移学习方法依赖于线性模型和其他简单模型(如[18]),这是限制迁移学习方法适用性的一个因素。近年来,有一些新的方法提出了基于深度学习的多任务学习或迁移学习方法:[22,17,14]。在这项工作中,我们提出了一个深度强化学习的体系结构,在连续的任务机制中,使学习不遗忘,同时支持从以前学习的任务中迁移个体特征。

在[7]中提出了预训练微调,并在[4,11]中应用于迁移学习,通常在无监督到监督或监督到监督的环境中。参与者模拟方法[14]通过在新的雅达利游戏中微调DQN多任务网络,将这些原则应用于强化学习,并显示出一些人的学习反应更快,而另一些人则没有。渐进式网络与微调方向有很大的不同,因为容量是随着学习新任务而增加的。

渐进式网络与神经网络文献中提出的增量式和建设性架构有关。级联相关体系结构的设计是为了在增量地添加和细化特征提取器[6]时消除遗忘。像[24]这样的自动编码器使用增量特征增强来跟踪概念漂移,而像[16]这样的深层架构已经被专门设计来支持特征传输。最近,在[1]中,列是单独训练单独的噪声类型,然后线性组合,[5]使用列进行图像分类。[21]的块模块架构与我们的方法有许多相似之处,但主要关注于视觉识别任务。相反,渐进式网络方法使用横向连接来访问之前学习到的特征,以实现深度组合。它可以用于任何顺序学习设置,但在RL中尤其有价值。

Experiments实验

我们评估了三个不同的RL域的进步网络。首先,我们考虑的是《Pong》的合成版本,即在视觉或控制级别上具有相似性。接下来,我们对雅达利游戏的随机序列进行了广泛的实验,并进行了特征级迁移分析。最后,我们在一组3D迷宫游戏中演示了性能。图2显示了来自所选任务的例子。

Setup

我们依赖于[13]中引入的Async Advantage Actor-Critic (A3C)框架。与DQN[12]相比,该模型同时学习了预测未来预期奖励的策略函数和价值函数。A3C在CPU上使用多个线程进行训练,并被证明在GPU上比DQN收敛更快。这使得它更适合这项工作所需的大量连续实验。
图2

我们通过平均25份工作中的前3份来报告结果,每一份工作都有不同的种子和随机超参数抽样。性能的评估是通过测量学习曲线下的面积(训练期间每一集的平均分数),而不是最终分数。然后,迁移分数被定义为体系结构与单一列基线的相对性能,只在目标任务(基线1)上训练。我们给出了选定源-目标博弈的迁移分数曲线,并在迁移矩阵中总结了所有这些对。我们所考虑的模型和基线如图3所示。实验设置的细节在附录的第3节中提供。

图3

Pong Soup

第一个评估领域是雅达利游戏《Pong》(“Pong Soup”)的一组合成变体,其中的视觉效果和玩法已被改变,因此提供了一个我们可以确信任务存在可转移方面的环境。变量为(在输入中加入冻结的高斯噪声);黑色(黑色背景);白色(白色背景);缩放(输入按75%缩放并转换);V-flip、H-flip和VH-flip(水平和/或垂直翻转输入)。示例帧如图2所示。在Pong变体上训练两列的结果,包括所有相关的基线,如图4所示。所有目标任务的转移得分汇总在表1中
图4
我们可以从这些结果中得出一些观察结果。基线2(单列,只对输出层进行微调;如图3所示)在大多数实验中都未能学习到目标任务,因此存在负迁移。这种方法在监督学习设置中是非常标准的,imagenet训练过的网络中的特性通常会被重新用于新的领域。正如预期的那样,我们在基线3(单列,全精细调优)观察到高阳性转移,这是一个建立良好的转移范式。然而,在中值和平均分数方面,进步型网络的表现都优于这一基线,后者的差异更明显。由于均值对离群值更敏感,这表明当传输可能时(即源和目标域兼容时),渐进网络能够更好地利用传输。图4 (b)支持这一假设,在特定游戏对中,进步网络的表现显著优于基线。渐进网也比基线4有利,证实渐进网确实利用了在前几栏学到的特征。

Detailed analysis
图5
我们使用在第3章中推导出的指标来分析《Pong》变体之间传递的特征。我们看到,当从Pong切换到H-Flip时,网络重用了低级和中级视觉的相同组件(两个卷积层的输出;图5 a)。然而,完全连接的层必须在很大程度上重新学习,因为任务的策略相关特性(球拍和球的相对位置/速度)现在处于一个新的位置。另一方面,当从Pong切换到Zoom时,新任务重用低级视觉,但学习新的中级视觉功能。有趣的是,只有一个低级特征被重用:(见图5b):这是一个具有相当大的时间DC组件的时空滤波器。这似乎足以检测球的运动和桨的位置在原来,翻转,和缩放pong。最后,当从《Pong》切换到《喧闹》时,一些新的低级视觉会被重新学习。这可能是因为在清洁任务中学习的第一层过滤器对添加的噪声不能足够容忍。相反,当从Noisy移动到Pong时,这个问题就不适用了(图5a,最右边的一列),所有的视觉都转移到新的任务上。

Atari Games

接下来我们将研究随机选择的雅达利游戏[3]之间的特征转移。这是个有趣的问题,因为雅达利游戏的视觉效果各不相同,控制和必需的策略也各不相同。尽管《Pong》和《Breakout》等游戏在概念上是相似的(游戏邦注:两者都涉及用球拍击打球),但《Pong》是垂直排列的,而《Breakout》则是水平排列的:这是一个潜在的无法逾越的功能级别差异。其他雅达利游戏组合甚至在概念层面上也没有明显的重叠。

为此我们首先训练单一列三源游戏(乒乓球,河Raid和Seaquest) 3和评估如果学特性转移到另一个随机选择的目标子集游戏(外星人、阿斯泰里克斯、拳击、蜈蚣、金花鼠,英雄,詹姆斯·邦德,Krull, Robotank,跑路,明星炮手和磨破的向导)。我们用2、3、4栏来评估进步网络,
图6
表1
转移矩阵和选取的转移曲线如图6所示,结果汇总如表1所示。

在所有游戏中,我们从图6中观察到,在12个目标任务中,有8个任务的递进网导致了正迁移,只有2个任务出现负迁移。这与基线3相比有利,在12场比赛中只有5场会产生积极的转移。这一趋势反映在表1中,当使用额外的列时,进步网络令人信服地优于基线3。这一点尤其有希望,正如我们在附录中所展示的,渐进式网络每增加一列,就会使用越来越少的容量,为在线压缩或修剪指明了一条清晰的道路,作为一种缓解模型大小增长的手段。

现在考虑特定序列Seaquest-to-Gopher,这是两个不同游戏的例子。在这里,训练前/微调范式(基线3)表现出负迁移,不像渐进网络(见图6b,底部),可能是因为它们更能忽略无关特征。对于Seaquest[+River Raid][+Pong]到boxing的序列,在渐进网络中使用额外的列可以显著增加传输(见图6b,顶部)。

Detailed Analysis

图6表明,正迁移和负迁移都是可能的,与进步网。为了区分这些情况,我们考虑3列情况的平均Fisher敏感性(例如,见图7a)。在这些例子和其他例子中出现了一个清晰的模式:最负迁移完全依赖于前一列的卷积层,而在新列中没有学习到新的视觉特征。相反,当前两列的特性被新特性扩充时,最积极的转移发生。所有3列网络的统计数据(图7b)显示,Atari中的正向转移出现在高度依赖源任务功能和高度依赖目标任务所有新功能之间的“最佳点”。

乍一看,这个结果似乎不太直观:如果一个进步的网络从一个源任务中发现了一个有价值的特性集,难道我们不应该期待一个高度的迁移吗?我们提出两种假设。首先,这可能只是反映了优化的困难,源特征提供快速收敛到一个糟糕的局部最小值。这是迁移学习中一个已知的挑战[20]:习得的源任务提供了一种归纳偏见,在不同的情况下,这种偏见可能是帮助也可能是阻碍。其次,这可能反映了一个探索的问题,即对于一个功能性的、但不是最优的政策来说,转移的表现“足够好”。
图7

5.4Labyrinth

渐进式网络的最后一个实验设置是Labyrinth,这是一个3D迷宫环境,输入是呈现的图像,赋予部分可观察性,代理输出离散动作,包括向上、向下、向左或向右看,以及向前、向后、向左或向右移动。任务和关卡地图都是多样化的,包括“吃”好东西(苹果、草莓)得正分,吃坏东西(蘑菇、柠檬)得负分。详情请见附录。尽管不同任务之间存在概念和视觉上的重叠,但这些任务呈现出一系列具有挑战性的不同游戏元素(如图2所示)。
图8
与其他领域一样,渐进方法产生的正向转移比任何基线都要多(见图8a和表1)。我们在Seek Track关卡中观察到更少的转移,因为在迷宫中有密集的奖励道具,很容易学习。注意,即使在这些简单的情况下,基线2也表现出负迁移,因为它不能学习新的低级视觉特征,这很重要,因为奖励项目会随着任务的变化而变化。图8b中的学习曲线例证了这个领域的典型结果:在更简单的游戏中,如Track 1和Track 2,所有代理的学习都是快速和稳定的。在难度更大、游戏结构更复杂的游戏中,基线斗争和渐进网具有优势。

Conclusion

持续的学习,积累和转移知识到新领域的能力,是智能生物的核心特征。渐进式神经网络是通向持续学习的一块跳板,这项工作已经通过在三个RL领域的实验和分析证明了它们的潜力,包括Atari,它包含正交或甚至敌对的任务。我们认为,我们是第一个在持续学习框架中显示深度RL agent正迁移的人。此外,我们已经证明了渐进方法能够有效地利用兼容源和任务域的传输;该方法对在不兼容任务中学习到的有害特征具有鲁棒性;这种积极的转移随着柱子的数量增加而增加,从而证实了进步建筑的建设性,而不是破坏性的本质。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值