Learning to Learn with Gradients阅读||介绍MAML||博士毕业论文

 

元学习论文总结||小样本学习论文总结

2017-2019年计算机视觉顶会文章收录 AAAI2017-2019 CVPR2017-2019 ECCV2018 ICCV2017-2019 ICLR2017-2019 NIPS2017-2019


 

论文介绍参阅:元学习综述论文-最新发展脉络-基于梯度的元学习

PDF护眼模式:如何将PDF背景设置成护眼色

 

论文讨论了基于梯度的学习算法,称为元学习,其目的是赋予机器类似于人类的灵活性。教会元学习模型快速适应的能力,以快速处理新场景。论文先给出元学习的定义术语和性质,再论文提出了MAML的概念。MAML侧重于获得可转移的表示,而不是良好的学习规则。不同于其他元学习方法,MAML方法通过使用固定的优化作为学习规则,继承了许多理想的特性,同时仍然保持完全的表达性,因为学习的表示可以控制更新规则。

1.介绍(这一段介绍了很多元学习发展文献)

人类有一种非凡的能力,能够从很少的例子中学习新概念,并迅速适应无法预见的环境。要做到这一点,他们需要在之前的经验基础上,重新利用随着时间的推移而建立起来的概念和抽象,从而有效地适应少量的新证据。我们如何构建具有同样多功能性和灵活性的智能系统?

深度学习从大数据中获得了新生,其后发展出许多应用如目标识别等,这些方法多从随机初始参数开始,看起来很不错因为不需要人为的提供特征。然而从人的观点看,这种一个模型只能解决一个问题的办法意义不大。如果我们想要系统显示出人类智能的普遍性,就不需要为每一个新任务、概念或环境都使用数百万个数据点。

相反,我们如何构建能够快速有效地学习各种新概念和技能的系统呢?先考察现有系统的数据训练方式,不同于极其需要学习如mnist数据集的60000个数据,人类可能只学习了其中10个数据的不同转置?。

毫无疑问,数据的分布和性质在泛化中起着很大的作用,但是在不同的数据集上训练系统本身并不能带来适应性。对于人,我们在遇到新任务时候,会尝试从不同的经验中转移知识。迁移学习是指研究在学习新数据时利用以前的数据集的能力。迁移学习在卷积训练中已经取得了好的效果。但是想更进一步提升目前迁移学习策略的性能是困难的,但是是可以解决的。

在这篇论文中,我们将考虑一个迁移学习的方法,优化可迁移性和快速学习。这类方法显式地训练学习新概念或学习如何学习的能力。这种元学习方法很古老,但深度学习和基于梯度的优化的现代技术,以及增强的计算能力和大型数据集,促使我们以新的视角重新审视这种方法。

元学习也可以被看作是学习以前见过的任务或概念之间的结构,并在少量新数据中能取得好的效果。从这个角度看,元学习与层次贝叶斯模型有着密切的关系(在小样本学习已经取得了成功)。将元学习作为分层贝叶斯模型中的先验学习的概念,将有助于对学习中的不确定性进行推理,并对不同方法的直觉进行开发。

元学习方法分为两类。第一类是训练黑盒CNN,从数据中将已有的优化过程融入学习器,如使用LSTM结构的网络。学习一个递归神经网络策略,该策略不会在不同的情景中重置其隐藏状态,这样它就可以从以前的情景中“学习”。这些方法具有表达能力,可应用于广泛的问题。然而,如果没有任何结构,从头开始学习这些黑盒学习过程可能是困难和低效的。

第二类是旨在将结构纳入元学习过程,但这些方法不能直接扩展到其他任务,且这些作品基本上是独立开发的,没有共同的术语,甚至没有共同的问题状态。如果我们希望推动对这些方法的研究和理解向前发展,就需要有一套指导原则和具体但又足够概括的问题陈述。我们希望在本文中能够朝着这样的方向努力。

本文的贡献如下:

  • 在第2章中,我们考虑了元学习问题陈述,并给出了该问题陈述不同实例化的检验组。我们的问题定义和符号封装了元监督和元强化学习设置。

  • 在第3章中,我们提出了一套理想的元学习算法的可测量性,旨在为开发新的元学习算法提供一套指导原则。

  • 在第4章中,我们介绍了我们的核心贡献,一个简单但通用的元学习方法,它建立在成功地从预先训练的初始化进行微调的基础上。分析了该模型无关元学习算法的理论性质,并与已有方法进行了比较。

  • 在第5章,提出第四章中方法的概率版本。

  • 与标准的“学习学习”设置不同,我们可以将时间窗口视为一项任务。我们在第6章进一步发展了这个想法,并评估了我们的在线适应不同模拟环境的方法。

  • 在第7章中,我们提出了内部优化可以使用一个学习损失函数的概念,并展示了如何使用元学习让机器人从单个演示中学习,包括一个由人类执行任务的原始视频组成的演示。

  • 在第8章,我们考虑的问题是从一个人的行为推断一个人的意图,通过建立在以前的经验。我们展示了这个想法如何可以用于学习奖励和目标导航和机器人人机交互。

  • 最后,我们在第九章中讨论了学习中面临的挑战。

2.问题陈述

2.1元学习问题及其术语

实际上,元学习问题将整个任务视为训练示例。在本节中,我们将以一种通用的方式形式化这个元学习问题设置,包括不同学习领域的简单示例。

在元学习过程中,该模型被训练成能够适应大量或无限数量的任务。接着用数学形式化的语言描述了模型的组成和模型的训练过程。元学习的训练,验证方式是,应用到新任务中来评价元学习器的性能。我们将广泛地使用“任务”一词来概括要学习的概念、要适应的领域或它们的组合。

2.1元学习的设计空间

对于有监督元学习,某个学习任务的训练集和测试集都是有监督的。然而,在元增强学习中,每个数据集都由策略的转出组成。正确的元学习的唯一约束条件是(a)训练集解决测试集是有信息性的,(b)测试集及其相应的目标允许优化所需的学习结果。

元学习实例和算法:通过某种监督以某种方式学习。我们可以通过强有力的监督从软弱的监督中学习。在这种情况下,每个任务的训练数据是弱监督的,而测试数据包含完全监督。我们可以从成功的正面例子中学习奖励功能,也可以更进一步,将无监督训练数据与有监督测试数据相结合,利用有监督数据学习无监督学习算法。

3.元学习算法的理想性质

在本章中,我们给出了元学习算法的三个具体的和可测量的属性,特别是它们所获得的学习过程的类别。我们所考虑的支持因素与元学习算法的表达能力、所获得的学习过程的一致性以及处理歧义的能力有关。这个属性列表并不完整:还需要其他属性,比如优化性和简单性。但是,我们将从这三个开始,因为我们有具体的方法来衡量它们。此外,所提议的度量标准不一定是度量总体属性的理想方法;但是,我们希望它们可以作为一个起点来思考不同的元学习算法之间的比较。

3.1元学习算法的表达能力

元学习算法的一个重要特性是其表达能力,即表示大量学习算法的能力。更强的表达能力意味着该方法可以表示更复杂的学习过程,这与可伸缩性有关.请注意,表达能力的度量只表示表示不同功能的能力,这是实际恢复或学习这些功能的先决条件,而不是保证。为了研究这个特性,我们需要一种方法来测量这种表达能力——我们需要正式定义一个学习过程,并测量一组可以由特定算法编码的学习过程的大小。

定义学习过程的一种直观方法是,将数据集D作为输入,并输出参数向量,这些参数向量用于对新数据点进行预测。虽然我们很自然地认为学习过程就是这样,但这个定义也有很多缺点:首先,它只允许学习参数模型,而许多元学习算法采用了更多的非参数方法。其次,它过于完整。通常有多个参数向量可以导致相同的底层函数。在ReLU神经网络中,具有任意非正偏置值的所有零的权矩阵编码相同的函数。我们可以通过考虑该函数的输入/输出对来更具体地定义要学习的函数。因此,我们选择将学习算法定义为同时接受数据集D和测试观察值x作为输入的东西。输出预测y。定义:学习算法一个是过程或函数,用以处理D中的数据,给定一个新的输入X得到预测Y。这个定义对于任何学习问题都是通用的,您的目标是从数据中恢复一个函数,包括学习分类器、回归器和策略。

现在我们已经定义了一个学习过程,我们想要度量一个特定的元学习算法可以表示的一组学习过程。如果我们认为学习的过程是一个函数定义y,我们将定义一个通用学习过程逼近器作为一个通用函数逼近器,用于函数从数据集D和x到y的映射。在本节的其余部分,我们将研究一些以前的黑箱元学习方法的表达能力,重点是元监督学习的问题。

我们可以将黑盒元学习方法大致分为两类。第一种方法((Santoro et al., 2016; Duan et al., 2016b; Wang and Hebert, 2016; Mishraet al., 2018)使用了循环网络可以拟合任意函数,具有最大的表达性能。g是循环网络

第二种方法(Hochreiter et al., 2001; S. Bengio et al., 1992; K. Li and Malik,2017b; Andrychowicz et al., 2016; Ravi and Larochelle, 2017; Ha et al., 2017)

g是一个元学习器,接收特定任务的数据作为输入,当前函数f的参数θ,输出新参数θJ。输入测试x*得到预测y*。

注意,在上面所写的形式中,这种方法可以像普惠方法一样表达,因为元学习者可以简单地将数据集复制到一些预测的权重中,从而简化为一个模型,该模型将数据集和测试作为输入。让反复出现的元学习器对顺序不变的特性(如数据集中数据点的梯度和目标值的平均值)进行操作,而不是对单个数据点本身进行操作。这导致了一个潜在的有益的归纳偏差,它不允许数据点之间耦合,忽略数据集中的顺序。因此,元学习过程只能生成数据集的置换不变函数。

3.2一致的学习算法

除了表达能力,元学习算法还应该能够较好拟合不在训练数据集的分布规律,适应未见过的环境。但是这个性能难以量化评价。作者定义了“一致性”指标来评价学习算法:

一致性这个特性具有有趣的含义。这意味着即使元测试任务与元训练集中的分布任务完全不同,学习算法在给定足够数据的情况下也能很好地完成工作。理论上,“足够”的数据可能是无限的数据。但是,在实践中,我们有理由期望一致的学习算法在前一种算法并不完全错误的情况下,不会比从头开始学习差多少,而且在前一种算法至少指向正确的方向时,可能仍然比从头开始学习好。因此,当任务位于元训练任务分布之外,但又接近元训练任务分布时,我们期望一致的学习算法能够很好地进行通用化。然而,对于不一致的学习过程,例如黑盒学习算法,即使在外推任务上提供了非常大的数据集,也只能期望良好的外推性能。

3.3处理学习中的歧义

我们考虑的最后一个属性与歧义有关。即使在利用以前的经验从一些数据点学习时,示例中可能也没有足够的信息让新任务能够非常确定地解决任务或概念。因此,开发一种能够针对模糊小样本学习问题提出多种潜在解决方案的小样本元学习方法是十分必要的。这种方法可以用来评估不确定性(通过测量样本之间的一致性)。例如,在安全关键的应用中,如少拍医学图像分类,不确定性是决定学习分类器是否值得信任的关键。当从如此少量的数据中学习时,不确定性估计还可以帮助预测额外的数据是否有助于学习和改进对奖励的估计。最后,虽然我们在这项工作中没有做过这样的实验,但我们希望对这种模糊性进行建模将有助于强化学习问题,从而有助于探索。

我们需要建立概率元学习算法,以某种方式推断函数的分布。

4.与模型无关的元学习

在这一章中,我们提出了一种通用的、与模型无关的元学习算法,因为它可以直接应用于任何用梯度下降过程训练的学习问题和模型。我们的重点是深度神经网络模型,但是我们演示了我们的方法如何能够轻松地处理不同的体系结构和不同的问题设置,包括分类、回归和策略梯度强化学习,而只需要最小的修改。我们的方法的核心思想是训练模型的初始参数,使模型在参数通过一个或多个梯度步骤更新后,对新任务具有最大的性能。与以前学习更新函数或学习规则的元学习方法不同,我们的算法不扩大学习参数的数量也没有限制模型架构,它很容易结合完全连接,卷积或循环神经网络。它还可以用于多种损失函数,包括可微监督损失和不可微强化学习目标。

从特征学习的角度来看,训练模型的参数的过程,例如几个梯度步骤,甚至一个梯度步骤,就可以在一个新的任务上产生良好的结果,这可以看作是构建一个广泛适用于许多任务的内部表示。如果内部表示适合于许多任务,只需微调参数(例如,主要通过修改前馈模型中的顶层权重)就可以得到很好的结果。实际上,我们的过程对模型进行了优化,使其易于快速微调,允许在适合快速学习的空间中进行调整。从动力系统的角度来看,我们的学习过程可以被看作是使新任务的损失函数对参数的灵敏度最大化:当灵敏度高时,参数的局部变化很小可以模型损失方面带来很大的改进。

本章的主要贡献是一个简单的模型和任务无关的元学习算法,它训练一个与模型和任务无关参数,这样少量的梯度更新将导致对新任务的快速学习。我们在不同的模型类型,包括全连通和卷积网络,以及几个不同的领域,包括小样本回归,图像分类和约束学习上演示了该算法。我们评估表明,元学习算法与最先进的学习方法对比,使用更少的参数,但是也可以很容易应用于回归和可以加速强化学习的任务可变性,大大优于直接迁移学习参数初始化。

4.1通用算法

这种方法背后的直觉是,一些内部表示比其他表示更容易转换。例如,神经网络可以学习广泛适用于p(T)中的所有任务的内部特征,而不是单个任务。我们如何才能鼓励出现这样的通用表示呢?我们采取一个明确的方法这个问题:由于该模型将基于调整使用梯度学习规则在一个新的任务,我们将致力于学习模型以这样一种方式,基于这种梯度学习规则可以快速进展新任务来自p (T),没有过度拟合。实际上,我们的目标是找到模型参数变化敏感的任务,这样小的参数的变化将产生大的损失函数改进任何任务来自p (T),当改变的方向梯度的损失(参见图1)。我们不假设模型的形式,我们可以使用基于梯度的学习技术。

4.2MAML的种类

在本节中,我们将讨论元学习算法在有监督学习和强化学习中的具体实例。这些域在损失函数的形式和任务生成数据并将数据呈现给模型的方式上有所不同,但是在这两种情况下都可以应用相同的基本适应机制。

4.2.1监督回归与分类

 

 

近200篇小样本学习领域/元学习领域论文集

 vieo.zhu@foxmail.com申请

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值