论文阅读：Meta-Learning in Neural Networks: A Survey

最新推荐文章于 2023-08-05 09:18:55 发布

王小波_Libo

最新推荐文章于 2023-08-05 09:18:55 发布

阅读量5.3k

点赞数 4

分类专栏：论文阅读

原文链接：https://blog.csdn.net/qq_38680752/article/details/106488508

版权

论文阅读专栏收录该内容

4 篇文章 2 订阅

订阅专栏

题目：Meta-Learning in Neural Networks: A Survey

论文地址：https://arxiv.org/abs/2004.05439

作者：Timothy Hospedales, Antreas Antoniou, Paul Micaelli, Amos Storkey

发表： In arXiv 2020.

代码：无

https://zhuanlan.zhihu.com/p/133159617

https://www.cnblogs.com/zhengzhicong/p/12952354.html

论文翻译

摘要：

元学习（学会学习）领域近年来的兴趣急剧上升。与传统的人工智能方法相反，传统的人工智能方法是使用固定的学习算法从头开始解决给定的任务，元学习旨在改进学习算法本身，考虑到多次学习的经验。这个范例提供了一个机会来解决深度学习的许多传统挑战，包括数据和计算瓶颈，以及泛化的基本问题。在这项调查中，我们描述了当代元学习景观。我们首先讨论元学习的定义，并将其定位于相关领域，如迁移学习、多任务学习和超参数优化。然后我们提出一个新的分类方法，提供了一个当今更全面的细分空间的元学习方法。我们调查了元学习的有希望的应用和成功案例，包括少样本学习，强化学习和架构搜索。最后，我们讨论了未来研究的突出挑战和有希望的领域。

1 引言

现代机器学习模型通常是使用手工设计的固定学习算法，针对特定任务从零开始进行训练。基于深度学习的方法在[各个领域都取得了巨大的成功。然而，还有明显的局限性。例如，在可以收集或模拟大量数据的领域以及可以使用大量计算资源的领域取得了很大的成功。这排除了许多应用程序，这些应用程序中的数据本质上是稀有的或昂贵的或者计算资源不可用。
       元学习提供了另一种范例，机器学习模型可以在多个学习情景中获得经验——通常覆盖相关任务的分布——并使用这种经验来改进未来的学习性能。这种“学会学习”可以带来各种各样的好处，比如数据和计算效率，它更适合人类和动物的学习，在人类和动物的一生和进化时间尺度中，学习策略都得到了改进。机器学习在历史上建立的模型是基于手工设计的特性，而特性的选择往往是最终模型性能的决定因素。深度学习实现了联合特征和模型学习的承诺，为许多任务提供了巨大的性能提升。在神经网络中，元学习可以看作是为了提供下一步的集成联合特征、模型和算法学习。神经网络元学习有着悠久的历史。然而，其作为推动当代深度学习行业前沿的驱动力的潜力，导致了近期研究的爆炸式增长。特别是，元学习有可能缓解当代深度学习的许多主要批评，例如通过提供更好的数据效率，利用先验知识转移，以及实现无监督和自我指导的学习。成功的应用已经在多个领域得到了证明，包括小样本图像识别、无监督学习、数据高效和自定向强化学习(RL)、超参数优化和神经结构搜索(NAS)。
       关于元学习的许多不同观点可以在文献中找到。特别是因为不同的社区对这个术语的使用有所不同，所以很难定义它。与我们相关的一个观点认为元学习是管理“没有免费午餐”定理的工具，并通过搜索最适合给定问题或问题族的算法(归纳偏差)来改进泛化。然而，从广义上来说，这个定义可以包括迁移、多任务、特征选择和模型集成学习，这些在今天通常不被认为是元学习。另一个关于元学习的观点广泛地涵盖了基于数据集特性的算法选择和配置技术，并且很难与自动机器学习(AutoML)区分开来。在这篇论文中，我们关注当下的神经网络元学习。我们将其理解为算法或归纳偏差搜索，但重点是通过对明确定义的目标函数(如交叉熵损失、准确性或速度)的端到端学习来实现的。
       因此，本文提供了一个独特的，及时的，最新的调查神经网络元学习领域的快速增长。相比之下，以前的研究在这个快速发展的领域已经相当过时，并且/或专注于数据挖掘、AutoML的算法选择，或元学习的特定应用，如少样本学习或神经结构搜索。
       我们同时讨论元学习方法和应用。特别是，我们首先提供了一个高层次的问题形式化，可以用来理解和定位最近的工作。然后，我们在元表示、元目标和元优化器方面提供了一种新的方法分类。我们调查了几个流行的和新兴的应用领域，包括few-shot、强化学习和架构搜索;并将元学习与迁移学习、多任务学习和自动学习等相关主题联系起来。最后，我们讨论了未来研究的突出挑战和领域。

2 背景

元学习很难定义，它已经以各种不一致的方式被使用，甚至在当代的神经网络文献中也是如此。在本节中，我们将介绍我们的定义和关键术语，旨在帮助理解大量文献。然后，我们将元学习定位于相关的主题，如迁移和多任务学习、层次模型、超参数优化、终身/持续学习和自动学习。
元学习通常被理解为学会学习，它指的是在多个学习阶段改进学习算法的过程。相比之下，传统的ML考虑的是在多个数据实例上改进模型预测的过程。在基本学习过程中，内部(或更低的、基本)学习算法解决由数据集和目标定义的图像分类等任务。在元学习过程中，外部(或上部、元)算法对内部学习算法进行更新，从而使内部算法学习的模型改进了外部目标。例如，这个目标可以是泛化性能或内部算法的学习速度。基本任务的学习阶段，即(基本算法、训练模型、性能)元组，可以看作是提供外部算法学习基本学习算法所需要的实例。
正如上面所定义的，许多传统的机器学习实践，如交叉验证的随机超参数搜索，可能属于元学习的定义范围。当代神经网络元学习的显著特征是明确定义的元级目标，以及与此目标相关的内部算法的端到端优化。元学习通常是对从一个任务族中抽取的学习片段进行操作，从而形成一个基础学习算法，该算法可以在从这个任务族中抽取的新任务中很好地执行。当学习新任务时，这是一种特别强大的技术，可以提高数据效率。然而，在极限情况下，所有训练片段都可以从单个任务中采样。在下一节中，我们将更正式地介绍这些概念。

2.1 形式化元学习

传统的机器学习：在传统的监督机器学习中，我们得到了训练数据集D={(x1，y1)，...，(xN，yN)}，例如（输入图像、输出标签）对。我们可以yˆfθ(X)p训练一个预测模型通过θ，通过解决：

其中L是一个损失函数，它通过fθ（·）度量真实标签与预测的标签之间的匹配。我们包括条件ω显式的依赖这个解决方案等因素的优化器选择θ或函数f类,我们通过ω表示。然后，通过评估一些带有已知标签的测试点来度量泛化。
传统的假设是对每一个问题D都从头开始进行优化，而且ω是预先指定的。然而，“如何学习”θ的规范ω会显著影响泛化、数据效率、计算成本等。元学习通过学习学习算法本身来提高性能，而不是假设它是预先指定和固定的。这通常（但并非总是）通过重新审视上述第一个假设，并从任务的分布中学习而不是从头开始来实现。

元学习：任务分配观 元学习旨在通过学习“如何学习”来提高绩效。具体来说，目标通常是学习一种通用的学习算法，这种算法可以泛化任务，并且理想情况下能够更好地学习每个新任务。因此ω指定“如何学习”,通常是评估在性能方面在p (T)分配任务。这里，我们松散地将任务定义为数据集和丢失函数T = {D,L}。学习如何学习，因此成为

其中L(D；ω)测量使用数据集D上的ω训练的模型的性能。“如何学习”的知识ω通常被称为跨任务知识或元知识。

为了在实践中解决这个问题，我们通常假设访问从p(T)采样的一组源任务，我们ω学习这些任务。形式上，我们表示元训练中使用的M源任务集阶段为Dsource=，其中每个任务都有训练和验证数据。通常，源序列和验证数据集分别称为支持集和查询集。元知识由ω表示,“学习如何学习”的meta-training一步是:

现在我们将元测试阶段使用的Q目标任务集合表示为, 其中每个任务都有训练和测试数据。在测试阶段，我们使用学习的元知识来训练每个以前看不见的目标任务i的基础模型：

公式1相比传统学习,学习训练集的目标任务i现在受益于元知识ω对要使用的算法。这可能采取的初始参数估计的形式,在这种情况下,ω和θ是相同的大小的对象指的是相同的数量。然而,ω可以更广泛的编码其他对象,如整个学习模型或优化策略。最后,我们可以评估θ*的表现准确性的meta-learner性能。
这种设置导致了传统的欠拟合和过拟合的类比：元欠拟合和元过拟合。特别是，元过度拟合是一个问题，在源任务上学习的元知识不会泛化到目标任务。这是比较常见的，特别是在只有少量源任务可用的情况下。就元学习作为归纳偏误学习而言，元过拟合对应于学习归纳偏误ω，它将θ的假设空间限制在源任务的解周围太紧。
元学习：双层优化观 前面的讨论概述了在多任务场景中元学习的一般流程，但没有具体说明如何解决公式3中的元训练步骤。这通常是通过将元训练步骤转化为一个双层优化问题来实现的。虽然这张图可能只对基于优化器的方法是准确的（见第3.1节），但它有助于更普遍地可视化元学习的机制。双层优化是指一个层次优化问题，其中一个优化包含另一个优化作为约束。使用这种符号，元训练可以形式化如下：

其中Lmeta和Ltask分别指外部目标和内部目标，如交叉熵在少样本分类的情况下。双层范式的一个关键特征是内外层的主从不对称：内层优化方程6是以外层定义的学习策略ω为条件的，但在训练过程中不能改变ω。
这里ω可以表示非凸优化中的初始条件、正则化强度等超参数，甚至可以表示优化Ltask的损失函数的参数化。第4.1节详细讨论了ω的选择空间。外层优化训练学习策略ω，使其产生在训练后在其验证集上表现良好的模型θ*(i)(ω)。第4.2节详细讨论了如何优化ω。注意，虽然Lmeta可以测量简单的验证性能，但我们将看到它也可以测量更细微的量，如第4.3节中讨论的学习速度和模型稳健性。
最后，我们注意到上述元训练的形式化使用了任务上分布的概念，并使用了来自该分布的M个样本。虽然这是强大的，并广泛应用于元学习文献，但它不是元学习的必要条件。更正式地说，如果给我们一个单独的训练和测试数据集，我们可以分割训练集以获得验证数据，以便Dsource=（Dtrain ，Dval）用于元训练，对于元测试，我们可以使用Dtarget=（Dtrain∪Dval，Dtest）。虽然元训练中通常使用不同的训练值分割，但我们仍然可以通过几次学习ω，可以认为M=Q=1。

元学习：Feed-Forward模型视图 正如我们将看到的，有许多元学习方法以前馈的方式综合模型，而不是像上面的Eqs.5-6那样通过显式的迭代优化。虽然它们的复杂程度各不相同，但通过例示等式2中的抽象目标来定义元训练线性回归的一个玩具示例，了解这一系列方法是有指导意义的[45]。

这里我们可以看到，我们通过优化任务的分布来进行元培训。对于每个任务，绘制一个培训和验证(即查询和支持)集。火车预计Dtri嵌入到一个向量gω它定义了线性回归权重预测例子x来自上面的测试集,优化目标从而“学习如何学习”培训功能gω实例化一个学习算法训练集映射到一个权重向量。因此如果一个新颖的meta-test任务Tte是从p (T)我们也期望gω提供一个好的解决方案。这个家族中的不同方法在使用的预测模型的复杂性(它们实例化的参数g)和支持集的嵌入方式(例如，通过简单池、CNN或RNN)上各不相同。

2.2元学习的历史背景

元学习最早出现在1987年的文献中，是J. Schmidhuber和G. Hinton和的两篇独立作品。Schmidhuber[17]为一组新的学习方法设置了理论框架，这些方法可以使用自参照学习来学习。自向学习包括训练神经网络，使其能够接收自己的权重并预测所述权重的更新。Schmidhuber进一步提出模型本身可以用进化算法来学习。Hinton et al.提出对每个神经网络连接使用两个权值，而不是一个。第一个权重是标准的慢权重，它通过优化器更新缓慢地获取知识(称为慢知识)，而第二个权重或快速权重在推理期间快速地获取知识(称为快速知识)。快速权重的职责是能够消除模糊或恢复过去学习的缓慢权重，这些权重由于优化器更新而被遗忘。这两篇论文都介绍了一些基本概念，这些概念后来延伸并引发了当代元学习。
在引入元学习之后，我们可以看到这个概念在多个不同领域的使用迅速增加。Bengio et al.提出了尝试元学习的系统，生物上看似合理的学习规则。Schmidhuber等人在随后的工作中继续探索自我参照系统和元学习。S. Thrun等人在[8]中创造了“学习学习”一词作为元学习的替代，并继续探索和剖析元学习中可用的文献，以寻找一个通用的元学习定义。使用梯度下降和反向传播来训练元学习系统的建议在2001年首次提出。在之后不久，对元学习文献的其他综述也出现了。元学习最早在Schweighofer等人的著作中用于强化学习。之后，Larochelle等人在零起点学习中首次使用元学习。最终在2012年Thrun等人重新引入了现代深度神经网络时代的元学习，这标志着这一类型的现代元学习的开始
元学习还与分组数据统计中的分层和多级模型的方法密切相关。在这样的层次模型中，分组的数据元素用组内模型建模，组间的差异用组间模型建模。在机器学习文献中，这种层次模型的例子包括潜在的Dirichlet分配及其变体等主题模型。在主题模型中，新文档的模型从文档的数据中学习;该模型的学习是以已经从整个语料库中学习的主题集为指导的。分层模型将在第2.3节中进一步讨论。

2.3 相关领域

在这里，我们将元学习与相关领域进行对比，这通常是文献中混乱的根源。
       迁移学习TL使用源任务的过去经验来改进目标任务的学习(速度、数据效率、准确性)——通过迁移来自前一个任务的解决方案的先验参数、初始条件或特征提取器。TL指的是对问题领域的努力。在当代的神经网络环境中，它通常指的是参数传递和可选微调的特定方法(尽管有许多其他方法来解决这个问题)。
       TL指的是一个问题领域，而元学习指的是一种可以用来改进TL和其他问题的方法。TL作为一种方法论与元学习是有区别的，因为前者是由源任务的学习在不使用元目标的情况下提取出来的。在元学习中，相应的先验由外部优化定义，该优化评估先验在帮助学习新任务时的执行情况，如MAML所示。更一般地说，元学习处理的元表示范围要比单独处理模型参数大得多(4.1节)。
       域适应(DA)和域泛化(DG)  域转移是指源任务和目标任务具有相同的类，但目标任务的输入分布相对于源任务发生了转移，导致转移后模型性能下降的情况。DA是迁移学习的一种变体，它尝试通过使用来自目标的稀疏或未标记的数据调整源训练的模型来缓解这个问题。DG指的是训练源模型在没有进一步调整的情况下对这种领域转移具有鲁棒性的方法。研究在目标域传递知识、提高性能的方法很多。然而，对于TL，普通的DA和DG是不同的，因为没有优化跨域“如何学习”的元目标。同时，元学习方法可以同时执行DA和DG，我们将在第5.9节中介绍。
       不断学习 (CL)  持续终生学习指的是从潜在的非平稳分布中提取的一系列任务的学习能力，特别是在加快学习新任务的同时，不忘记旧任务。它与任务分配有关，并且目标部分是为了加速对目标任务的学习。然而，大多数持续学习方法不是元学习方法，因为这个元目标没有明确地解决。然而，元学习为促进持续学习提供了一个潜在的框架，最近一些研究已经开始通过开发编码持续学习性能的元目标来实现这一目标。
       多任务学习(MTL)  目的是共同学习几个相关的任务，并受益于参数共享和由此产生的共享表示的多样性带来的正则化效果。像TL、DA和CL一样，传统的MTL是没有元目标的单层优化。此外，MTL的目标是解决固定数量的已知任务，而元学习的要点通常是解决看不见的未来任务。尽管如此，元学习也可以为MTL带来好处，例如通过学习任务之间的相关性，或者如何在多个任务之间区分优先级。
       超参数优化(HO)  属于元学习的范畴，因为学习速率或正则化强度等超参数可以包含在“如何学习”的定义中。在这里，我们专注于HO任务，定义一个元目标，是训练端到端与神经网络。这包括HO中的一些工作，如基于梯度的超参数学习和神经结构搜索。但是我们排除了其他方法，如随机搜索和贝叶斯超参数优化，这些方法很少被认为是元学习。 层次贝叶斯模型(HBM)涉及先验p（θ|ω)下θ参数的贝叶斯学习。先验被写为其他变量的条件密度ω它有自己的先验p（ω）。层次贝叶斯模型强烈地作为分组数据D={Di|i的模型=1，2，...，M}，其中每个组i都有自己的θi。

全模型为层次结构的层次可以进一步增加，特别是ω本身可以参数化，因此可以学习p（ω）。

学习通常是全过程的，但使用某种形式的贝叶斯边缘化来计算ω：

边缘化的容易程度取决于模型：在某些情况下（如潜在的Dirichlet分配），由于选择共轭指数模型，边缘化是精确的，在其他情况下，使用随机变分方法来计算近似的后验值，从中计算出边际似然的下界。
贝叶斯层次模型为元学习提供了一个有价值的观点，因为它们为理解元学习过程提供了一个建模而不是算法框架。在实践中，贝叶斯层次模型的前期工作通常集中在学习简单易处理的模型θ；然而，大多数元学习工作考虑复杂的内环学习过程，涉及许多迭代。然而，一些元学习方法如MAML[19]可以通过HBMs[72]的视角来理解。
自动机器学习 AutoML是一个相当广泛的方法，旨在自动化机器学习过程中典型的手动部分，如数据准备和清理、特征选择、算法选择、超参数调整、架构搜索等。AutoML经常使用许多不在本文定义的元学习范围内的启发式方法，并处理诸如数据清理之类对元学习不太重要的任务。然而，AutoML有时会使用元学习，正如我们在这里定义的那样，它是对元目标的端到端优化，因此元学习可以看作是AutoML的一种专门化。

3 分类法

3.1 以前的分类法

以前的元学习方法分类倾向于在基于优化的方法、基于模型（或黑盒）的方法和基于度量（或非参数）的方法之间产生一种三向分类法。
       优化  基于优化的方法包括那些将内部任务（等式6）作为优化问题直接求解的方法，并且侧重于提取提高优化性能所需的元知识ω。其中最著名的可能是MAML，其中元知识ω是内部优化中模型参数的初始化，即θ0。我们的目标是学习θ0，以便在少量的训练实例上使用少量的内部步骤生成一个在验证数据上性能良好的分类器。这也可以通过梯度下降来实现，通过对基础模型的更新来区分。更详细的方法还可以学习步长或训练递归网络来预测梯度中的步长。通过梯度进行的元优化导致有效评估昂贵的二阶导数和通过潜在的数千个内部优化步骤的图进行区分的挑战（见第6节）。由于这个原因，它通常应用于很少的镜头学习，其中很少的内环步骤可能是足够的。
       黑盒/基于模型  在基于模型（或黑盒）的方法中，内部学习步骤（等式6，等式4）被包裹在单个模型的前馈过程中，如等式7所示。该模型将当前数据集D嵌入激活状态，并根据该状态对测试数据进行预测。典型的体系结构包括递归网络、卷积网络或超网络，它们嵌入给定任务的训练实例和标签，以定义输入测试示例并预测其标签的预测器。在这种情况下，所有的内部学习都包含在模型的激活状态中，并且完全是前馈的。外部层学习由包含CNN、RNN或超网络参数的ω执行。当ω直接指定θ时，内外层优化紧密耦合。记忆神经网络使用显式存储缓冲区，也可以用作基于模型的算法。据观察，与基于优化的方法相比，基于模型的方法通常不太能够推广到分布外任务。此外，尽管他们通常非常擅长数据有效的少量学习，但他们被批评为渐弱，因为不清楚黑箱模型能否成功地将一个大的训练集嵌入到一个丰富的基础模型中。
       度量学习  到目前为止，度量学习或非参数算法在很大程度上局限于元学习的流行而具体的少量应用（第5.1.1节）。其思想是通过比较验证点和训练点并预测匹配训练点的标签，在内部（任务）级别执行非参数“学习”。按照时间顺序，这是通过孪生网络、匹配网络、典型网络、关系网络和图形神经网络等方法实现的。在这里，外层学习对应于度量学习（寻找将数据编码为适合比较的表示的特征提取器ω）。如前所述，ω在源任务上学习，并用于目标任务。
       讨论  以上所述的常见分类并没有暴露出兴趣的所有方面，也不足以理解当今各种各样的元学习框架之间的联系。因此，在下面的小节中，我们提出了元学习方法的一个新的交叉细分。

3.2 拟议分类法

我们沿着三个独立的轴引入一个新的分类。对于每个轴，我们都提供了反映当前元学习环境的分类法。
       元表示（“什么？”)  第一个轴是元知识ω表示的选择。这可以将用于优化器初始化的模型参数的估计扩展到程序归纳的可读代码[89]。注意，基本模型表示θ通常是特定于应用的，例如计算机视觉中的卷积神经网络（CNN）。
       元优化器（“如何？”)  第二个轴是在元训练(见等式5)1期间用于外部水平的优化器的选择。ω的外层优化器可以有多种形式，从梯度下降，到强化学习和进化搜索。
       元目标（“为什么？”)  第三个轴是元学习的目标，它由元目标Lmeta（等式5）、任务分布p（T）和两个层次之间的数据流的选择决定。它们可以一起为不同的目的定制元学习，例如样本有效的少样本学习快速多样本优化或对域移位的鲁棒性、标签噪声和对抗攻击。

4 调查：方法

在本节中，我们根据我们提出的新方法分类法对现有文献进行了分类。

1. 相反，θ的内级优化器(Eq。 6)可以由手头的应用程序指定(例如，在图像识别的情况下，交叉熵损失的梯度下降监督学习[1]，或在持续控制[90]的情况下进行策略梯度强化学习)。

4.1 元表示

元学习方法对ω应该是什么做出不同的选择，即学习策略的哪些方面应该被学习；以及（通过排除）哪些方面应该被认为是固定的。
       参数初始化  在第一类方法中，ω对应于神经网络的初始参数。在MAML中，这些被解释为内部优化的初始条件。一个好的初始化过程离从p（T）得到的任何任务T的解只有几个梯度步骤。这些方法广泛应用于少量样本学习，在给定这样一个精心选择的初始条件的情况下，目标问题可以在不使用过多示例的情况下学习。这种方法的一个关键挑战是，外部优化需要求解与内部优化一样多的参数（在大型cnn中可能有数亿个）。这导致了一系列的工作，分离一个子集的参数元学习。例如按子空间、按层或通过分离比例和移位。虽然内环初始化是元表示的一种流行和有效的选择，但这里的一个关键争论是，一个初始条件是否足以为广泛的潜在任务提供快速学习，还是仅限于相当窄的p（T）分布。这导致了在多个初始条件下模拟混合的变体。
       优化器  上述以参数为中心的方法通常依赖于现有的优化器，如带动量的SGD或Adam，以便在给定某个新任务时细化初始化。而不是依靠手设计的优化,优化器为中心的方法关注学习的内部优化器训练一个函数作为输入优化状态如θ和∇θLtask和生产优化步骤在每个基础学习迭代。可训练的组件ω可以跨越简单的超参数如固定步长,更复杂的预处理矩阵。基于最终ω可以用来定义一个完整的梯度优化器在某种意义上定义一个复杂的非线性转换输入的梯度和其他元数据。如果优化器跨权重进行协调应用，这里要学习的参数可能很少。以初始化为中心的方法和以优化为中心的方法可以通过联合学习来合并，即让前者学习后者的初始条件。优化学习方法已被应用于少样本学习[41]和加速和改善多样本学习。最后，人们还可以元学习黑盒零序优化器，它只需要Ltask的评估，而不需要梯度等优化器状态。这些方法已经被证明可以与传统的贝叶斯优化方法相媲美。
       黑盒模型（循环、卷积、超网络）  另一类模型训练学习者ω，学习者ω直接提供从支持集到分类测试实例所需参数的前向映射，即θ=gω（Dtrain），而不是依赖于θ的梯度（或零阶）迭代优化。它们对应于传统分类法中基于黑盒模型的学习（第3.1节）。嵌入支持集通常通过递归网络或卷积来实现。
       这些方法与超网络有很强的联系。超网络是生成另一个神经网络的权值的网络，其条件是某种嵌入，并且通常用于压缩或多任务学习。超网络也可以用来合成预测模型，通过条件反射嵌入源（aka. support）数据集。在这种情况下，ω是权重合成超网络，它产生θ，给定一个前馈过程中的支持集。最后，记忆增强神经网络能够快速记忆旧数据和吸收新数据，并且通常也属于黑盒模型范畴。在中，作者通过改变记忆检索机制，使神经图灵机器适应元学习环境。元网络然后改进了这个模型，将快速权重（网络对每个任务的预测）和慢速权重（通过任务间的强化训练）结合起来访问内存。我们注意到一些方法在一个框架中同时实现了基于模型和初始条件的元学习或以优化器为中心的元学习。

嵌入函数(MetricLearning) 这类方法是由传统机器学习中的度量学习方法启发的，因此在传统的t中被归类为度量学习方法轴突学（3.1节）。它们主要应用于少镜头学习。在这里，元优化过程学习嵌入网络ω，该网络将原始输入转换为适合重新排序的表示通过查询和支持实例之间的简单相似性比较（例如，里德距离)之间的简单相似性比较）。然而，度量学习方法可以看作是上述前馈黑箱模型的一个特例。这显然是基于支持和查询图像之间的内积生成分对数的方法的情况。在这里，支持图像生成权重来解释查询示例，使其成为BBM的一个特例，其中“超网络”为查询集生成线性分类器。通过使嵌入任务具有条件或学习更详细的比较度量，进一步增强了这个家族中的普通方法。

损失和辅助任务  与优化设计的元学习方法类似，这些方法旨在学习基本模型的内部任务损失Ltaskω(·)。损失学习方法通常定义一个小的神经网络，该网络输入通常是损失的输入量（例如预测、特征或模型参数），并输出一个标量，由内部（任务）优化器将其视为损失。这有潜在的好处，例如导致比常用的损失更容易优化的学习损失（例如，更少的局部极小值），导致更快的学习和改进的泛化，或其极小值对应于对域移位更稳健的模型的学习。此外，还使用损失学习方法来学习从未标记实例学习。其他应用包括学习Ltaskω()作为对真实不可微任务损失（如精确召回曲线下的区域）的可微逼近。
       损失学习也出现在自我监督学习或辅助任务学习的推广中。在这些问题中，无监督预测任务（例如视觉中的像素着色[119]或简单地改变RL中的像素）是以多任务的方式与主任务一起定义和优化的，但目的是改进支持主任务的表示。在这种情况下，使用的最佳辅助任务（损失）很难预先预测，因此元学习可以根据它们对改进主任务学习的影响，在几个辅助损失中进行选择。I.e.，ω是每个辅助任务的权重[68]。更一般地，人们可以元学习辅助任务生成器，该生成器使用辅助标签为要预测的主多任务模型注释示例。
       架构  在神经网络中，架构发现一直是一个重要的领域，它不适合简单的穷举搜索。元学习可以通过学习体系结构来自动化这个非常昂贵的过程。早期的尝试使用RL和LSTMs来学习生成一个好的架构[28]的描述。进化算法[27]也被用来尝试学习架构中的块，这些架构被建模为图形，可以通过编辑它们的图形来进行变异。基于梯度的体系结构表示也以DARTS[26]的形式被访问,其中训练期间的前向传递包含在给定块中所有可能层的输出的softmax中，该输出由待元学习的系数（即ω）加权。在元测试过程中，通过只保留与最高系数对应的层来对体系结构进行离散化。通过交替使用一个内部步骤和一个外部步骤来更新体系结构系数和网络权重，贪婪地学习系数。由于DART仍然相对较慢且精度有限，最近的工作集中在通过更好的可微近似使体系结构学习更有效[124]、易于适应初始化的学习[125]或体系结构优先级[126]。关于神经架构搜索的更多细节，请参见第5.4节。
       注意模块  注意机制已经被证明可以提高泛化性能和可解释性。这些机制也构成了各种元学习模型的元表示的一部分。例如，它们被用作基于度量的跨导元学习者的支持项和目标集项的比较器[127]以及特征抽取器，以防止在少数镜头连续学习中发生灾难性遗忘[128]。最近，注意力还被用来总结传入文本分类任务的分布情况[129]。
       模块  模块元学习[130]，[131]假设任务无关知识ω定义了一组模块，这些模块以θ定义的任务特定方式重新组合，以解决每个遇到的任务。这些策略可以看作是典型的知识共享结构方法的元学习概括，在多任务和转移学习中得到了很好的研究[65]、[66]、[132]。
       超参数  在这些方法中，ω包括基本学习算法的超参数，例如正则化强度[25]、每参数正则化[92]、多任务学习中的任务相关性[67]或数据清理中的稀疏强度[67]。注意，诸如步长和方向[75]、[76]等超参数可以看作是优化器定义的一部分，因此导致超参数和优化器学习类别之间的重叠。
       数据扩充  在有监督学习中，通过对现有数据进行保留标签的变换，合成更多的训练数据，从而提高泛化能力是很常见的。数据增强操作被封装在内部问题Eq.6的优化步骤中，并且通常是手工设计的。然而，当ω定义了数据增强策略时，可以通过等式5中的外部优化来学习，以便最大化验证性能[133]。由于增广运算通常是不可微的，这就需要强化学习[133]、离散梯度估计[134]或进化[135]方法。一个悬而未决的问题是，强大的基于GAN的数据增强方法[136]是否可以用于8个内部层学习，并在外部层学习中进行优化。
       小批量选择、样本权重和课程学习  当基算法是基于小批量随机梯度下降时，学习策略的设计参数是批量选择过程。各种手工设计的方法[137]存在，以改进经典的随机抽样小批量。小批量选择的元学习方法将ω定义为实例选择概率[138]或选择或排除实例[139]以包含在下一个小批量中的小神经网络，而元损失可以定义为给定定义的小批量选择器的基础模型的学习进度。
       这种选择方法也可以提供一种自动学习课程的方法。在传统的机器学习中，课程是一系列要学习的数据或概念，这些数据或概念是手工设计的，目的是产生比按随机顺序学习的项目更好的性能[140]，例如，通过关注正确困难的实例，同时拒绝太难或太容易（已经学习）的实例。元学习有可能使这一过程自动化，并通过将教学策略定义为元知识，并对其进行培训，以优化学生的学习进度，从而选择适当困难的例子[139]，[141]。
       与小批量选择策略相关的是为训练集[142]，[143]学习每样本损失权重ω的方法。这可用于通过贴现噪声样本[142]、[143]、贴现异常值[67]或纠正类不平衡[142]来学习标签下噪声。
       数据集、标签和环境  也许元表示最奇怪的选择是支持数据集本身。这与元学习的最初形式化不同，元学习认为源数据集是固定的（第2.1节，Eqs.2-3）。然而，从Eqs.5-6的双层视图可以很容易地理解它。如果上层优化中的验证集是实的和固定的，下层优化中的训练集由ω参数化，则可以通过元学习对训练集进行调整，以优化验证性能。
       在数据集净化[144]，[145]中，支持图像本身被学习到，因此在它们上面的几个步骤允许对真实查询图像进行良好的泛化。这可用于将大型数据集汇总为少数图像，这对于在无法存储流数据集的情况下进行连续学习的重放非常有用。
       与其为固定标签y学习输入图像x，还可以为固定图像x学习输入标签y。这可用于半监督学习，例如直接学习未标记集的标签以优化验证集性能[146]，或训练标签生成函数[147]。
       在计算机视觉或强化学习中的sim2real学习[148]的情况下，使用环境模拟器生成用于训练的数据。在这种情况下，还可以训练图形引擎[149]或模拟器[150]，以便在训练由该环境模拟器生成的数据之后优化下游模型的实际数据（验证）性能。
       讨论：传递表示和方法  大多数ω表示上面所讨论的参数向量函数这一过程或生成数据。然而提到的几个表示转换,ω字面对应于数据点[144],[146]标签,或样品重量[142]。这意味着在ω元学习尺度参数的数量是数据集的大小。虽然这些方法的成功证明了当代元学习的能力[145]，但这一特性可能最终限制了它们的可伸缩性。
       与转换表示不同的是转换方法，因为它们被设计用于操作查询实例和支持实例[98]和[122]。
       讨论:可解释的符号表示  在上面讨论的许多元表示之间可以进行交叉区分的是不可解释的(子符号)和人类可解释的(符号)表示。次符号表示如ω参数化神经网络[78],是更常见的研究占据了绝大多数的研究上面提到。然而,元学习与象征性的表示也可能,其中ω表示符号函数,是人类可读的程序代码[89],与亚当[102]。而不是神经损失函数[44],一个可以训练符号ω的损失是由一个表达式与叉[115]。人们也可以元学习新的符号激活[151]，这比ReLU等标准更好。由于这些元表示是非平滑的，所以元目标是不可微的，并且更难于优化(参见第4.2节)。所以ω的上层优化通常使用RL[115][89]或进化算法。然而，符号表示在跨任务族归纳的能力上可能有优势[89]、[115]和[151]。I.e.,跨越广泛分布p (T)与一个ω元培训期间,或有学习ω概括一个分配的任务元测试期间(见第6节)。

4.2 元优化器

给定一个学习策略的选择方面的优化(如上总结),下一个元学习者设计的轴是实际外(元)优化策略用于调优ω。
梯度一大类方法在元参数ω[19]、[41]、[44]、[67]上使用梯度下降。这就需要计算外目标的导数dLmeta/dω，它通常通过链式规则连接到模型参数θ，dLmeta/dω=(dLmeta/dθ)(dθ/dω)。这些方法可能是最有效的，因为它们利用了ω的解析梯度。然而，关键的挑战包括：（i）通过内部优化使用许多步骤的长计算图进行有效的区分，例如通过仔细设计自微分算法[25]、[178]和隐式微分算法[145]、[153]、[179]，并简单地处理所需的二阶梯度[180]。（ii）减少不可避免的梯度退化问题，其严重性随内环优化步数的增加而增加。（iii）当基本学习者、ω或Ltask包括离散或其他不可微操作时，计算梯度。

强化学习  当基础学习者包含不可微步骤[133]或元目标Lmeta本身是不可微的[117]时，许多方法[22]使用RL来优化外部目标Eq.5。这通常使用策略梯度定理来估计梯度∇ωLmeta。然而，以这种方式减轻对可微性的要求通常是非常昂贵的。针对∇ωLmeta的高方差策略梯度估计意味着需要许多外部级优化步骤来收敛，并且由于将任务模型优化包装在这些步骤中，每个步骤本身都是代价高昂的。
       进化  另一种优化元目标的方法是进化算法（EA）[17]，[123]，[181]。许多进化算法与强化学习算法有很强的联系[182]。然而，对于RL，它们的性能并不依赖于内部优化的长度和报酬稀疏性。
       EAs(进化算法)之所以具有吸引力，有几个原因[181]：（i）它们可以优化任何类型的基模型和元目标，而不需要可微性。（ii）它们不依赖于反向传播，反向传播既解决了梯度退化问题，又避免了上述基于梯度的传统方法所需的高阶梯度计算成本。（iii）它们高度可并行化，使元训练更容易扩展。（iv）通过保持解的多样性，它们可以避免影响基于梯度的方法的局部极小值[123]。然而，它们有一些缺点：（i）训练模型所需的种群数量随着可学习参数的数量迅速增加。（ii）它们对突变策略（如噪声的大小和方向）敏感，因此可能需要仔细的超参数优化。（iii）它们的拟合能力通常不如基于梯度的方法，特别是对于CNNs等大型模型。
       EA相对更常用于RL应用中[23]，[158]（其中模型通常较小，内部优化较长且不可微）。然而，它们也被应用于监督学习中学习规则[183]、优化器[184]、体系结构[27]、[123]和数据增强策略[135]。它们在学习人类可解释的符号元表示方面也特别重要[115]。

4.3 元目标和事件设计

最后一部分是通过选择元目标Lmeta，以及内环事件和外部优化之间的关联数据流来定义元学习方法的目标。在用ω更新任务模型之后，文献中的大多数方法都依赖于在验证集上计算的某种形式的性能度量，并将此度量作为元目标。这与基于验证集的超参数优化和体系结构选择的经典方法是一致的。但是，在这个框架中，有几个设计选项：
       多样本vs少样本插值设计  根据目标是提高少数或多拍的性能，每个任务的内循环学习片段可以定义为许多[67]、[89]、[91]或少数-[19]、[41]的例子。
       快速适应vs渐近性能  当验证损失在内部学习事件结束时计算时，元训练鼓励更好地完成基本任务。当它被计算为每个内部优化步骤后的验证损失之和时，元训练还鼓励在基本任务中更快地学习[76]、[89]、[91]。大多数RL应用程序也使用后一种设置。
       多任务vs单任务  当目标是优化学习者以更好地解决来自给定家庭的任何任务时，内环学习事件对应于p（T）[19]，[20]，[44]中随机抽取的任务。当目标是优化学习者以更好地解决一个特定任务时，10个内环学习事件都从相同的底层任务中提取数据[67]、[78]、[162]、[167]、[168]、[185]。
       值得注意的是，这两个元目标往往有不同的假设和价值主张。多任务目标显然需要一个任务族p（T）来处理，而单个任务不需要。同时，对于多任务，元训练的数据和计算成本可以通过在元测试中潜在地提高多个目标任务的性能来分摊；但是单任务-没有新的待分摊任务-需要改进当前任务的最终解或渐近性能，或者元学习足够快可以在线。
       在线vs离线  虽然经典的元学习管道将元优化定义为内部基础学习者的外环[19]，[78]，但一些研究试图在单个基础学习事件[44]，[167]，[185]，[186]中在线进行元优化。在这种情况下，基本模型θ和学习者ω在单个事件中共同进化。由于现在没有一组学习操作可供分摊，元学习需要比基础模型学习更快，以便提高样本或计算效率。
       其它插值设计因素  可以将其他操作符插入到事件生成管道中，以自定义特定应用程序的元学习。例如，可以在域移位[44]、[92]的情况下模拟训练和验证之间的域移位以获得良好性能的元优化；模拟训练和验证之间的量化[187]等网络压缩以获得良好的网络压缩性的元优化；在元训练期间提供噪声标签，以优化标签噪声稳健性[93]，或生成对抗性验证集，以优化对抗性防御[94]。下面的应用程序部分将更详细地探讨这些机会。

5 应用

在这一节中，我们讨论了元学习的开发方法，从应用领域（如计算机视觉和强化学习）和交叉问题（如架构搜索、超参数优化、贝叶斯和无监督元学习）的角度。

5.1 计算机视觉和图形

计算机视觉是元学习技术的主要消费领域之一。这尤其是由元学习对少样本学习的影响推动的，这种学习有希望应对在视觉上识别的概念长尾带来的挑战。

5.1.1少样本学习方法

少样本学习(Few-shot learning, FSL)具有极大的挑战性，尤其是对于大的神经网络模型，其中数据量往往是性能的主导因素，用小数据集训练大模型会导致过拟合甚至不收敛。基于元学习的少样本学习方法训练算法，使强大的深度网络能够成功地学习小数据集。有许多视觉问题，元学习有助于在少数镜头设置，我们提供一个非详尽的总结如下。
       分类  到目前为止，元学习最常见的应用是图像识别中的少镜头多类分类，其中内损失函数和外损失函数通常分别是训练和验证数据的交叉熵。以优化器为中心的、黑盒和度量学习模型都被考虑在内。相关基准见第5.1.2节。
       与早期的方法相比，这项工作已经导致性能的稳步提高。然而，性能仍然远远落后于完全监督的方法，因此还有更多的工作要做。当前的研究问题包括具有更好的跨域泛化能力的镜头模型、元训练和元测试类定义的联合标签空间内的识别[80]以及新的镜头类的增量添加。
       目标检测  在少样本分类快速发展的基础上，最近的工作也推广到了少样本目标检测[165]、[194]，通常使用基于前向超网络的方法在基本模型中嵌入支持集图像并合成最终层分类权重。
       地标预测  地标估计的目标是在图像中找到骨架关键点的位置，例如人类或机器人图像中的关节。这通常表示为图像条件回归问题。例如，基于MAML的模型被证明可用于人体姿势估计[195]，模块化金属学习被成功地应用于机器人学[130]，而基于超网络的模型则被应用于适合新时尚项目的少数镜头服装[165]。
       对象分割  由于在这一领域中获取像素级标记图像的成本较高，因此少样本对象分割是很重要的。基于超网络的元学习方法已经被证明在一次性的情况下有效[196]，并且后来通过采用典型网络改进了性能[197]。其他模型处理分割密度较低的情况[198]。
       图像生成  在[199]中，一个分期的概率元学习者被用来从一个单一的图像中生成一个物体的多个视图，通过学习快速适应的对抗模型的初始化，从很少的数据中生成说话的面孔[200]。
       视频合成  在文[201]中，作者提出了一种权值产生器，该权值产生器接收少量帧作为输入，并生成一个网络，该网络能够在给定任务的视频合成中取得很强的效果。
       密度估计  由于自回归模型通常需要较大的深度来捕捉数据的分布，因此很少的射击模式会使自身变得过于拟合，这一点尤其具有挑战性。元学习加上注意机制已经证明能够使像素在这样一种状态下发光[202]。

5.1.2 少样本学习基准

人工智能和机器学习的进展通常由精心设计的基准来衡量和推动[203]。在机器学习中，基准由一个数据集和一个模型应该很好执行的任务组成，同时从该数据集中的训练到测试实例。在元学习中，基准设计更为复杂，因为我们经常与一个学习者打交道，这个学习者应该在一组任务上接受元训练，之后应该将其概括为在以前看不见的任务上学习。因此，基准设计更加复杂，因为需要定义可以从中提取元训练和元测试任务的任务族。在本节中，我们将概述几个主要的射击基准。
       基准和设置  大多数的FSL研究都考虑了集合到集合的设置，在集合到集合的设置中，一个模型必须学会在大量的少量镜头学习任务中表现出色。每个这样的任务都由一个小的训练集（称为支持集）和一个小的验证集（称为查询集）组成，该验证集由多个类中的一些标记示例和支持集中包含的相同类的以前未看到的实例组成。学习者应该能够从支持集中提取特定于任务的信息，然后生成一个能够在查询集中很好执行的模型。跨任务知识可以通过学习能够很好地完成这项任务的学习者来学习。我们通常使用N-way K-shot任务的表示法来表示一个任务，每个任务有N个类，每个类有K个样本。
       此设置中使用了许多已建立的FSL数据集，如minimagenet[41]、tieredImageNet[204]、SlimageNet[205]、CUB-200[110]和Omniglot[86]。这些基准通过将类分解成许多较小的（较低的“方式”）识别问题来定义用于基准元训练和元测试的任务分布，从而重新利用具有相当多类的先前数据集。
       数据集多样性、偏差和泛化  虽然上述方法可以方便地生成足够的训练和评估任务，但它缺乏多样性（窄p（T））这使得在这些基准上的性能很难反映在实际的少镜头任务上的性能。例如，在迷你图像网中的不同种类的动物之间或幼鸟之间切换是对可转移性的一个相当弱的测试。理想情况下，我们希望跨越更多种类和类型的图像（卫星、医疗、农业、水下等）；甚至对元训练和元测试任务之间的域转换具有鲁棒性。
       这里还有很多工作要做，因为即使在多镜头设置中，将一个深度模型拟合到一个非常广泛的数据分布本身也是非常重要的[206]，正如将其推广到样本外数据[44]、[92]。尤其是，元学习者在源任务分布和目标任务分布之间引入域转移时的表现显著下降[110]。这激发了最近的元数据集[207]和CVPR跨域fewshot挑战[208]。元数据集聚合了许多单独的识别基准，以提供更广泛的任务p（T）分布，以评估适应更广泛的任务分布和跨域转移的概括能力。同时，[208]对从日常影像网络到医学影像、卫星影像和农业影像的推广方法提出了挑战。最近的工作已经开始尝试通过领域转移鲁棒性和样本效率的元训练来解决这些问题[173]。在将模型应用于代表性不足国家的数据时，也会出现泛化问题[209]。另一个可以促进少镜头学习者泛化研究的最新数据集是[210]，它提供了从模拟到高清晰度模拟和真实世界的跨环境样本。
       现实世界的少样本识别  最常见的少数镜头问题设置是支持集中的类之间的N路识别[19]，[20]。然而，这可能不代表实际的应用需求，因为在测试时，源和目标之间的识别都很重要。越来越多的研究[128]、[165]、[211]考虑了这种广义的少镜头设置。在一般的少数镜头设置中，其他目标包括在不忘记基类或重新访问源数据的情况下高效地增量注册新的少数镜头类[128]，[165]。其他现实世界的挑战包括在广泛研究的N=1的基础上扩大少数镜头的学习。20路识别设置，此时流行而有效的度量学习方法家族[20]，[87]开始挣扎。
       少样本目标检测  迄今为止，关于少样本检测的少数研究[165]重新使用了标准检测数据集，如COCO和Pascal VOC。然而，与分类基准相比，它们只提供了一些元训练/测试类，因此需要更多的基准。
       回归基准  不幸的是，在为少数几次回归建立共同基准方面所做的工作少于为分类所做的工作。[19]，[212]中提出了一维正弦回归等玩具问题。文献[166]考虑了从像素坐标到RGB值的回归来完成图像，一些工作回归到人体姿态和时尚感兴趣点[165]，而文献[213]考虑了人脸姿态回归的任务，附加遮挡引入模糊性。总的来说，这些任务都是分散的，元学习社区尚未就回归基准达成共识。
       非元学习少样本方法  近年来，一些非元学习方法在一些测试基准上取得了竞争性的成绩，质疑在这种环境下学习的必要性。文献[110]表明，一次完成所有基本任务的训练和对目标任务的微调是比最初报告的更强的基线，这主要是因为不公平地忽略了增强。此外，使用较深的主干可以缩小常见元学习方法之间的性能差距，并且基线可以在源任务和目标任务分布之间的较大域移位方面优于这些方法[207]——尽管较新的元学习方法在此设置中获得了良好的性能[173]。在类似的主题中，[214]表明，简单的特征转换（如L2规范化）可以使近邻分类器在没有元学习的情况下具有竞争力。因此，这里的辩论仍在继续，但总体而言，谨慎实施的基线和更为多样化的数据集是重要的，而且对于所有方法来说，保持公平和一致的最佳实践也是重要的。

5.2 元强化学习和机器人技术

强化学习通常与学习控制策略有关，与监督学习关注给定数据集的准确性相比，学习控制策略使代理在实现环境中的顺序动作任务时获得高回报。由于报酬稀少、需要探索和高方差[215]优化算法，RL通常遭受极端样本效率低下的困扰。然而，应用程序通常也自然需要元学习可以利用的任务族，例如移动到或到达不同的位置[172]、在不同的地图/环境中导航[40]或穿越不同的地形[63]、驾驶不同的汽车[171]、与不同的竞争对手竞争[61]，以及处理有不同的障碍，如机器人肢体的故障[63]。因此，RL提供了一个丰富的应用领域，其中任务分布上的metalearning在提高样本效率方面比标准RL算法取得了显著的成功。人们可以直观地了解这些方法的功效。例如，类人机器人“如何站立”的元知识对于需要移动的家庭中的所有任务都是可转移的技能，而迷宫布局的元知识对于需要在迷宫中导航的所有任务都是可转移的。

5.2.1方法

我们已经在RL中发现了一些元表示，包括学习初始条件[19]、[159]、超参数[159]、[164]、步骤方向[75]和步骤大小[163]，这使得基于梯度的学习能够以较少的环境交互训练神经策略；以及训练快速卷积[40]或递归的[22]，[106]黑箱模型嵌入到目前为止给定环境的经验，并使用它来合成一个前馈策略。最近的工作为这些任务开发了改进的元优化算法[155]、[156]、[158]，并为元RL[216]提供了理论保证。
       探究  RL特有的元表示是探索策略的元表示。由于数据分布不是固定的，而是根据代理的行为而变化，因此RL很复杂。此外，稀疏的奖励可能意味着一个代理人必须采取许多行动，才能获得奖励，可以用来指导学习。因此，如何挖掘和获取学习所需的数据是任何RL算法的关键因素。传统的探索是基于抽样随机行为[90]或手工探索启发[217]。一些meta-RL研究明确地将探索策略或好奇心功能视为元知识ω；并将其习得建模为元学习问题[24]、[170]、[171]——通过“学习如何探索”显著提高样本效率。
       优化器  值得注意的是，与SL不同的是，在SL中，优化常常导致列车集上具有完美精度的良好局部极小值；在学习到的策略远不是最优的情况下，RL通常是一个非常困难的优化问题，即使在“训练集”事件上也是如此。这意味着，与meta-SL相比，meta-RL方法更常用于提高渐进训练性能[23]、[164]、[167]以及样本效率，并且可以导致显著更好的整体解决方案。事实上，大多数元RL框架的元目标是在整个训练过程中代理的净回报，因此样本有效和渐近性能学习都会得到回报。优化困难还意味着在学习损失（或奖励）方面也有相对较多的工作[113]、[167]、[218]，RL代理应该优化学习损失（或奖励），而不是传统的稀疏奖励目标。与真正的目标[23]、[218]相比，这种元学习损失可能更容易优化（更密集、更平滑）。这也与作为奖励学习的探索联系起来，可以被认为是学习内在动机的元学习方法的实例[168]。
       在线MetaRL  我们注意到，meta-RL研究中有相当一部分涉及在线单任务设置，其中诸如丢失[113]、[167]、[164]、[168]、超参数[162]、[163]或探索策略[169]等元知识在学习单任务时与基本策略一起在线训练。因此，这些方法不需要任务族，并为各自的基础学习者提供直接的改进。
       开-关策略元RL  传统RL方法中的一个主要二分法是政策内学习和政策外学习，如PPO[90]与SAC[219]。对于传统的RL，非策略方法通常具有更高的采样效率。然而，非策略方法已经很难扩展到元RL，导致大多数元RL方法建立在基于策略的算法上，从而限制了元RL的绝对性能。最近的一些工作已经开始设计非策略方法的meta-RL泛化，结果很好[109]、[113]、[157]、[218]。值得注意的是，非策略学习也提高了元训练阶段的效率[109]，这在元RL中是非常昂贵的。它还提供了新的机会，加速元测试从元训练阶段回放缓冲样本[157]。
       其他趋势和挑战  在本节结束时，我们将提到meta-RL中的其他最新趋势。[63]值得注意的是，在真实世界的物理机器人上演示了成功的meta-RL。机器人学中的知识转移通常对组合学习有意义[220]。E、例如，行走、导航和物体拾取/放置可以是机器人清理房间的子程序。然而，发展元学习者，支持一个组合知识，转移良好是一个开放的问题，与模块化元学习[131]是一个选择。无监督的meta-RL变体旨在执行元训练，无需手动指定奖励[221]，或适应元测试，以适应变化的环境，但没有新的奖励[222]。持续适应使用元学习来为代理人提供在一个元测试集内适应一系列任务的能力[61]-[63]，这与持续学习有关。最后，元学习也被应用于模仿学习[105]和逆强化学习[223]。

5.2.2 基准

为了学习如何学习，RL的元学习基准应该定义代理要解决的一系列问题，然后评估学习者。这些可以是要完成的任务(奖励功能)，也可以是域(不同的环境或MDPs)。RL基准可以根据它们是测试连续的还是离散的控制，以及来自状态或观察(如图像)的驱动来划分。
       离散控制RL  早期的meta-RL视觉驱动控制基准是arcade learning environment（ALE）[224]，它定义了一组经典的Atari游戏，可以分为元训练和元测试。这里的典型协议是在元测试环境中计算固定时间步数后的返回。Atari games的一个问题是它们的决定论，这意味着openloop策略有可能足以解决它们，从而导致插入随机性的努力[224]。另一个挑战是游戏之间存在巨大的多样性（广泛的p（T）），这使得成功的元训练变得困难，并导致从知识转移中获益有限[224]。另一个基准[225]是基于将声波刺猬水平分解为元串/元测试。这里的任务分布更窄，有利的元学习相对容易实现。最近Cobbe等人。[226]提出了用于基准Meta-RL的两个目的设计的视频游戏。CoinRun游戏[226]提供了232个程序生成的不同难度和视觉外观级别。它们表明，要可靠地推广到新的水平，需要大约10000级的元列车经验。CoinRun的主要目的是测试直接泛化而不是快速适应，可以看作是在MDP环境中提供了一个测试泛化的分布，而不是在测试适应的任务上提供了分布。为了在更广泛的任务分布中更好地测试快速学习，ProcGen[226]提供了一组16个程序生成的游戏，包括CoinRun。
       连续控制  虽然诸如gym[227]等常用基准的使用极大地促进了RL研究，但metaRL的基准尚未达成共识，使得现有工作难以进行比较。大多数关于连续控制元- rl的研究都提出了自定义基准，这些基准是特定任务的低维参数变量，例如导航到不同的位置或速度[19][109]，或者穿越不同的地形[63]。最近提出了几个多mdp基准[228]和[229]，但这些基准主要测试不同环境扰动下的泛化，而不是元- rl中感兴趣的新任务适应。这种情况将随着元世界基准[230]的发布而得到改善，该基准提供了一套50个连续控制任务，这些任务具有基于状态的驱动，从简单的参数变量(如杠杆牵引和开门)变化而来。这个基准测试应该能够进行更具可比性的评估，并在不同宽度的任务分布内部和跨任务分布进行泛化研究。元世界评估[230]表明，现有的元- rl方法很难在广泛的任务分配和元-培训/元-测试转换上进行推广，因此需要进行更多的工作。最近另一个适合于Meta-RL的基准是PHYRE[231]，它提供了一组50个基于视觉的物理任务模板，可以通过简单的操作来解决，但是可能需要基于模型的推理来有效地解决。这些被组织成2个难度层，并提供内部和跨模板泛化测试。
       讨论  视觉驱动的元-RL的一个复杂之处是分解了视觉的泛化和适应(与更广泛的计算机视觉一样)以及更普遍的控制策略的快速学习。例如CoinRun[226]评估显示，批处理等标准视觉技术带来了巨大的好处，这表明感知是一个主要瓶颈。
       元-RL中的一个热门问题是，在对新任务进行元测试之前，很难用多任务或元学习模型来适应广泛的元训练任务分布。这可能是由于我们的RL模型太弱和/或基准在任务数量方面太小。即使是元世界、ProcGen和PHYRE也有几十个而不是几百个任务，比如像tieredImageNet这样的视力基准测试。虽然这些最新的基准正在改进，但该领域仍将受益于具有可控制的泛化差距的更大的基准。如果有难度更大的基准测试，比如需要记忆和抽象推理，也会有好处，这样可以为更抽象的策略提供机会，以便在不同任务之间进行元学习和利用。

5.3 环境学习与模拟现实

在Sim2Real中，我们感兴趣的是训练一个能够推广到现实世界的仿真模型，这是一个挑战，因为仿真与现实世界并不完全匹配。经典的域随机化方法模拟了域/mdp上的广泛分布，目的是训练一个足够健壮的模型以在现实世界中取得成功，并且在vision[232]和RL[148]中都取得了成功。然而，如何优化仿真分布是一个挑战。这自然会导致一个元学习设置，其中内部层优化在模拟中学习模型，外部层优化Lmeta评估模型在现实世界中的性能，元表示ω对应于模拟环境的参数。这个范例已经在RL[150]和计算机视觉[149]，[233]中使用。在这种情况下，用于元训练任务的源任务不是预先提供的数据分布，而是由omega、Dsource（ω）参数化的。然而，在通过一个昂贵且长的内部任务学习步骤图进行反向传播方面，以及在RL的Sim2Real元学习的情况下最小化现实世界Lmeta评估的数量方面，仍然存在挑战。

5.4 神经架构搜索（NAS）

结构搜索[26]–[28]，[39]，[123]可以看作是对应于一种超参数优化，其中ω指定了神经网络的结构。内部优化训练具有指定体系结构的网络，外部优化搜索具有良好验证性能的体系结构。NAS方法通常根据“搜索空间”、“搜索策略”和“性能估计策略”进行分析[39]。它们对应于ω的假设空间、元优化策略和元目标。NAS特别具有挑战性，因为：（i）全面评估内环通常非常昂贵，因为它需要训练多镜头神经网络才能完成。这导致了类似于14的近似，例如对列车集进行次采样、内部环路提前终止，以及最终的近似，例如在ω和θ[26]上的交错下降，如在线元学习。（二）搜索空间难以界定，优化搜索空间代价高昂。这是因为大多数搜索空间都很宽，并且表示不可微的体系结构。这导致了执行单元级搜索[26]、[28]以约束搜索空间的方法；然后依赖于RL[28]、离散梯度估计器，这些估计器提供搜索空间[26]、[124]和进化[27]、[123]的可微近似。
       例子  一些值得注意的例子包括：（i）NASNet[28]，[234]，其中搜索空间仅限于单元级学习，并定义为由RNN生成的字符串，该字符串指示应在单元树的哪些部分执行哪些操作，使用RL进行优化。（i i）再规格化进化[27]，其中作者使用NASNet的搜索空间，但使用规则化进化优化它，即基于标准锦标赛的进化，每次迭代后删除最老的个体。（iii.）飞镖[26]，其中作者仔细地将单元结构的空间作为一系列softmax选择投射到多个预先选择的操作上，从而使搜索空间可微。然后，学习体系结构就相当于联合学习softmax权重和网络参数。这使得体系结构学习在计算开销和挂钟时间上都能加快2-3个数量级。（iv）T-NAS【125】，作者利用DARTS搜索空间，但使用数据流对其进行训练，该数据流强制使用很少的数据点和很少的更新来学习体系结构，同时保持较高的泛化性能。通过学习这种softmax权重，他们实现了fewshot架构搜索。一旦训练完成，这些重量可以在几秒钟内适应新的任务，而不是几天。
       NAS的一个有趣的特例是激活函数搜索[151]。虽然人工设计的激活函数（如ReLU）在神经网络文献中占主导地位，但NAS元学习的一个成功例子是在符号激活函数空间中发现了带有RL的Swish激活函数[151]。Swish继续为几个有影响力的最新和通用CNN架构做出贡献[235]，[236]。
       多目标NAS  要部署在移动设备上的体系结构除了验证精度[7]之外还有其他限制，而且还可以部署NAS以生成紧凑高效的模型[237]。这可以通过定义一个多目标元目标来实现，该目标包含与验证性能以及给定θ的模型产品的延迟或大小相关的术语，从而导致良好的性能-成本权衡。
       意见问题  尽管NAS本身可以看作是超参数或假设类元学习的一个实例，但它也可以与其他形式的元学习交互。由于NAS的成本很高，一个热点问题是发现的体系结构是特定于数据集的，还是具有概括新问题能力的通用体系结构[234]。最近的结果表明，跨多个数据集的元训练可以改进体系结构的跨任务泛化[126]。
       虽然在手工构建的体系结构[19]、[20]、[87]的背景下，通常从参数学习的角度来处理少量镜头元学习，但也可以定义NAS元目标来训练适合少量镜头学习的体系结构[238]、[239]。此外，与快速适应初始条件元学习方法（如MAML[19]）类似，可以训练易于适应特定任务的良好初始架构[125]或架构优先级[126]。
       基准  NAS通常在CIFAR-10数据集上进行评估。然而，即使在这个小数据集上，架构搜索的执行成本也很高，使得许多研究人员无法访问它；此外，由于诸如超参数调整等其他混杂因素，结果也很难重现[240]。为了支持可重复和可访问的研究，最近发布的NASbenches[241]，[242]为大量网络架构提供了预先计算的性能度量。

5.5 贝叶斯元学习

贝叶斯元学习方法通过贝叶斯层次模型将元学习形式化，并使用贝叶斯推理进行学习，而不是直接优化参数。在元学习环境下，贝叶斯学习是典型的难处理的，因此可以使用不同的近似方法。变分方法，特别是随机变分方法是最常见的，但也可以考虑抽样方法。
       贝叶斯元学习的一个副产品是，它为θ参数提供了不确定性度量，从而提供了预测不确定性度量。了解学习者预测的不确定性在安全关键领域（如少数射击医疗任务）中是至关重要的，可用于强化学习的探索和一些主动学习方法，其中模型可以寻找具有高度不确定性的数据点信息
       近年来，许多作者探索了贝叶斯方法来处理元学习中具有竞争性结果的复杂模型。其中许多已经利用深层神经网络作为框架内的组件，例如扩展变分自动编码器来显式地建模任务变量[71]。神经过程[166]旨在将高斯过程的不确定性量化与神经网络的多功能性结合起来，但没有显示出它们在现代的少镜头基准上起作用。深核学习也是一个活跃的研究领域，它已经适应元学习环境[243]，并且经常与高斯过程耦合[213]。在文献[72]中，基于梯度的元学习被重新构造成一个层次经验贝叶斯推理问题（即先验学习），该问题对任务特定参数θ的不确定性进行建模。Bayesian-MAML[212]在该模型的基础上改进了Bayesian集成方法，该方法允许θ上的非高斯后验，随后的工作消除了对代价高昂的集成的需要[199]，[244]。在概率MAML[95]中，建模的是元知识ω中的不确定性，而对θ使用MAP估计。这些贝叶斯方法越来越多地被用来解决模糊任务、主动学习和RL问题。
       与上述方法不同，元学习也被提出用于辅助贝叶斯推理过程本身。举例来说，在[245]中，作者使用元学习框架来调整贝叶斯采样器，以提供有效的自适应采样方法。
       基准  在贝叶斯元学习中，重点通常是对我们的元学习者的预测中的不确定性进行建模，因此在标准的少镜头分类基准上的性能不一定能捕获我们关心的内容。由于这个原因，文献中出现了不同的任务。Bayesian-MAML[212]扩展了MAML[19]的正弦回归任务，使其更具挑战性。概率MAML[95]提供了一组1D玩具示例，能够显示模型的不确定性以及如何在主动学习场景中使用这种不确定性。它还从celebA[246]创建了一个二值分类任务，其中正类由两个面部属性的存在确定，但是训练图像显示三个属性，因此引入了两个属性应该分类的模糊性。结果表明，采样ω能正确反映这种模糊性。在[212]和强化学习应用程序中也显示了主动学习玩具实验，在[199]中使用了模糊的一次拍摄图像生成任务。最后，一些研究者建议观察元学习者的准确性v.s.信心（即他们的校准）[244]。

5.6 无监督元学习和元学习无监督学习

在元学习文献中，元学习主要有两种变体，即无监督学习。在第一种情况下，外环的元目标是无监督的，因此学习者本身是在没有任何标签的情况下学习的。我们称之为无监督元学习。在第二个变体中，元学习被用作学习无监督内环任务的一种方法。在这种情况下，外部目标可以是有监督的、无监督的或基于强化的任何东西。我们称之为元学习无监督学习。
无监督元学习[247]-[249]旨在放松传统的元训练源任务注释集的假设，同时仍然为有监督的少镜头学习提供良好的下游性能。典型的合成源任务是在没有监督的情况下通过聚类或保持类的数据扩充来构造的。
元学习无监督学习的目的是利用元学习来训练无监督学习算法，使其能够很好地完成下游的有监督学习任务。可以训练无监督聚类算法[21]、[250]、[251]或损失[98]、[116]，从而优化下游有监督学习性能。这有助于通过将无监督学习问题转化为具有明确（元）监督目标的问题来解决无监督学习问题的不确定性。

5.7 主动学习

元学习范式也可以用来训练主动学习，而不是像目前所讨论的那样监督或强化学习者。主动学习（AL）方法包装监督学习，并定义选择性数据注释的策略-通常在可以顺序获得注释的设置中。AL的目标是找到要标注的数据的最优子集，从而在标注最少的情况下最大限度地提高下游监督学习的性能。AL是一个研究得很好的问题，有许多手工设计的算法[252]。元学习可以将主动学习算法设计转化为一个学习任务，其方法是：将内部优化作为一个传统的有监督学习任务，将ω作为一个查询策略，选择最好的无标记数据点进行标注，或者让外部优化训练查询策略，以在给定查询和注释数据点的情况下优化对应于下游学习性能的元目标[175]–[177]。然而，对于聚类，如果使用标签来训练AL算法，则需要在任务之间进行泛化，以分摊其训练成本[177]。

5.8 持续、在线和适应性学习

不断学习  指按顺序呈现的人类学习任务的能力。理想情况下，这是在利用前向转移的同时完成的，这样新任务就可以根据过去的经验更好地学习，而不必忘记以前学习过的任务，也不需要存储所有过去的数据，以便排练时避免忘记[60]。深层神经网络很难达到这些标准，特别是当它们倾向于忘记在早期任务中看到的信息时，这种现象被称为灾难性遗忘。元学习已经被应用于改善深度网络中的持续学习。持续学习的要求可以整合到一个元目标中，例如，通过定义一系列学习事件，其中支持集包含一个新任务，但查询集包含从目前为止看到的所有任务中提取的示例[160]，[161]。通过这种元目标设计，可以训练各种元表征，从而提高持续学习的绩效。例如：权重优先[128]、梯度下降预处理矩阵[161]或RNN学习优化器[160]或特征表示[253]。
       尽管没有直接应用于持续学习，另一个有趣的想法是元训练表示来支持本地编辑[254]，其中作者学习了一个模型，该模型可以在单个样本上快速自我改进，而不会忘记已经学习到的任何信息。
       在线和适应性学习  还要考虑到达流中的任务，但要考虑有效适应流中当前任务的能力，而不是记住旧任务。为此，提出了MAML的一个在线扩展[96]，以在任务序列期间在线执行MAML风格的元训练。同时，其他人[61]-[63]考虑在meta-te之前，预先对源任务执行元训练的设置
       基准  有许多持续学习的基准，与标准的深度学习方法一起工作得很好。然而，这些基准中的大多数不能很容易地与元学习方法一起工作。他们中的大多数将需要调整他们的样本生成例程，以包括大量的显式学习集和显式评估集。在文献[96]、[160]、[253]中，一些早期的步骤被用来定义元学习准备的连续基准，主要由Omniglot和MNIST的扰动版本组成。然而，其中大多数只是为了演示一种方法而构建的任务。在[205]中可以找到更明确的基准工作，其中16个连续的少镜头学习被定义为一种需要处理的新任务类型，基准是为元学习和非元学习方法构建的。在这个设置中，一个任务由许多小的训练集组成，每个训练集可能由不同的类组成，之后学习的模型应该能够很好地概括它从所有任务中学习到的以前未看到的样本。基准测试建议使用Omniglot和SlimageNet作为要使用的数据集。

5.9 领域适应和领域概括

当部署中遇到的数据统计与训练中使用的数据统计不同时，域转移通常会在实践中阻碍机器学习模型。为了在有监督、无监督和半监督的情况下解决这个问题，人们研究了许多域自适应和泛化算法[57]。
       领域泛化  领域泛化方法旨在通过设计训练具有更强鲁棒性的模型，以训练测试领域移位[255]，通常是通过利用训练领域上的分布。元学习是支持这一目标的有效工具，它将outerloop验证集定义为相对于内环训练集具有域移位[58]。通过这种方式，可以（meta）学习不同类型的元知识，例如正则化器[92]、损失[44]和噪声增强[173]，以便最大限度地提高学习模型训练测试域移位的典型鲁棒性。
       域适应  虽然先前关于领域适应的大量工作是传统学习[57]，但最近的工作[256]也开始考虑元学习方法来促进领域适应。
       基准  DA和DG的流行基准面向不同图像类型的识别，如照片/草图/卡通。具有多个域的数据集通常用于为元学习提供域分布。PACS[257]提供了一个良好的入门基准，Visual Decathlon[44]、[206]、DomainNet[258]和Meta Dataset[207]提供了更大规模的替代方案。

5.10 超参数优化

元学习可以通过考虑ω来指定超参数，如正则化强度或学习速率来解决超参数优化问题。主要有两种设置：我们可以学习在任务分布上改进训练的超参数，或者学习在单个任务上改进学习的超参数。前一种情况通常与少数镜头应用相关，特别是在基于优化的方法中。例如，可以通过学习每一步每层的学习速率来改进MAML[76]。我们希望为单个任务学习超参数的情况通常与许多快照应用程序更为相关[145]，其中一些验证数据可以从训练数据集中提取，如第2.1节所述。长期内视野下的金属学习伴随着内存和计算缩放问题，如第6节所述，这是一个活跃的研究领域。然而，值得注意的是，与经典方法（如网格或随机搜索交叉验证、贝叶斯优化等）相比，基于端到端梯度的元学习已经证明了其对数百万个参数具有良好的可扩展性（如MAML[19]、[145]和数据集蒸馏[144]、[145]）[70]），通常只有几十个超参数才能成功。

5.11新颖且生物学上可信的学习者

大多数的元学习工作，使用显式（非前馈/黑箱）优化的基础模型是基于梯度下降的反向传播（这是最传统的深入学习工作）。元学习的一个有趣的可能性是定义学习规则ω的函数类，从而发现新的有效学习规则，这些规则可能是无监督的[21]，生物学上合理的[47]，[259]，[260]利用当代深度学习中较不常用的思想，如Hebbian更新[259]和神经调节[260]。

5.12语言和言语

语言建模。少样本语言建模是展示金属制造者多功能性的流行方式，早期的方法，如匹配网络，在一次性任务（如填充缺少的单词）中显示出令人印象深刻的性能[86]。此后，又有许多任务被处理，包括神经程序归纳[261]和合成[262]、英语到SQL程序合成[263]、基于文本的关系图提取程序[264]、机器翻译[265]和快速适应对话任务中的新角色[266]。
语音识别深度学习现在已经成为最先进的自动语音识别（ASR）的主流模式。元学习开始被应用于解决ASR中出现的许多少数镜头适应问题，包括学习如何为低资源语言进行训练[267]、跨重音适应[268]和优化单个演讲者的模型[269]。

5.13 元学习促进社会福利

元学习本身就面临着各种挑战性的任务，这些任务出现在人工智能用于社会公益的应用中，例如医学图像分类和药物发现，而这些领域的数据往往是稀缺的。鉴于全球病理学家短缺，医学领域的进展尤其重要[270]。在[5]中，一个LSTM与一个图形神经网络相结合，以预测一个分子在一次性数据区域中的行为（例如其毒性）。在[271]中，MAML适合于弱监督的乳腺癌检测任务，并且任务的顺序是根据课程而不是随机选择的。MAML还与去噪自动编码器相结合以进行医学视觉问题回答[272]，而如[204]中所做的那样学习对支持样本进行加权则适用于像素加权，以处理带有噪声标签的皮肤损伤分割任务[273]。

5.14 抽象和合成推理

抽象推理深度学习研究的一个最新目标是开发超越简单感知任务的模型，以解决更抽象的推理问题17，例如以Raven的渐进矩阵（RPMs）形式进行的智商测试[274]。求解RPMs可以看作是要求从上下文面板到答案面板进行少量的镜头概括。最近用RPMs进行抽象推理的元学习方法通过元学习获得了显著的改进教师定义了面板的数据生成分布[275]。教师与学生共同受训，并以学生的进步作为奖励，从而自动确定最佳课程。
组成学习让人类善于解决问题的一个特点是学会如何组合概念。例如，能够接受一个新学的动词，并将其与所有可能的副词一起使用。最近的元学习方法已经被证明通过在元训练期间要求查询和支持集之间的组合泛化来提高这种泛化能力[276]。这种元学习机制也有利于一些基本的挑战，例如使序列模型能够推广到比训练期间观察到的更长的测试序列[276]。

5.15 系统

网络压缩  现代cnn需要大量的内存，这可能会使嵌入式设备望而却步。因此，量化和剪枝等各种形式的网络压缩是当前的研究热点[277]、[278]。元学习也开始应用于这一目标，例如训练允许量化网络训练的梯度生成器元网络[187]和允许量化网络训练梯度的权重生成器元网络[279]。
       通讯  深度学习最近在通信系统中掀起了波澜。例如，通过学习编码系统，这些编码系统超过了针对实际信道的最佳手工设计的编码[280]。只要通过学习针对特定信道的特性调谐的编码方案来获得最佳性能，就很少有镜头元学习可用于提供编码对变化的信道特性的快速在线自适应[281]。
       标签噪声学习  利用标签噪声进行学习是当代深度学习中的一个挑战，因为大型数据集是通过网络抓取或群体资源收集的。再次，虽然有一些算法是针对这种情况手工设计的，但最近的元学习方法已经解决了标签噪声问题，方法是将样本加权到低权噪声样本[142]，或者学习对噪声标签训练鲁棒的初始条件[93]。
       对抗性攻击和防御  通过在数据中加入精心制作的人类看不见的扰动，深层神经网络很容易被愚弄到对一个应该容易识别的数据点的错误分类中[282]。近年来，大量的方法被发表，引入了更强大的攻击和防御方法。典型的防御是精心设计的架构或训练策略。与域转移的情况类似，元学习的一个未充分研究的潜在应用是通过定义在对抗攻击下的性能方面的元损失来训练学习算法的端到端鲁棒性[94]，[283]。最近提出了对抗性防御的新基准[284]，其中防御应概括为不可预见的攻击。未来的元学习方法能否在这一基准上取得进展，将是一个有趣的问题。

6 挑战和开放性问题

元-概括  元学习面临着跨任务的泛化挑战，类似于传统机器学习中跨实例泛化的挑战。有三个次级挑战：（i）第一个挑战是使元学习者适应任务p（T）的广泛分布，正如我们所看到的，这对现有方法是挑战[206]、[207]、[230]，部分原因可能是任务之间的梯度冲突[285]。（ii）第二个挑战是将元训练归纳为从p（T）引出的新的元测试任务。由于元训练的任务数量通常较低（远低于传统监督学习中的实例数量），因此很难适应复杂的任务分布，这就加剧了问题的严重性。因此，元学习者迄今为止最大的成功是在非常相似的任务家族中。（iii）第三个挑战是将元测试任务归纳为不同于训练任务的分布。这在元学习的许多潜在的实际应用中是不可避免的，例如，将很少镜头的视觉学习从ImageNet的日常训练图像推广到医学图像等专业领域[208]。从学习者的角度来看，这是领域转移问题的一个元级概括，正如在监督学习中观察到的那样。通过正则化、转移学习、领域适应和领域泛化的元泛化来解决这些问题是新兴的方向[173]。此外，我们还没有了解在某些类型的域移位下，哪种元表示倾向于更好地泛化。
       另一个有趣的方向可能是研究引入另一个级别的学习抽象如何影响泛化性能，即元元学习。通过学习如何进行元学习，也许我们可以找到元优化器，它可以很强地泛化各种类型和强度的领域，甚至模态转换。当然，计算成本会成倍增加。
       任务分配的多种形式  许多元学习框架[19]隐含地假设任务p（T）的分布是单峰的，单一的学习策略ω为它们提供了一个很好的解决方案。然而，在现实中，任务分配显然可以是多模态的。例如，在计算机视觉中，医学图像与卫星图像与日常图像。或者机器人可以被要求执行的任务的多样性，从在洞里放钉子到打开门[230]。分布中的不同任务可能需要不同的学习策略，这会降低现有元学习者的表现。在一般的多任务学习中，这一现象通过将任务分组成簇[286]或子空间[287]的方法得到了比较好的研究。然而，这一领域在元学习中才刚刚开始探索[288]。
       工作类  许多现有的元学习框架，特别是针对少数射击学习，都需要任务族进行元训练。虽然这确实反映了人类的终身学习，但在某些应用中，这类任务家庭的数据可能无法获得。如何放松这种假设是一个持续的挑战。无监督元学习[247]–[249]和在线元学习方法[44]、[162]、[167]、[168]、[185]可以帮助缓解这种情况；正如上文讨论的元泛化改进一样。
       计算成本  如第2.1节所示的两层优化的天真实现导致了二次学习步骤数，因为每个外部步骤需要多个内部步骤。而且，在许多镜头实验的情况下，存在大量的内部步骤，这些步骤需要存储在内存中。由于这个原因，大多数元学习框架在时间和内存上都非常昂贵，并且常常局限于少数镜头区域的小型架构[19]。然而，人们越来越关注解决这一问题的方法。例如，可以交替进行内部和外部更新[44]，或者训练代理模型[108]。最近的另一系列方法通过内环中的闭式解算器加速元训练[152]，[154]。然而，该方法的代价仍然相当大，而且以前的集合启发式算法对于收敛的意义还不清楚。最近一种使用隐式梯度计算外环梯度的方法提供了一种更便宜的选择[153]，但它只专注于学习MAML网络的初始化。尽管隐式梯度被证明适用于更一般的元学习任务，如学习增强网络[145]，但它们只能直接学习损失函数中涉及的参数，并做出一些假设（如θ*处的零训练梯度），通常会导致不准确的ω梯度。
       跨模式迁移与异构任务  到目前为止，大多数元学习方法都考虑了来自相同形式的任务，如视觉、文本、本体感觉状态或音频。人类似乎能够跨模式（例如，通过视觉模仿学习）传递知识。如何进行元学习，从一组任务中提取抽象知识，每个任务可能跨越一个独特的形态，这是一个开放的问题。大多数研究都涉及到同一类型任务之间的转换，例如对象识别，但理想情况下，我们希望能够在异构任务之间进行转换，例如Taskonomy[289]中研究的任务。

7 总结

最近，元学习领域的兴趣迅速增长。这带来了某种程度的混淆，涉及到它如何与邻近的领域相关，它可以应用于什么，以及如何对其进行基准测试。在本次调查中，我们试图通过从方法论的角度彻底调查该领域来澄清这些问题，我们将其分为元表示、元优化器和元目标的分类法；以及从应用的角度。我们希望这项调查能帮助新来者和实践者在这一日益增长的领域找到自己的方向，并突出未来研究的机会。

王小波_Libo

关注

4
点赞
踩
17

收藏

觉得还不错? 一键收藏
2
评论
论文阅读：Meta-Learning in Neural Networks: A Survey

题目：Meta-Learning in Neural Networks: A Survey论文地址：https://arxiv.org/abs/2004.05439作者：Timothy Hospedales, Antreas Antoniou, Paul Micaelli, Amos Storkey发表：In arXiv 2020.代码：无摘要：元学习（学会学习）领域近年来的兴趣急剧上升。与传统的人工智能方法相反，传统的人工智能方法是使用固定的学习算法从头开始解决给定的任...
复制链接

扫一扫