【综述翻译】Generalizing from a Few Examples: A Survey on Few-Shot Learning

# Generalizing from a Few Examples: A Survey on Few-Shot Learning

从少量样本中泛化:关于小样本学习的综述

引用:Wang Y, Yao Q, Kwok J T, et al. Generalizing from a few examples: A survey on few-shot learning[J]. ACM computing surveys (csur), 2020, 53(3): 1-34.
论文链接https://arxiv.org/pdf/1904.05046

Abstract 摘要

  机器学习在数据密集型应用中取得了巨大成功,但当数据集较小时,通常会受到限制。最近,小样本学习(Few-Shot Learning,FSL)被提出以应对这一问题。通过利用先验知识,FSL 能够快速泛化到只包含少量监督信息样本的新任务中。在本文中,我们进行了深入的综述,以全面了解 FSL。首先,我们从 FSL 的形式化定义入手,将其与其他相关的机器学习问题区分开来。接着,我们指出 FSL 的核心问题在于经验风险最小化器不可靠。基于如何使用先验知识来解决这个核心问题,我们从三个角度对 FSL 方法进行了分类:(i)数据层面,利用先验知识来增强监督经验;(ii)模型层面,利用先验知识来减小假设空间的大小;(iii)算法层面,利用先验知识来改变在给定假设空间中搜索最佳假设的过程。基于这一分类方法,我们回顾并讨论了每个类别的优缺点。此外,我们还提出了一些在 FSL 问题设置、技术、应用以及理论方面的潜在发展方向,为未来研究提供见解。

1 Introduction 引言

  硬件和信息技术的最新进展加速了数十亿设备在各种物联网(IoT)应用领域的互联。智能和自适应设备越来越多地部署在关键基础设施中,例如医疗、交通、工业生产、环境检测和家庭自动化。大量的终端设备每时每刻都在生成海量数据。在基于云的服务架构中,这些数据需要传送回数据中心进行集中处理和存储。尽管边缘产生的总数据量非常大,但单个设备或单个场景生成的数据集的体量却极其稀缺。传统的数据驱动和领域特定算法在少样本学习(FSL)环境下表现不佳。为此,大量研究致力于探索基于少量样本甚至跨领域场景的有效学习范式。少样本学习以及元学习,已不可避免地成为解决此类问题的有前景的方法。然而,如何有效地引入可以在仅有少量数据情况下快速泛化到新任务的先验知识仍然是最大的挑战。

  “机器能思考吗?” 这是 Alan Turing 在其 1950 年的开创性论文《计算机器与智能》1 中提出的问题。他表示:“数字计算机背后的想法可以这样解释:这些机器旨在执行任何人类计算者可以完成的操作”。换句话说,机器的最终目标是像人类一样智能。近年来,由于强大计算设备(例如 GPU 和分布式平台)的出现,大规模数据集(例如包含 1000 个类别的 ImageNet 数据 2),先进的模型和算法(例如卷积神经网络(CNN)3 和长短时记忆网络(LSTM)4),人工智能加速向人类智能靠拢,并在许多领域击败人类。例如,AlphaGo 5 在古老的围棋游戏中击败了人类冠军;残差网络(ResNet)6 在 ImageNet 上获得了比人类更好的分类性能。人工智能还在许多日常生活领域中支持智能工具的发展,如语音助手、搜索引擎、自动驾驶汽车和工业机器人。

  尽管如此,目前的人工智能技术无法从少量样本中快速泛化。前述成功的人工智能应用依赖于从大规模数据中学习。相比之下,人类能够利用过去所学知识快速学习新任务。例如,一个学会了加法的孩子可以通过少量例子(例如 2 × 3 = 2 + 2 + 2 和 1 × 3 = 1 + 1 + 1)快速将其知识迁移到学习乘法。另外一个例子是,给孩子看几张陌生人的照片,他就能很容易地从大量照片中识别出同一个人。

  缩小人工智能与人类之间的差距是一个重要的研究方向。这可以通过机器学习来解决,机器学习关注的是如何构建能随着经验自动改进的计算机程序 7 8。为了从有限数量的带监督信息的样本中学习,一种称为小样本学习(Few-Shot Learning, FSL)9 10 的新机器学习范式被提出。一个典型的例子是字符生成 11,其中计算机程序被要求在给定少量示例的情况下解析并生成新的手写字符。为了解决这一任务,可以将字符分解为可以在字符之间迁移的较小部分,然后将这些较小组件聚合成新的字符。这是一种类似人类的学习方式 12。自然地,FSL 也可以促进机器人学 13,机器人学旨在开发可以复制人类动作的机器。相关例子包括一次性模仿 14、多臂老虎机 15、视觉导航 16 和连续控制 17

  另一个经典的 FSL 场景是带监督信息的样本难以或无法获取的情况,原因可能涉及隐私、安全或伦理问题。一个典型的例子是药物发现,其试图发现新分子的特性,以便将其作为新药 18。由于可能存在毒性、低活性和低溶解度,新分子在临床候选药物中没有太多真实的生物记录。因此,从少量样本中有效学习显得尤为重要。类似的例子包括目标任务没有足够样本的 FSL 翻译 19 和冷启动项目推荐 20。通过 FSL,可以为这些稀有情况学习合适的模型。

  FSL 还可以帮助减轻收集大规模监督数据的负担。例如,虽然 ResNet [55] 在 ImageNet 上的性能超过了人类,但每个类别需要有足够的标记图像,这可能需要耗费大量精力来收集。FSL 可以减少数据密集型应用中的数据收集工作。相关的例子包括图像分类 21、图像检索 22、目标跟踪 23、手势识别 24、图像字幕生成、视觉问答 25、视频事件检测26、语言建模 21 和神经网络结构搜索 27

  在学术上为了让人工智能更接近人类,以及在工业上为了实现低成本学习,FSL 近来备受关注,并已成为一个热门话题。许多相关的机器学习方法被提出,例如元学习 16 28 29、嵌入学习 23 30 21 和生成建模 31 9 32。然而,目前还没有工作能够提供一个有组织的分类法来联系这些 FSL 方法,解释为什么某些方法有效而其他方法无效,或者讨论不同方法的优缺点。因此,在本文中,我们对 FSL 问题进行了综述。相较之下,文献 33 中的综述仅关注于小样本的概念学习和经验学习。

  本文综述的主要贡献可以概括如下:

  1. 我们对小样本学习(FSL)给出了正式的定义,这一定义与经典的机器学习定义 7 8 有着自然的联系。该定义不仅足够广泛,可以涵盖现有的 FSL 研究,还足够具体,以明确 FSL 的目标是什么,以及如何解决这些目标。这个定义对未来 FSL 领域的研究目标设定非常有帮助。

  2. 我们列出了与 FSL 相关的学习问题,并提供了具体的示例,澄清了它们与 FSL 的相关性和区别。这些讨论有助于在各种学习问题中更好地区分和定位 FSL。

  3. 我们指出了 FSL 监督学习问题的核心问题是经验风险最小化器的不可靠性,并基于机器学习中的误差分解 34 进行了分析。这为以更有条理和系统化的方式改进 FSL 方法提供了见解。

  4. 我们进行了广泛的文献回顾,并从数据、模型和算法的角度对其进行了统一分类。同时,我们对各个类别进行了总结和讨论,分析了每个类别的优缺点。这有助于更好地理解 FSL 方法。

  5. 我们针对 FSL 的问题设置、技术、应用和理论等方面提出了未来的发展方向。这些见解是基于当前 FSL 发展的不足之处,提出了未来可能的改进方向。

1.1 本综述的组织结构

  本综述的其余部分组织如下:第 2 节概述了小样本学习(FSL),包括其正式定义、相关学习问题、核心问题以及现有研究在数据、模型和算法方面的分类法。第 3 节介绍了通过扩充数据来解决 FSL 问题的方法。第 4 节介绍了通过减小假设空间的大小以使 FSL 可行的方法。第 5 节介绍了通过改变算法的搜索策略来处理 FSL 问题的方法。在第 6 节中,我们从问题设置、技术、应用和理论的角度提出了 FSL 的未来发展方向。最后,第 7 节对全文进行了总结。

1.2 符号和术语

  考虑一个学习任务 T T T,FSL 处理一个数据集 D = { D train , D test } D = \{D_{\text{train}}, D_{\text{test}}\} D={Dtrain,Dtest},其中 D train = { ( x i , y i ) } i = 1 I D_{\text{train}} = \{(x_i, y_i)\}_{i=1}^I Dtrain={(xi,yi)}i=1I是训练集,包含少量样本(即 I I I 很小),而 D test = { x test } D_{\text{test}} = \{x_{\text{test}}\} Dtest={xtest}是测试集。设 p ( x , y ) p(x, y) p(x,y) 为输入 x x x 和输出 y y y 的真实联合概率分布, h ^ \hat{h} h^ 为从 x x x y y y 的最优假设。FSL 通过拟合 D train D_{\text{train}} Dtrain 并在 D test D_{\text{test}} Dtest 上进行测试来学习并发现 h ^ \hat{h} h^。为了近似 h ^ \hat{h} h^,FSL 模型定义了一个假设空间 H H H,其中包含所有假设 h ( ⋅ ; θ ) h(\cdot; \theta) h(;θ),而 θ \theta θ 表示假设 h h h 所使用的所有参数。此处采用了参数化的 h h h,因为非参数模型通常需要大规模的数据集,因此不适合用于 FSL。FSL 算法是一种优化策略,通过搜索 H H H 来找到参数化最佳假设 h ∗ ∈ H h^* \in H hH 的参数 θ \theta θ。FSL 的性能通过一个损失函数 ℓ ( y ^ , y ) \ell(\hat{y}, y) (y^,y)来衡量,该损失函数基于预测值 y ^ = h ( x ; θ ) \hat{y} = h(x; \theta) y^=h(x;θ)和观测输出 y y y 定义。

2 概述

  在本节中,我们首先在第 2.1 节中给出了 FSL 问题的正式定义,并附带具体示例。为了将 FSL 问题与相关的机器学习问题区分开来,我们在第 2.2 节中讨论它们的相关性和区别。在第 2.3 节中,我们讨论了导致 FSL 困难的核心问题。然后,第 2.4 节根据现有研究如何处理该核心问题,提出了一个统一的分类法。

2.1 问题定义

  由于 FSL 是机器学习的一个子领域,在给出 FSL 的定义之前,让我们先回顾一下文献中对机器学习的定义。

定义 2.1 机器学习
   (机器学习 [92, 94]):如果一个计算机程序在某一任务类别 T T T 和性能度量 P P P 上,通过经验 E E E 提高其在 T T T 上由 P P P 测量的性能,则称该程序从 E E E 中学习。

  例如,考虑一个图像分类任务( T T T),一个机器学习程序可以通过在大量带标注的图像(如 ImageNet 数据集 3)上进行训练得到经验 E E E 来提高其分类准确率( P P P)。另一个例子是最近的 AlphaGo 程序 [120],它在围棋游戏( T T T)中击败了人类冠军。该程序通过在包含大约 3000 万次人类专家对局记录的数据库( E E E)上训练,以及反复与自己对弈来提高其对手的胜率( P P P)。这些示例总结在表 1 中。

表 1. 基于定义 2.1 的机器学习问题示例

task T T Texperience E E Eperformance P P P
image classification [73]large-scale labeled images for each classclassification accuracy
the ancient game of Go [120]a database containing around 30 million recorded moves of human experts and self-play recordswinning rate

  典型的机器学习应用,如上述例子,通常需要大量带监督信息的样本。然而,正如引言中提到的,这可能是困难的,甚至是不可能的。FSL 是机器学习的一个特殊案例,其目标是在训练集 D train D_{\text{train}} Dtrain 提供有限监督信息的情况下获得良好的学习性能。 D train D_{\text{train}} Dtrain 包含输入 x i x_i xi 及其相应的输出 y i y_i yi 35。我们在定义 2.2 中正式定义 FSL。

定义 2.2 小样本学习
  小样本学习(FSL)是一类机器学习问题(由 E E E T T T P P P 指定),其中 E E E 仅包含目标任务 T T T 的有限数量的带监督信息的样本。

  现有的 FSL 问题主要是监督学习问题。具体来说,小样本分类学习在每个类别只有少量标注样本的情况下学习分类器。应用示例包括图像分类 21、从短文本中进行情感分类 36 和目标识别 9。正式来说,使用第 1.2 节的符号表示,小样本分类学习一个分类器 h h h,用于预测每个输入 x i x_i xi 的标签 y i y_i yi。通常,人们会考虑 N N N-类- K K K-样本分类问题 16 21,其中 D train D_{\text{train}} Dtrain 包含来自 N N N 个类别的 I = K N I = KN I=KN 个样本,每个类别包含 K K K 个样本。小样本回归 16 17 在只有从函数中采样的少量输入-输出样本对的情况下估计回归函数 h h h,其中输出 y i y_i yi 是因变量 y y y 的观测值,输入 x i x_i xi 是自变量 x x x 的观测值。除了小样本监督学习,FSL 的另一种实例化是小样本强化学习 37 15,其目标是在只有少量由状态-动作对组成的轨迹的情况下找到一个策略。

  我们现在展示 FSL 的三个典型场景(表 2):

  1. 作为类似人类学习的测试平台
  为了向人类智能迈进,计算机程序能够解决 FSL 问题至关重要。一项常见任务 ( T T T) 是在给定少量样本的情况下生成新的字符样本 11。受人类学习方式的启发,计算机程序利用包含监督信息的给定样本和一些作为先验知识的预训练概念(例如字符部件和关系)组成的 E E E 进行学习。生成的字符通过视觉图灵测试( P P P)的通过率进行评估,该测试用于区分图像是由人类还是机器生成的。在这些先验知识的帮助下,计算机程序也可以像人类一样,通过少量样本学习分类、解析和生成新的手写字符。

  2. 为罕见情况进行学习
  当获取充足的带监督信息的样本较难或不可能时,FSL 可以为罕见情况学习模型。例如,考虑一个药物发现任务( T T T),其目标是预测新分子是否有毒性 18。通过使用来自新分子的有限生物测定和许多相似分子的生物测定作为先验知识得到的 E E E,毒性或非毒性分子正确分类的百分比( P P P)得到提升。

  3. 减少数据收集工作量和计算成本
  FSL 可以帮助减轻收集大量带监督信息的样本的负担。例如考虑小样本图像分类任务( T T T9。通过使用目标任务 T T T 中每个类别的少量标注图像以及从其他类别提取的先验知识(例如用于协同训练的原始图像)得到的 E E E,图像分类准确率( P P P)得到了提升。在这一任务中取得成功的方法通常具有较高的泛化能力,因此可以很容易地应用于包含大量样本的任务。

表 2. 基于定义 2.2 的三个 fsl 示例

task T T Texperience E E E supervised informationexperience E E E prior knowledgeperformance P P P
character generation [76]a few examples of new characterpre-learned knowledge of parts and relationspass rate of visual Turing test
drug toxicity discovery [4]new molecule’s limited assaysimilar molecules’ assaysclassification accuracy
image classification [70]a few labeled images for each class of the target T T Traw images of other classes, or pre-trained modelsclassification accuracy

  与表 1 相比,表 2 在“经验 E E E”这一列中增加了一列“先验知识”。由于 E E E 仅包含与 T T T 直接相关的少量带监督信息的样本,因此常规的监督学习方法通常无法解决 FSL 问题。因此,FSL 方法通过将 E E E 中可用的监督信息与一些先验知识相结合,使目标任务 T T T 的学习成为可能,其中先验知识是“学习者在看到样本之前对未知函数的任何了解”38。FSL 方法中的一个典型类型是贝叶斯学习 9 11,它将提供的训练集 D train D_{\text{train}} Dtrain 与在 D train D_{\text{train}} Dtrain 提供之前就可获得的某个先验概率分布相结合 35

  备注 1 E E E 中只有一个带监督信息的样本时,FSL 被称为一次性学习(one-shot learning)23 9 21。当 E E E 中不包含任何目标任务 T T T 的带监督信息的样本时,FSL 变成零样本学习问题(ZSL)39。由于目标类别不包含带监督信息的样本,ZSL 要求 E E E 中包含来自其他模态的信息(例如属性、WordNet、以及用于稀有目标识别任务的词嵌入),以便能够迁移一些监督信息,使学习成为可能。

2.2 相关学习问题

  弱监督学习40 从包含弱监督信息(如不完整、不精确、不准确或有噪声的监督信息)的经验 E E E 中学习。与 FSL 最相关的问题是具有不完整监督的弱监督学习,其中只有少量样本带有监督信息。根据是否利用了专家或人类干预,该问题可以进一步分类为以下两类:

  1. 半监督学习41,其从少量带标注样本和(通常是大量的)未标注样本组成的 E E E 中学习。典型的应用包括文本和网页分类。正-未标注学习(Positive-unlabeled learning)42 是半监督学习的一种特殊情况,其中仅提供了正样本和未标注样本。例如,在社交网络中推荐朋友时,我们只能根据好友列表得知用户的当前好友,而他们与其他人的关系是未知的。

  2. 主动学习 43,其通过选择信息量较大的未标注数据来查询专家以获得输出 y y y。这通常用于标注标签成本较高的应用中,如行人检测。根据定义,具有不完整监督的弱监督学习仅包括分类和回归问题,而 FSL 还包括强化学习问题。

  此外,具有不完整监督的弱监督学习主要将未标注数据作为 E E E 中的附加信息,而 FSL 利用各种先验知识,如预训练模型、来自其他领域或模态的监督数据,并不限于使用未标注数据。因此,只有当 FSL 的先验知识是未标注数据且任务是分类或回归时,FSL 才成为弱监督学习问题。

  不平衡学习 44 从经验 E E E 中学习,其中 y y y 的分布是倾斜的。这种情况发生在某些 y y y 的取值很少出现时,如欺诈检测和灾难预警应用中。它在所有可能的 y y y 之间进行训练和测试。而 FSL 在训练和测试中只有少量 y y y 的样本,同时可能将其他 y y y 视为学习的先验知识。

  迁移学习 45 将知识从源领域/任务(训练数据充足)转移到目标领域/任务(训练数据稀缺)。其应用包括跨领域推荐、跨时间、空间和移动设备的 WiFi 定位等。领域自适应(Domain adaptation)46 是迁移学习的一种,源任务和目标任务相同,但源领域和目标领域不同。例如,在情感分析中,源领域数据包含关于电影的客户评论,而目标领域数据包含关于日常用品的客户评论。迁移学习方法在 FSL 中被广泛使用 47 48 49,其中先验知识从源任务转移到小样本任务。

  元学习 50 通过提供的数据集和由元学习者从跨任务中提取的元知识来提高新任务 T T T 的性能度量 P P P。具体来说,元学习者逐渐学习跨任务的通用信息(元知识),而学习者则利用特定任务的信息来泛化元学习者以解决新任务 T T T。元学习在诸如学习优化器 51 52、处理协同过滤中的冷启动问题 20 和利用自然语言指导策略 53 等问题中得到了成功应用。元学习方法可用于处理 FSL 问题。正如将在第 4 和 5 节中所展示的,元学习者被视为先验知识,以指导每个具体的 FSL 任务。元学习的正式定义以及它在 FSL 问题中的应用将在附录 A 中提供。

2.3 核心问题

  在任何机器学习问题中,通常都会存在预测误差,人们无法获得完美的预测。在本节中,我们基于监督机器学习中的误差分解 34 54 来阐述 FSL 的核心问题。这一分析适用于包括分类和回归在内的 FSL 监督学习,同时也为理解 FSL 强化学习提供了见解。

2.3.1 经验风险最小化

  给定一个假设 h h h,我们希望最小化其期望风险 R R R,即相对于 p ( x , y ) p(x, y) p(x,y) 的损失。具体地,
R ( h ) = ∫ ℓ ( h ( x ) , y )   d p ( x , y ) = E [ ℓ ( h ( x ) , y ) ] . R(h) = \int \ell(h(x), y) \, dp(x, y) = \mathbb{E}[\ell(h(x), y)]. R(h)=(h(x),y)dp(x,y)=E[(h(x),y)].
由于 p ( x , y ) p(x, y) p(x,y) 是未知的,通常使用经验风险(即在训练集 D train D_{\text{train}} Dtrain I I I 个样本的损失平均值)
R I ( h ) = 1 I ∑ i = 1 I ℓ ( h ( x i ) , y i ) R_I(h) = \frac{1}{I} \sum_{i=1}^I \ell(h(x_i), y_i) RI(h)=I1i=1I(h(xi),yi)
来代替 R ( h ) R(h) R(h),这就引出了经验风险最小化 8 55(可能包含一些正则项)。为方便说明,设

  • h ^ = arg ⁡ min ⁡ h R ( h ) \hat{h} = \arg \min_h R(h) h^=argminhR(h) 为最小化期望风险的函数;
  • h ∗ = arg ⁡ min ⁡ h ∈ H R ( h ) h^* = \arg \min_{h \in H} R(h) h=argminhHR(h) 为假设空间 H H H 中最小化期望风险的函数;
  • h I = arg ⁡ min ⁡ h ∈ H R I ( h ) h_I = \arg \min_{h \in H} R_I(h) hI=argminhHRI(h) 为假设空间 H H H 中最小化经验风险的函数。

由于 h ^ \hat{h} h^ 是未知的,因此需要通过某个 h ∈ H h \in H hH 来对其进行近似。 h ∗ h^* h H H H 中对 h ^ \hat{h} h^ 最好的近似,而 h I h_I hI 是通过经验风险最小化在 H H H 中得到的最佳假设。为简单起见,我们假设 h ^ \hat{h} h^ h ∗ h^* h h I h_I hI 是唯一的。总误差可以分解为 34 54
E [ R ( h I ) − R ( h ^ ) ] = E [ R ( h ∗ ) − R ( h ^ ) ] ⏟ E app ( H ) + E [ R ( h I ) − R ( h ∗ ) ] ⏟ E est ( H , I ) , (1) \mathbb{E}[R(h_I) - R(\hat{h})] = \mathbb{E}[R(h^*) - R(\hat{h})] \underbrace{}_{\mathcal{E}_{\text{app}}(H)} + \mathbb{E}[R(h_I) - R(h^*)] \underbrace{}_{\mathcal{E}_{\text{est}}(H, I)}, \tag{1} E[R(hI)R(h^)]=E[R(h)R(h^)]Eapp(H) +E[R(hI)R(h)]Eest(H,I) ,(1)
其中期望是相对于 D train D_{\text{train}} Dtrain 的随机选择。近似误差 E app ( H ) \mathcal{E}_{\text{app}}(H) Eapp(H) 衡量 H H H 中的函数对最优假设 h ^ \hat{h} h^ 的近似程度,而估计误差 E est ( H , I ) \mathcal{E}_{\text{est}}(H, I) Eest(H,I) 衡量在 H H H 中最小化经验风险 R I ( h ) R_I(h) RI(h) 而非期望风险 R ( h ) R(h) R(h) 的影响。

  如上所示,总误差受 H H H(假设空间)和 I I I(训练集 D train D_{\text{train}} Dtrain 中样本数)的影响。换句话说,可以从以下角度尝试减少总误差:
  • 数据:提供 D train D_{\text{train}} Dtrain
  • 模型:确定 H H H
  • 算法:在 H H H 中搜索适合 D train D_{\text{train}} Dtrain 的最优 h I h_I hI

2.3.2 不可靠的经验风险最小化器

  通常情况下, E est ( H , I ) \mathcal{E}_{\text{est}}(H, I) Eest(H,I) 可以通过增加样本数量来减小 34 54 56。因此,当训练数据中带有监督信息的样本充足时(即 I I I 很大),经验风险最小化器 h I h_I hI 能够很好地逼近假设空间 H H H 中最佳的期望风险 R ( h ∗ ) R(h^*) R(h),即 R ( h I ) ≈ R ( h ∗ ) R(h_I) \approx R(h^*) R(hI)R(h)

  然而,在 FSL 中,可用样本的数量 I I I 很小。此时,经验风险 R I ( h ) R_I(h) RI(h) 可能无法很好地逼近期望风险 R ( h ) R(h) R(h),从而导致所得的经验风险最小化器 h I h_I hI 过拟合。实际上,这正是 FSL 监督学习的核心问题,即经验风险最小化器 h I h_I hI 不再可靠。因此,FSL 变得更加困难。图 1 展示了在充足和少量训练样本情况下的学习比较。

图1。充分训练样本和少数训练样本的学习比较
图1 充分训练样本和少数训练样本的学习比较

2.4 分类法

  为了缓解 FSL 监督学习中不可靠的经验风险最小化器 h I h_I hI 问题,必须利用先验知识。基于先验知识增强的方面,现有的 FSL 研究可以从以下角度进行分类(图 2):
在这里插入图片描述
图 2. fsl 方法如何解决小样本问题的不同视角

1. 数据
  这些方法利用先验知识来增强 D train D_{\text{train}} Dtrain,并将样本数量从 I I I 增加到 I ~ \tilde{I} I~,其中 I ~ ≫ I \tilde{I} \gg I I~I。随后可以在增强的数据上使用标准的机器学习模型和算法,从而获得更准确的经验风险最小化器 h I ~ h_{\tilde{I}} hI~(图 2(a))。

2. 模型
  这些方法利用先验知识来约束 H H H 的复杂性,从而得到一个更小的假设空间 H ~ \tilde{H} H~。如图 2(b) 所示,灰色区域在优化过程中不会被考虑,因为根据先验知识,它们不太可能包含最优假设 h ∗ h^* h。对于这个较小的 H ~ \tilde{H} H~ D train D_{\text{train}} Dtrain 足以学习一个可靠的 h I h_I hI 57 38 58

3. 算法
  这些方法利用先验知识来搜索参数化最佳假设 h ∗ h^* h 的参数 θ \theta θ。先验知识通过提供良好的初始化(图 2© 中的灰色三角形)或指导搜索步骤(图 2(b) 中的灰色虚线)来改变搜索策略。对于后者,最终的搜索步骤受到先验知识和经验风险最小化器的双重影响。

  因此,现有的研究工作可以归纳为一个统一的分类体系,如图 3 所示。我们将在接下来的章节中详细介绍每一类别。
在这里插入图片描述
图 3. 基于每种方法焦点的 fsl 方法的分类

3 DATA 数据

  FSL 方法在本节中利用先验知识来增强训练数据 D train D_{\text{train}} Dtrain,从而丰富经验 E E E 中的监督信息。通过增强后的样本集,数据量足够大以获取一个可靠的 h I h_I hI(图 4)。
在这里插入图片描述
图 4. 通过数据增强解决 fsl 问题

  通过手工规则进行\textbf{数据增强} 通常作为 FSL 方法的预处理步骤。这些规则可以引入模型可以捕获的各种不变性。例如,对于图像,可以使用平移 59 11 29 60、翻转 61 60、剪切 60、缩放 11 62、反射 31 63、裁剪 61 62 和旋转 29 21。然而,设计这些规则严重依赖于领域知识,并且需要昂贵的人工成本。此外,增强规则可能针对特定数据集进行定制,使其难以应用于其他数据集。同时,人类无法穷举所有可能的不变性。因此,手工数据增强无法完全解决 FSL 问题 59 31 63 11 29 60

  除了这些手工设计的规则之外,接下来我们将回顾一些更高级的数据增强方法。根据哪些样本被转换并添加到 D train D_{\text{train}} Dtrain,我们将这些方法进行了分类,如表 3 所示。

表3 FSL方法在数据角度的特征。转换器 t ( ⋅ ) t(\cdot) t() 接受输入 ( x , y ) (x, y) (x,y) 并返回合成样本 ( x ~ , y ~ ) (\tilde{x}, \tilde{y}) (x~,y~),以增强少样本数据集 D train D_{\text{train}} Dtrain

类别输入 ( x , y ) (x, y) (x,y)转换器 t t t输出 ( x ~ , y ~ ) (\tilde{x}, \tilde{y}) (x~,y~)
D train D_{\text{train}} Dtrain 转换样本原始 ( x i , y i ) (x_i, y_i) (xi,yi) x i x_i xi 学到的转换函数 ( t ( x i ) , y i ) (t(x_i), y_i) (t(xi),yi)
从弱标记或未标记的数据集中转换样本弱标记或未标记的 ( x ~ , − ) (\tilde{x}, -) (x~,) D train D_{\text{train}} Dtrain 训练的预测器 ( x ~ , t ( x ~ ) ) (\tilde{x}, t(\tilde{x})) (x~,t(x~))
从相似数据集中转换样本来自相似数据集的样本 { ( x ^ j , y ^ j ) } \{(\hat{x}_j, \hat{y}_j)\} {(x^j,y^j)}用于组合 { ( x ^ j , y ^ j ) } \{(\hat{x}_j, \hat{y}_j)\} {(x^j,y^j)} 的聚合器 ( t ( { x ^ j } ) , t ( { y ^ j } ) ) (t(\{\hat{x}_j\}), t(\{\hat{y}_j\})) (t({x^j}),t({y^j}))

3.1 转换 D train D_{\text{train}} Dtrain 中的样本

  该策略通过将每个 ( x i , y i ) ∈ D train (x_i, y_i) \in D_{\text{train}} (xi,yi)Dtrain 转换为包含变异的多个样本来增强 D train D_{\text{train}} Dtrain。转换过程作为先验知识包含在经验 E E E 中,从而生成额外的样本。一篇早期的 FSL 论文 64 从相似类别中学习了一组几何变换,通过迭代对齐每个样本与其他样本来实现。所学习的变换被应用于每个 ( x i , y i ) (x_i, y_i) (xi,yi),以形成一个大型数据集,随后可以使用标准机器学习方法对其进行学习。类似地,65 从相似类别中学习了一组自动编码器,每个编码器表示一个类内变异。通过将学习到的变异添加到 x i x_i xi 中,生成了新的样本。在 66 中,假设所有类别在样本之间共享某种可变换的变异性,学习到一个单一的转换函数,用于将从其他类别中学习到的样本对之间的变异传递到 ( x i , y i ) (x_i, y_i) (xi,yi)。在 67 中,与在样本对中枚举变异性不同,它利用从大量场景图像中学习的一组独立的属性强度回归器,将每个 x i x_i xi 转换为多个样本,并将原始 x i x_i xi 的标签分配给这些新样本。在 48 中改进了 67 的方法,使用了一个连续的属性子空间,为 x x x 添加属性变异。

3.2 从弱标注或未标注数据集中转换样本

  该策略通过从一个弱标注或未标注的大型数据集中选择带目标标签的样本来增强 D train D_{\text{train}} Dtrain。例如,在监控摄像头拍摄的照片中,可能有行人、汽车和道路,但没有标注标签。另一个例子是一段长时间演讲的视频,其中包含了演讲者的一系列手势,但没有对这些手势进行显式注释。由于这种数据集包含大量的样本变异,将其增强到 D train D_{\text{train}} Dtrain 中有助于更清晰地描绘 p ( x , y ) p(x, y) p(x,y)。此外,收集这样的数据集比较容易,因为不需要人为标注。然而,尽管收集成本较低,但一个主要问题是如何选择带目标标签的样本以增强到 D train D_{\text{train}} Dtrain 中。在 24 中,为 D train D_{\text{train}} Dtrain 中的每个目标标签学习了一个 exemplar 支持向量机(SVM),然后使用它来预测弱标注数据集中的样本标签,具有目标标签的样本被添加到 D train D_{\text{train}} Dtrain 中。在 68 中,不是学习分类器,而是直接使用标签传播来对未标注数据集进行标注。在 69 中,采用了一种渐进策略来选择信息量丰富的未标注样本。所选择的样本被赋予伪标签并用于更新卷积神经网络(CNN)。

3.3 从相似数据集中转换样本

  该策略通过从相似但规模更大的数据集中聚合和适配输入-输出对来增强 D train D_{\text{train}} Dtrain。聚合权重通常基于样本之间的某种相似性度量。在 70 中,它从一个辅助文本语料库中提取聚合权重 70。由于这些样本可能并非来自目标 FSL 类别,直接将聚合的样本增强到 D train D_{\text{train}} Dtrain 中可能会产生误导。因此,设计了一个生成对抗网络(GAN)71 来生成从大量样本数据集中聚合的难以区分的合成样本 x ~ \tilde{x} x~ 72。GAN 中有两个生成器:一个将小样本类别的样本映射到大规模类别,另一个将大规模类别的样本映射到小样本类别(以补偿 GAN 训练中样本的不足)。

3.4 讨论与总结

  选择哪种数据增强策略取决于应用场景。有时,目标任务(或类别)中存在大量弱监督或未标注样本,但由于收集带注释数据的高成本和/或计算成本(对应于第 2.1 节中引入的第三种情况),优先采用小样本学习。在这种情况下,可以通过从弱标注或未标注数据集中转换样本来进行数据增强。当难以收集大规模的未标注数据集,但小样本类别中存在一些相似类别时,可以从这些相似类别中转换样本。如果只能获得一些学习到的转换器而非原始样本,则可以通过转换 D train D_{\text{train}} Dtrain 中的原始样本来进行数据增强。

  一般来说,通过增强 D train D_{\text{train}} Dtrain 来解决 FSL 问题是直接且容易理解的。数据通过利用目标任务的先验信息进行增强。然而,通过数据增强来解决 FSL 问题的缺点在于,增强策略通常是针对每个数据集而临时设计的,很难轻松地应用于其他数据集(尤其是来自其他领域的数据集)。最近,为了解决这一问题,提出了 AutoAugment 73,它可以自动学习用于深度网络训练的数据增强策略。除此之外,现有方法主要针对图像设计,因为生成的图像可以很容易地由人类进行视觉评估。相比之下,文本和音频涉及语法和结构,更难生成。最近在使用数据增强处理文本方面的一次尝试见于 74

4 DATA 数据

  为了近似真实假设 h ^ \hat{h} h^,模型需要确定一个假设空间 H H H,其中包含一系列假设 h h h,使得最优假设 h ∗ ∈ H h^* \in H hH h ^ \hat{h} h^ 之间的距离尽可能小。

  考虑到小样本 D train D_{\text{train}} Dtrain 中样本数量有限,可以选择仅包含简单模型(例如线性分类器)的小假设空间 H H H 7 8。然而,现实世界中的问题通常非常复杂,不能被小 H H H 中的假设 h h h 所很好地表示(这可能导致公式 (1) 中的 E app ( H ) \mathcal{E}_{\text{app}}(H) Eapp(H) 较大)75。因此,在 FSL 中更倾向于选择足够大的 H H H,但这使得标准的机器学习模型变得不可行。本节中的 FSL 方法通过先验知识将 H H H 约束为较小的假设空间 H ~ \tilde{H} H~ 来进行学习(图 2(b))。此时,经验风险最小化器更可靠,过拟合的风险也降低了。

  根据所使用的先验知识,本类别中的方法可以进一步分为四种类型(表 4)。

表 4. 关注模型视角的 fsl 方法的特征

策略先验知识如何约束 H \mathcal{H} H
多任务学习其他任务 T T T 及其数据集 D D D共享/绑定参数
嵌入学习从其他任务 T T T 中学习或与其共同学习到的嵌入将样本投影到较小的嵌入空间,在该空间中相似和不相似的样本可以容易地区分
带外部记忆的学习从其他任务 T T T 中学习嵌入以与记忆进行交互使用存储在记忆中的键值对来优化样本
生成建模从其他任务 T T T 中学习到的先验模型限制分布的形式

4.1 多任务学习

  在存在多个相关任务时,多任务学习 76 77 通过利用任务通用和任务特定的信息来同时学习这些任务。因此,多任务学习可以自然地用于 FSL。本节中,我们介绍一些在 FSL 中使用多任务学习的实例。

  我们给定了 C C C 个相关任务 T 1 , … , T C T_1, \ldots, T_C T1,,TC,其中一些任务只有很少的样本,而另一些任务有大量的样本。每个任务 T c T_c Tc 具有一个数据集 D c = { D c train , D c test } D_c = \{D_c^{\text{train}}, D_c^{\text{test}}\} Dc={Dctrain,Dctest},其中 D c train D_c^{\text{train}} Dctrain 是训练集, D c test D_c^{\text{test}} Dctest 是测试集。在这 C C C 个任务中,我们将小样本任务视为目标任务,其余任务视为源任务。多任务学习通过 D c train D_c^{\text{train}} Dctrain 学习每个任务 T c T_c Tc,从而获得参数 θ c \theta_c θc。由于这些任务是联合学习的,为任务 T c T_c Tc 学习的假设 h c h_c hc 的参数 θ c \theta_c θc 受到其他任务的约束。

  根据任务参数的约束方式,我们将此策略中的方法分为以下两类:参数共享、参数绑定。

4.1.1 参数共享

  该策略直接在任务之间共享一些参数(图 5)。在 62 中,两个任务网络共享前几层以捕获通用信息,并学习不同的最终层以处理不同的输出。在78 中,两个针对法律文本的自然语言处理任务(指控预测和法律属性预测)被一起解决。一个单一的嵌入函数用于编码刑事案件描述,然后将其输入到任务特定的嵌入函数和分类器中。在 79 中,首先从源任务中预训练一个变分自编码器,然后将其克隆到目标任务。两个变分自编码器中的一些层被共享以捕获通用信息,同时允许两个任务拥有各自的任务特定层。目标任务只能更新其任务特定层,而源任务可以同时更新共享层和任务特定层。在59 中,源任务和目标任务分别学习独立的嵌入函数,将原始和生成的样本映射到任务特定空间,然后通过共享的变分自编码器进行嵌入。

在这里插入图片描述
图 5. 通过参数共享的多任务学习解决 fsl 问题

4.1.2 参数绑定

  该策略鼓励不同任务的参数( θ c \theta_c θc)相似(图 6)75。一种流行的方法是对 θ c \theta_c θc 进行正则化。在 26 中,惩罚了所有 θ c \theta_c θc 之间的成对差异。在 49 中,有一个用于源任务的 CNN,另一个用于目标任务。这两个 CNN 的层通过一些特殊设计的正则化项进行对齐。
在这里插入图片描述
图6. 通过带参数绑定的多任务学习解决fsl问题

4.2 嵌入学习

  嵌入学习 80 81 将每个样本 x i ∈ X ⊆ R d x_i \in X \subseteq \mathbb{R}^d xiXRd 嵌入到低维空间 z i ∈ Z ⊆ R m z_i \in Z \subseteq \mathbb{R}^m ziZRm,以便相似样本靠近而不相似样本易于区分。在这个低维空间 Z Z Z 中,可以构建一个较小的假设空间 H ~ \tilde{H} H~,从而需要较少的训练样本。嵌入函数主要从先验知识中学习,也可以使用来自 D train D_{\text{train}} Dtrain 的任务特定信息。

  嵌入学习包含以下关键组件:

  1. 一个函数 f f f,用于将测试样本 x test ∈ D test x_{\text{test}} \in D_{\text{test}} xtestDtest 嵌入到 Z Z Z 中;
  2. 一个函数 g g g,用于将训练样本 x i ∈ D train x_i \in D_{\text{train}} xiDtrain 嵌入到 Z Z Z 中;
  3. 一个相似性函数 s ( ⋅ , ⋅ ) s(\cdot, \cdot) s(,),用于测量 f ( x test ) f(x_{\text{test}}) f(xtest) g ( x i ) g(x_i) g(xi) Z Z Z 中的相似度。

  测试样本 x test x_{\text{test}} xtest 被分配到 x i x_i xi 所属的类别,其中嵌入 g ( x i ) g(x_i) g(xi) Z Z Z 中与 f ( x test ) f(x_{\text{test}}) f(xtest) 最相似(根据相似性度量 s s s)。尽管可以为 x i x_i xi x test x_{\text{test}} xtest 使用相同的嵌入函数,但使用两个独立的嵌入函数可能获得更高的准确率 23 21。现有嵌入学习方法的总结见表 5。

  根据嵌入函数 f f f g g g 的参数是否随任务变化,我们将这些 FSL 方法分为以下三类:

  1. 任务特定嵌入模型;
  2. 任务不变(即通用)嵌入模型;
  3. 混合嵌入模型,编码了任务特定和任务不变信息。

表5。嵌入学习方法的特点

categorymethod嵌入函数 f f f for x test x_{\text{test}} xtest嵌入函数 g g g for D train D_{\text{train}} Dtrain相似度度量 s s s
任务特定mAP-DLM/SSVM [130]CNNthe same as f f fcosine similarity
任务不变class relevance pseudo-metric [36]
convolutional siamese net [70]
Micro-Set [127]
Matching Nets [138]
resLSTM [4]
Active MN [8]
SSMN [24]
ProtoNet [121]
semi-supervised ProtoNet[108]
PMN [141]
ARC [119]
Relation Net [126]
GNN [115]
TPN [84]
SNAIL [91]
kernel
CNN
logistic projection
CNN, LSTM
CNN, LSTM
CNN
CNN
CNN
CNN
CNN, LSTM
LSTM, biLSTM
CNN
CNN, GNN
CNN
CNN
the same as f f f
the same as f f f
the same as f f f
CNN, biLSTM
GNN, LSTM
biLSTM
another CNN
the same as f f f
the same as f f f
CNN, biLSTM
the same as f f f
the same as f f f
the same as f f f
the same as f f f
the same as f f f
squared ℓ 2 \ell_2 2 distance
weighted ℓ 1 \ell_1 1 distance
ℓ 2 \ell_2 2 distance
cosine similarity
cosine similarity
cosine similarity
learned distance
squared ℓ 2 \ell_2 2 distance
squared ℓ 2 \ell_2 2 distance
cosine similarity
-
-
learned distance
Gaussian similarity
-
混合Learnet [14]
DCCN [162]
R2-D2 [13]
TADAM [100]
adaptive CNN
adaptive CNN
adaptive CNN
adaptive CNN
CNN
CNN
CNN
the same as f f f
weighted ℓ 1 \ell_1 1 distance
-
-
squared ℓ 2 \ell_2 2 distance

4.2.1 针对任务的嵌入模型

  针对任务的嵌入方法通过仅使用特定任务的信息来学习适用于该任务的嵌入函数。例如,使用任务 T c T_c Tc 的少样本数据 D ctrain D_{\text{ctrain}} Dctrain,对 D ctrain D_{\text{ctrain}} Dctrain 中的样本进行两两排名,列举所有的样本对22。因此,训练样本的数量增加,即使只使用任务特定的信息,也可以学习到嵌入函数。

4.2.2 针对任务无关的嵌入模型

  针对任务无关的嵌入方法从包含足够样本和各种输出的大规模数据集中学习通用嵌入函数,然后直接将其应用于新的少样本数据集 D train D_{\text{train}} Dtrain,无需重新训练(图7)。第一个FSL嵌入模型[36]使用核函数对样本进行嵌入。最近,更复杂的嵌入通过卷积siamese网络82被学习得到83 84

在这里插入图片描述
图 7. 通过任务不变嵌入模型解决 fsl 问题

  虽然针对任务无关的嵌入方法不会使用少样本数据集 D train D_{\text{train}} Dtrain 来更新嵌入模型的参数,但许多该类别的方法 85 30 21 在训练嵌入模型时模拟了少样本场景。假设我们有训练集 { D c } \{D_c\} {Dc},其中每个训练集包含 N N N 个类别。在每个 D c D_c Dc 中,仅使用 N N N 类中的 U U U 类样本进行训练。嵌入模型通过最大化剩余 N − U N - U NU 类的性能进行优化。因此,所学习到的模型能够在少样本任务中具有良好的泛化能力。一种早期尝试 86 { D c } \{D_c\} {Dc} 中学习线性嵌入。最近,更复杂的针对任务无关的嵌入模型通过元学习(meta-learning)方法学习到:

  1. Matching Nets [138] 及其变体 18 87 88 Matching Nets 21 通过元学习学习不同的嵌入函数( f f f g g g)来分别嵌入训练样本 x i x_i xi 和测试样本 x test x_{\text{test}} xtest。残差 LSTM(resLSTM)18 f f f g g g 提出了更好的设计。Matching Nets 的一种主动学习变体87 添加了样本选择步骤,标注最有用的未标注样本并用于扩充 D train D_{\text{train}} Dtrain。Matching Nets 还被扩展到 set-to-set 匹配88,在对样本的多个部分进行标注时很有用。

  2. Prototypical Networks (ProtoNet) 85 及其变体 89 90 91 ProtoNet 85 并不是将 f ( x test ) f(x_{\text{test}}) f(xtest) 与每一个 g ( x i ) g(x_i) g(xi) 进行比较,其中 x i ∈ D train x_i \in D_{\text{train}} xiDtrain,而是仅与 D train D_{\text{train}} Dtrain 中的类别原型进行比较。对于类别 n n n,其原型定义为 c n = 1 K ∑ i = 1 K g ( x i ) c_n = \frac{1}{K} \sum_{i=1}^{K} g(x_i) cn=K1i=1Kg(xi),其中 K K K x i x_i xi 属于类别 n n n。在实践中,这可以获得更稳定的结果并降低计算成本。在文献 91 中,将使用原型的想法引入了 Matching Nets。在文献 90 中,ProtoNet 的一种半监督变体通过软分配的方式将未标注样本分配给类别来扩充 D train D_{\text{train}} Dtrain

  3. 其他方法: 例如,注意力循环比较器(Attentive Recurrent Comparators, ARC)60 使用带有注意力机制的 LSTM 92 来比较 x test x_{\text{test}} xtest 与原型 c n c_n cn 的不同区域,并将比较结果嵌入为中间嵌入。此外,它使用双向 LSTM(biLSTM)将所有比较结果嵌入为最终嵌入。Relation Net 30 使用 CNN 将 x test x_{\text{test}} xtest x i x_i xi 嵌入到 Z Z Z 中,然后将其拼接成嵌入,再输入到另一个 CNN 中以输出相似性分数。在文献 [^84, 115] 中,图神经网络(GNN)被用于从局部邻域中提取信息。在少样本强化学习应用中(如连续控制和视觉导航),时序信息很重要。简单神经注意力学习器(Simple Neural AttentIve Learner, SNAIL) 93 是一种嵌入网络,包含交替的时序卷积层和注意力层。时序卷积层用于从过去的时间步中聚合信息,而注意力层选择性地关注与当前输入相关的特定时间步。

4.2.3 混合嵌入模型

  针对任务的嵌入方法通过仅使用特定任务的信息来学习适用于该任务的嵌入函数。例如,使用任务 T c T_c Tc 的少样本数据 D ctrain D_{\text{ctrain}} Dctrain,对 D ctrain D_{\text{ctrain}} Dctrain 中的样本进行两两排名,列举所有的样本对[130]。因此,训练样本的数量增加,即使只使用任务特定的信息,也可以学习到嵌入函数。虽然针对任务无关的嵌入方法可以以较低的计算成本应用于新任务,但它们无法利用当前任务的特定知识。当任务的特殊性导致 D train D_{\text{train}} Dtrain 中仅包含少量样本时(例如学习稀有情况),简单地应用任务无关的嵌入函数可能并不合适。为了缓解这个问题,混合嵌入模型利用 D train D_{\text{train}} Dtrain 中的任务特定信息来调整从先验知识中学习到的通用任务无关嵌入模型。这是通过学习一个函数来完成的,该函数将从 D train D_{\text{train}} Dtrain 中提取的信息作为输入,并返回一个嵌入,该嵌入作为 f ( ⋅ ) f(\cdot) f() 的参数(图8)。

在这里插入图片描述
图8.混合嵌入模型求解fsl问题

  Learnet 23 通过结合 D train D_{\text{train}} Dtrain 的特定信息,改进了任务无关的卷积 siamese 网络 83。它从多个元训练集学习一个元学习器,并将每个训练样本 x i ∈ D train x_i \in D_{\text{train}} xiDtrain 映射到学习器的参数(一个卷积 siamese 网络)。这样, f ( ⋅ ) f(\cdot) f() 的参数随给定的 x i x_i xi 而变化,从而产生混合嵌入。在 Learnet 的基础上改进后,文献 94 用岭回归替代了学习器的分类层,从而可以以封闭形式高效地获得参数。以下两项工作 89 95 D train D_{\text{train}} Dtrain 作为整体来输出 f ( ⋅ ) f(\cdot) f() 的任务特定参数。任务相关自适应度量(Task Dependent Adaptive Metric, TADAM)[100] 将类别原型平均成任务嵌入,并使用一个元学习函数将其映射到 ProtoNet 的参数。动态条件卷积网络(Dynamic Conditional Convolutional Network, DCCN)95 使用固定的一组滤波器,并利用 D train D_{\text{train}} Dtrain 学习其组合系数。

4.3 使用外部存储器进行学习

  使用外部存储器进行学习 96 97 98 99 D train D_{\text{train}} Dtrain 中提取知识,并将其存储在外部存储器中(图9)。然后,每个新样本 x test x_{\text{test}} xtest 由从存储器中提取的内容的加权平均值表示。这将 x test x_{\text{test}} xtest 限制为只能由存储器中的内容表示,从而本质上减少了 H H H 的大小。
在这里插入图片描述
图9. 通过使用外部存储器来解决FSL问题。本图展示了一个简化的例子,其中嵌入函数 f f f 用于表示学习,存储器将 f ( x i ) f(x_i) f(xi) 作为键,并输出标签 y i y_i yi

  在 FSL(Few-Shot Learning)中,通常使用键值存储器 [89]。设存储器为 M ∈ R b × m M \in \mathbb{R}^{b \times m} MRb×m,其 b b b 个存储槽 M ( i ) ∈ R m M(i) \in \mathbb{R}^m M(i)Rm 中的每一个都由一个键值对 M ( i ) = ( M key ( i ) , M value ( i ) ) M(i) = (M_{\text{key}}(i), M_{\text{value}}(i)) M(i)=(Mkey(i),Mvalue(i)) 组成。测试样本 x test x_{\text{test}} xtest 首先由嵌入函数 f f f 嵌入。然而,与嵌入方法不同的是, f ( x test ) f(x_{\text{test}}) f(xtest) 并未直接作为 x test x_{\text{test}} xtest 的表示。相反,它仅用于根据 f ( x test ) f(x_{\text{test}}) f(xtest) 和每个键 M key ( i ) M_{\text{key}}(i) Mkey(i) 之间的相似度 s ( f ( x test ) , M key ( i ) ) s(f(x_{\text{test}}), M_{\text{key}}(i)) s(f(xtest),Mkey(i)) 来查询最相似的存储槽。最相似存储槽的值( M value ( i ) M_{\text{value}}(i) Mvalue(i))被提取并组合,以形成 x test x_{\text{test}} xtest 的表示。随后,这个表示被用作简单分类器(如 softmax 函数)的输入来进行预测。由于对 M M M 的操作开销较大, M M M 通常具有较小的尺寸。当 M M M 未被填满时,可以将新样本写入空的存储槽中;而当 M M M 被填满时,则需要决定替换哪些存储槽。表6介绍了使用外部存储器的方法的特征。

表 6. 基于带外部记忆学习的小样本学习(FSL)方法的特征。其中, f f f 是一个通常由 CNN 或 LSTM 预训练的嵌入函数

类别方法记忆 M M M
key M key M_{\text{key}} Mkey
记忆 M M M
value M value M_{\text{value}} Mvalue
相似度 s s s
优化表征MANN [114]
APL [104]
abstraction memory[149]
CMN [164]
life-long memory [65]
Mem2Vec[125]
f ( x i , y i − 1 ) f(x_i, y_{i-1}) f(xi,yi1)
f ( x i ) f(x_i) f(xi)
f ( x i ) f(x_i) f(xi)
f ( x i ) f(x_i) f(xi)
f ( x i ) f(x_i) f(xi)
f ( x i ) f(x_i) f(xi)
f ( x i , y i − 1 ) f(x_i, y_{i-1}) f(xi,yi1)
y i y_i yi
word embedding of y i y_i yi
y_i$ age
y_i$ age
word embedding of y i y_i yi age
cosine similarity
squared ℓ 2 \ell_2 2 distance
dot product
dot product
cosine similarity
dot product
优化参数MetaNet [96]
CSNs [97]
MN-Net [22]
f ( x i ) f(x_i) f(xi)
f ( x i ) f(x_i) f(xi)
f ( x i ) f(x_i) f(xi)
fast weight
fast weight
y_i$
cosine similarity
cosine similarity
dot product

  由于每个 x test x_{\text{test}} xtest 都被表示为从存储器中提取的值的加权平均,因此存储器中键值对的质量非常重要。根据存储器的功能,此类别中的 FSL 方法可以细分为两种类型。

4.3.1 细化表示

  以下方法将 D train D_{\text{train}} Dtrain 小心地存入存储器,以便存储的键值对可以更准确地表示 x test x_{\text{test}} xtest。记忆增强神经网络(Memory-Augmented Neural Networks, MANN) 29 通过元学习嵌入 f f f,并将同类样本映射到相同的值。同类样本可以一起在存储器中细化其类表示。该类表示可以视为 ProtoNet 85 中细化后的类原型。基于惊讶(surprise-based)的存储模块 100 仅在 M M M 无法很好地表示某个 x i x_i xi 时更新 M M M。因此,使用此 x i x_i xi 更新 M M M 可以使其更具表现力,同时降低计算成本。抽象存储器 101 使用两个存储器:一个从包含大规模机器标注数据集的固定存储器中提取相关的键值对,另一个细化提取的值并抽象出最有用的信息用于少样本(图像)分类。这个想法在 102 中被扩展到少样本视频分类。

  沿着这条思路,一些方法特别关注在存储器中保护少样本类别。请注意,少样本类别较小,因此在 M M M 中保留的概率较低。 M M M 中的每个少样本也很容易被来自更丰富类别的样本所替代。为缓解此问题,提出了终身存储(lifelong memory) 19。与之前的存储器 100 29 101 102 在跨任务时擦除存储内容不同,终身存储在存储器满时删除“最旧的”存储值。此时,所有存储槽的年龄被重置为零。对于新样本,当返回的 M value ( i ) M_{\text{value}}(i) Mvalue(i) 值与其真实输出相匹配时,它将与当前 M key ( i ) M_{\text{key}}(i) Mkey(i) 合并,而不是被写入新的存储槽。因此,更有可能所有类别占据相等数量的存储槽,并且稀有类别得到保护。最近,这种终身存储被应用于学习词表示 103

  然而,即使使用终身存储,稀有样本仍然可能被遗忘。在每次更新后,终身存储将选定的 M ( i ) M(i) M(i) 的年龄重置为零,并将其他非空存储槽的年龄增加一。存储器满且返回的值错误时,最旧的存储槽被替换。由于稀有类样本很少更新其 M ( i ) M(i) M(i),它们更有可能被擦除。

4.3.2 细化参数

  回顾 Learnet 23 及其变体(详见第 4.2.3 节),它们将 D train D_{\text{train}} Dtrain 中的信息映射为嵌入函数 g ( ⋅ ) g(\cdot) g() 的参数,用于新的 x test x_{\text{test}} xtest。这些参数可以通过存储器进行细化。元网络(Meta Networks, MetaNet) 104 使用一个“慢”权重和一个“快”权重来参数化分类模型,其中“慢”权重由多个数据集进行元学习,而“快”权重是 D train D_{\text{train}} Dtrain 的任务特定嵌入。如 105 所示,MetaNet 的计算成本可以通过学习修改每个神经元而非完整参数来降低。MN-Net 106 使用一个存储器来细化在 Matching Nets 中学习到的嵌入,该嵌入的输出用来像在 Learnet 中一样参数化 CNN。

4.4 生成式建模

  生成式建模方法利用先验知识从观察到的 x i x_i xi 中估计概率分布 p ( x ) p(x) p(x)(图10)。对 p ( x ) p(x) p(x) 的估计通常涉及对 p ( x ∣ y ) p(x | y) p(xy) p ( y ) p(y) p(y) 的估计。该类方法可以处理许多任务,例如生成 31 11 107 108识别 31 9 109 11 32 110 111,重构 109 和图像翻转 107
在这里插入图片描述
图 10. 通过生成建模解决 FSL 问题

  在生成式建模中,观察到的 x x x 被假设为从某个由参数 θ \theta θ 表示的分布 p ( x ; θ ) p(x; \theta) p(x;θ) 中抽取出来。通常情况下,存在一个隐变量 z ∼ p ( z ; γ ) z \sim p(z; \gamma) zp(z;γ),使得 x ∼ ∫ p ( x ∣ z ; θ ) p ( z ; γ ) d z x \sim \int p(x | z; \theta) p(z; \gamma) dz xp(xz;θ)p(z;γ)dz。由其他数据集学习到的先验分布 p ( z ; γ ) p(z; \gamma) p(z;γ) 引入了对 FSL 至关重要的先验知识。通过将所提供的训练集 D train D_{\text{train}} Dtrain p ( z ; γ ) p(z; \gamma) p(z;γ) 相结合,生成的后验概率分布受到约束。换句话说, H H H 被限制在一个更小的 H ~ \tilde{H} H~ 范围内。

  根据隐变量 z z z 所代表的内容,我们将这些 FSL 生成式建模方法分为三类。

4.4.1 可分解组件

  虽然在 FSL 问题中带有监督信息的样本稀缺,但它们可能与来自其他任务的样本共享一些较小的可分解组件。例如,考虑仅使用几张人脸照片进行人物识别。虽然很难找到完全相似的人脸,但可以很容易找到具有类似眼睛、鼻子或嘴巴的照片。通过大量样本,可以轻松学习这些可分解组件的模型。然后,只需找到这些可分解组件的正确组合,并确定该组合属于哪个目标类别。由于可分解组件由人类选择,因此这种策略更具可解释性。贝叶斯一次学习(Bayesian One-Shot)9 使用生成模型来捕获可分解组件(如物体的形状和外观)与目标类别(如要识别的物体)之间的交互。贝叶斯程序学习(Bayesian Program Learning, BPL)11 通过将字符分解为类型、标记、模板、部件和基本元素来建模字符。为了生成一个新字符,需要在包含这些组件的大组合空间中进行搜索。在 11 中,通过仅考虑最有可能的组合来降低推理成本。在自然语言处理中,最近的一个工作 112 对跨度(spans)进行建模,而不是完整的解析树,并通过为每个跨度训练独立的分类器来适应句法上相距较远的领域。

4.4.2 基于组的共享先验

  通常,相似任务具有相似的先验概率,这可以在 FSL 中得到利用。例如,考虑对“橘猫”、“豹”和“孟加拉虎”进行三类分类。这三个物种是相似的,但孟加拉虎是濒危物种,而橘猫和豹则很常见。因此,可以从“橘猫”和“豹”中学习先验概率,并将其用作少样本类“孟加拉虎”的先验。

  在 32 中,一组数据集 { D c } \{D_c\} {Dc} 通过无监督学习被分组为一个层次结构。每个组中的数据集共同学习类先验概率。对于一个新的少样本类,首先找到其所属的组,然后通过从组的共享先验概率中抽取的类先验对其进行建模。在 110 中,通过使用深度玻尔兹曼机(deep Boltzmann machines)11332 中的特征学习步骤进行了进一步改进。

4.4.3 推理网络的参数

  为了找到最优的 θ \theta θ,需要最大化后验概率
p ( z ∣ x ; θ , γ ) = p ( x , z ; θ , γ ) p ( x ; γ ) = p ( x ∣ z ; θ ) p ( z ; γ ) ∫ p ( x ∣ z ; θ ) p ( z ; γ ) d z . (2) p(z | x; \theta, \gamma) = \frac{p(x, z; \theta, \gamma)}{p(x; \gamma)} = \frac{p(x | z; \theta) p(z; \gamma)}{\int p(x | z; \theta) p(z; \gamma) dz}. \tag{2} p(zx;θ,γ)=p(x;γ)p(x,z;θ,γ)=p(xz;θ)p(z;γ)dzp(xz;θ)p(z;γ).(2)
由于分母中的积分,使得求解 (2) 变得不可行。通常使用从数据中学习到的变分分布 q ( z ; δ ) q(z; \delta) q(z;δ) 来近似 p ( z ∣ x ; θ , γ ) p(z | x; \theta, \gamma) p(zx;θ,γ)。最近, q ( z ; δ ) q(z; \delta) q(z;δ) 通过推理网络的自适应变分推理(amortized variational inference)来进行近似 114。虽然 z z z 不再具有语义意义,但通过这些深度模型学习到的强大表示可以带来更好的性能。一旦学得推理网络,就可以直接应用于新的任务,这更加高效,并且需要较少的人类知识。由于推理网络包含大量参数,通常使用一些辅助的大规模数据集来训练它。许多经典的推理网络被适用于 FSL 问题。例如,变分自编码器(variational auto-encoder, VAE)11531 116 108 中被使用,自动回归模型(autoregressive model)117107 中被使用,生成对抗网络(generative adversarial networks, GAN)71111 中被使用,并且在 109 中提出了 VAE 和 GAN 的结合。

4.5 讨论与总结

  当存在类似任务或辅助任务时,多任务学习(multitask learning)可以用于约束少样本任务的 H H H。但需要注意的是,要求所有任务共同进行联合训练。因此,当一个新的少样本任务到来时,需要对整个多任务模型重新训练,这可能成本高且速度慢。此外, D D D D c D_c Dc 的大小不应相当,否则少样本任务可能会被具有大量样本的任务淹没。

  当存在包含各种类别的足够样本的大规模数据集时,可以使用嵌入学习(embedding learning)方法。这些方法将样本映射到一个良好的嵌入空间,其中不同类别的样本可以很好地分开,因此所需的 H ~ \tilde{H} H~ 更小。然而,当少样本任务与其他任务不密切相关时,这些方法可能效果不佳。此外,更多关于如何混合任务的不变信息和特定信息的探索也将有所帮助。

  当可用存储网络时,可以通过在存储器之上训练一个简单模型(如分类器)来直接用于少样本学习。通过使用精心设计的更新规则,可以有选择地保护存储槽。这一策略的弱点在于它带来了额外的空间和计算成本,且随着存储大小的增加而增加。因此,当前的外部存储器具有有限的大小。

  最后,当除了少样本学习以外还希望执行生成和重建任务时,可以使用生成式模型。这些模型从其他数据集中学习先验概率 p ( z ; γ ) p(z; \gamma) p(z;γ),从而将 H H H 降低到更小的 H ~ \tilde{H} H~。学到的生成式模型也可以用于生成样本以进行数据增强。然而,生成式建模方法具有较高的推理成本,且比确定性模型更难以推导。

5 算法

  算法是一种在假设空间 H H H 中搜索最佳假设 h ∗ h^* h 的参数 θ \theta θ 的策略 34 54。在第 t t t 次迭代中, θ t = θ t − 1 + Δ θ t − 1 \theta_t = \theta_{t-1} + \Delta \theta_{t-1} θt=θt1+Δθt1,其中 Δ θ t − 1 \Delta \theta_{t-1} Δθt1 是参数的更新。例如,对于常用的随机梯度下降(SGD)及其变体 34 54 θ \theta θ 的更新方式为
θ t = θ t − 1 − α t ∇ θ t − 1 ℓ ( h ( x t ; θ t − 1 ) , y t ) , (3) \theta_t = \theta_{t-1} - \alpha_t \nabla_{\theta_{t-1}} \ell(h(x_t; \theta_{t-1}), y_t), \tag{3} θt=θt1αtθt1(h(xt;θt1),yt),(3)
其中 α t \alpha_t αt 是步长。在 θ \theta θ 由初始值 θ 0 \theta_0 θ0 开始时, θ t \theta_t θt 可以写为
θ t = θ 0 + ∑ i = 1 t Δ θ i − 1 . (4) \theta_t = \theta_0 + \sum_{i=1}^t \Delta \theta_{i-1}. \tag{4} θt=θ0+i=1tΔθi1.(4)
当监督信息丰富时,有足够的训练样本来更新 θ \theta θ,并通过交叉验证找到合适的步长 α \alpha α。然而,在 FSL 中,所提供的小样本 D train D_{\text{train}} Dtrain 不够大,因此得到的经验风险最小化器并不可靠。

  本节中的方法使用先验知识来影响 θ \theta θ 的获取方式,具体来说可以通过 (i) 提供一个良好的初始参数 θ 0 \theta_0 θ0,或 (ii) 直接学习一个优化器来输出搜索步骤。根据先验知识如何影响搜索策略,我们将本节中的方法分为以下三组(表 7):

  1. 微调现有参数。从其他任务中学习初始参数 θ 0 \theta_0 θ0,然后使用 D train D_{\text{train}} Dtrain 进行微调。

  2. 微调元学习参数。初始参数 θ 0 \theta_0 θ0 是从一组与小样本任务具有相同任务分布的任务中元学习得来的,然后由学习者使用 D train D_{\text{train}} Dtrain 进一步微调。

  3. 学习优化器。该策略将元学习者视为优化器,直接输出每个学习者的搜索步骤,例如改变搜索方向或步长。

表 7. 从算法角度分析的小样本学习(FSL)方法的特征

策略先验知识如何在 H \mathcal{H} H 中搜索 h ∗ h^* h 的参数 θ \theta θ}
优化现有参数学习到的 θ 0 \theta_0 θ0通过 D train D_{\text{train}} Dtrain 优化 θ 0 \theta_0 θ0
优化元学习参数元学习器通过 D train D_{\text{train}} Dtrain 优化 θ 0 \theta_0 θ0
学习优化器元学习器使用元学习器提供的搜索步骤

5.1 微调现有参数

  该策略将从相关任务中学习的预训练模型的初始参数 θ 0 \theta_0 θ0 视为良好的初始化,并通过 D train D_{\text{train}} Dtrain 对其进行调整,使其适应目标任务的参数 θ \theta θ。这种方法的假设是, θ 0 \theta_0 θ0 捕获了大规模数据的一些通用结构。因此,可以通过少量迭代将其调整到目标数据 D D D

5.1.1 通过正则化微调现有参数

  该策略通过正则化对预训练参数 θ 0 \theta_0 θ0 进行微调以适应小样本任务(图 11),并且在实际中被广泛使用。在 118 中,一个预训练用于 ImageNet 图像分类的 CNN 使用大型数据集进行了前景分割微调,然后使用单一分割对象的样本对目标分割进行进一步微调。由于 D train D_{\text{train}} Dtrain 中的样本数量有限,直接通过梯度下降微调 θ 0 \theta_0 θ0 可能会导致过拟合。因此,如何在不对 D train D_{\text{train}} Dtrain 过拟合的情况下调整 θ 0 \theta_0 θ0 是一个关键的设计问题。
在这里插入图片描述
图11 通过正则化微调现有参数 θ 0 \theta_0 θ0 解决 FSL 问题

  在本节中,方法通过正则化来微调 θ 0 \theta_0 θ0 以防止过拟合,可以分为以下几类:

  1. 提前停止 需要从 D train D_{\text{train}} Dtrain 中分离出一个验证集来监控训练过程。当验证集上不再有性能提升时,停止学习 [6]。
  2. 选择性地更新 θ 0 \theta_0 θ0 为了避免过拟合,仅更新 θ 0 \theta_0 θ0 的一部分。例如,在 119 中,给定一组预训练的滤波器,仅学习与滤波器相乘的强度参数。
  3. 一起更新 θ 0 \theta_0 θ0 的相关部分 可以将 θ 0 \theta_0 θ0 的元素(例如深度神经网络中的神经元)进行分组,并使用相同的更新信息对每个组进行联合更新。在 120 中,预训练 CNN 的滤波器根据一些辅助信息被聚类在一起,然后使用 D train D_{\text{train}} Dtrain 通过分组反向传播进行微调。
  4. 使用模型回归网络 模型回归网络 121 捕获任务无关的转换,将在少量样本上训练得到的参数值映射到在大量样本上训练得到的参数值。同样地,在 63 中,学习到一个将 x i x_i xi 的嵌入映射到分类决策边界的转换函数。

5.1.2 聚合一组参数

  有时我们没有合适的 θ 0 \theta_0 θ0 作为起点,而是拥有从相关任务中学习到的许多模型参数。例如,在面部识别中,我们可能已经拥有眼睛、鼻子和耳朵的识别模型。因此,可以将这些模型参数聚合到一个合适的模型中,然后直接使用或通过 D train D_{\text{train}} Dtrain 进行微调(图 12)。
在这里插入图片描述
图12 通过聚合一组参数 θ 0 \theta_0 θ0 形成 θ \theta θ 解决 FSL 问题。在提供了一组预训练的 θ 0 \theta_0 θ0 后,只需学习组合权重(蓝线)

  正如第 3 节所讨论的,来自未标注数据集(第 3.2 节)和相似标注数据集(第 3.3 节)的样本可以用来增强小样本 D train D_{\text{train}} Dtrain。而不是直接使用这些样本,以下方法使用从这些数据集中预训练的模型(参数为 θ 0 \theta_0 θ0),然后问题变成如何利用 D train D_{\text{train}} Dtrain 高效地将这些模型适应到新任务上。

  1. 未标注数据集 尽管没有监督信息,但可以将相似的样本分组。因此,可以从未标注数据集中预训练函数,以便对样本进行良好的聚类和分离。然后使用神经网络将其适应到包含小样本 D train D_{\text{train}} Dtrain 的新任务中 122 121
  2. 相似数据集123 中,通过利用来自相似类别的样本和分类器执行小样本目标分类。首先,它用新类别的特征替换这些相似类别样本的特征。然后,重用学习到的分类器,仅调整分类阈值以适应新类别。在 124 36 中,他们学习了如何使用 D train D_{\text{train}} Dtrain 来组合从相似数据集中学习到的现有参数。

5.1.3 使用新参数微调现有参数

  预训练的 θ 0 \theta_0 θ0 可能不足以完全编码新的 FSL 任务。因此,引入额外的参数 δ \delta δ 来考虑 D train D_{\text{train}} Dtrain 的特性(图 13)。具体而言,该策略将模型参数扩展为 θ = { θ 0 , δ } \theta = \{\theta_0, \delta\} θ={θ0,δ},在学习 δ \delta δ 的同时微调 θ 0 \theta_0 θ0。在 125 中,它使用预训练的 CNN 的较低层作为特征嵌入,并使用 D train D_{\text{train}} Dtrain 在嵌入特征上学习一个线性分类器。在字体风格转换 47 中,首先预训练一个网络以捕获灰度图像中的字体样式。为了生成风格化的彩色字体,这个网络会与额外网络的训练一起进行微调。
在这里插入图片描述
图13 通过使用新参数微调现有参数 θ 0 \theta_0 θ0 解决 FSL 问题

5.2 微调元学习参数

  本节中的方法使用元学习来微调元学习得到的参数 θ 0 \theta_0 θ0(图 14)。与第 5.1 节中 θ 0 \theta_0 θ0 固定不同,这里的 θ 0 \theta_0 θ0 会由元学习者根据学习者的性能不断优化。

在这里插入图片描述
图14 通过优化元学习参数 θ 0 \theta_0 θ0 解决 FSL 问题

  元学习得到的 θ 0 \theta_0 θ0 通常通过梯度下降进行微调。一种代表性的方法是模型无关的元学习(Model-Agnostic Meta-Learning,MAML)[37]。它进行元学习得到 θ 0 \theta_0 θ0,然后通过一些有效的梯度下降步骤将其调整为适合某个任务 T s ∼ P ( T ) T_s \sim P(T) TsP(T) 的任务特定参数 ϕ s \phi_s ϕs,即:
ϕ s = θ 0 − α ∇ θ 0 L train ( θ 0 ) , \phi_s = \theta_0 - \alpha \nabla_{\theta_0} L_{\text{train}}(\theta_0), ϕs=θ0αθ0Ltrain(θ0),
其中 L train ( θ 0 ) L_{\text{train}}(\theta_0) Ltrain(θ0) D train D_{\text{train}} Dtrain 中训练样本的损失之和, α \alpha α 是步长。需要注意的是, ϕ s \phi_s ϕs 对样本的排列不变。元学习得到的参数 θ 0 \theta_0 θ0 通过来自多个元训练任务的反馈进行更新,即
θ 0 ← θ 0 − β ∇ θ 0 E T s ∼ P ( T ) L test ( θ 0 ) , \theta_0 \leftarrow \theta_0 - \beta \nabla_{\theta_0} \mathbb{E}_{T_s \sim P(T)} L_{\text{test}}(\theta_0), θ0θ0βθ0ETsP(T)Ltest(θ0),
其中 L test ( θ 0 ) L_{\text{test}}(\theta_0) Ltest(θ0) D test D_{\text{test}} Dtest 中测试样本的损失之和, β \beta β 是另一个步长。通过不断使用 D train D_{\text{train}} Dtrain 中的小样本来微调 θ 0 \theta_0 θ0,元学习者可以改进其 θ 0 \theta_0 θ0,以便快速适应小样本训练集。

  最近,MAML 已经得到了许多改进,主要包括以下三个方面:

  1. 结合任务特定信息 MAML 为所有任务提供相同的初始化。然而,这忽略了任务特定的信息,仅适用于任务集合非常相似的情况。为了解决这个问题,126 中学习如何从一个好的初始化参数子集中选择 { θ 0 } \{\theta_0\} {θ0} 以适应新任务。
  2. 建模元学习参数 θ 0 \theta_0 θ0 的不确定性 使用少量样本进行学习不可避免地会导致模型具有更高的不确定性 127。因此,学习到的模型可能无法对新任务进行高置信度的预测。衡量这种不确定性的能力为主动学习和进一步的数据收集提供了线索 127。一些工作考虑了元学习参数 θ 0 \theta_0 θ0 的不确定性 127 17,任务特定参数 ϕ s \phi_s ϕs 的不确定性 128 129,以及类别 n n n 的类别特定参数 ϕ s , n \phi_{s,n} ϕs,n 的不确定性 130
  3. 改进微调过程 仅通过少量的梯度下降步骤进行微调可能并不可靠。可以使用正则化来校正下降方向。在 131 中,模型回归网络 121 被用来正则化任务 T s T_s Ts ϕ s \phi_s ϕs,使其接近于使用大规模样本训练得到的模型。

5.3 学习优化器

  在第 5.2 节中,元学习者 θ 0 \theta_0 θ0 作为数据 D D D 中任务 T ∼ P ( T ) T \sim P(T) TP(T) 的良好初始化,并通过一些有效的梯度下降步骤调整为任务特定参数 ϕ \phi ϕ。相比之下,本节中的方法并不使用梯度下降,而是学习一个能够直接输出更新(即方程 (4) 中的 ∑ i = 1 t Δ θ i − 1 \sum_{i=1}^t \Delta \theta_{i-1} i=1tΔθi1)的优化器(图 15)。因此,不需要调节步长 α \alpha α 或搜索方向,因为学习算法会自动执行这些操作。

在这里插入图片描述
图15.通过学习优化器来解决fsl问题

  在第 t t t 次迭代中,这一系列工作 51 28 学习一个元学习者,该学习者在第 t − 1 t-1 t1 次迭代中计算误差信号,直接输出更新 Δ ϕ t − 1 \Delta \phi_{t-1} Δϕt1 来更新学习者的任务特定参数 ϕ t − 1 \phi_{t-1} ϕt1,即 ϕ t = ϕ t − 1 + Δ ϕ t − 1 . \phi_t = \phi_{t-1} + \Delta \phi_{t-1}. ϕt=ϕt1+Δϕt1.因此,与第 5.1 和第 5.2 节中提到的策略相比,这一策略为新任务提供了一个优化器(由学习者优化)。然后, ϕ t \phi_t ϕt 用于计算损失 ℓ t ( ϕ t ) = ℓ ( h ( x t ; ϕ t ) , y t ) , \ell_t (\phi_t) = \ell(h(x_t ; \phi_t), y_t), t(ϕt)=(h(xt;ϕt),yt),其中 ( x t , y t ) ∈ D train (x_t, y_t) \in D_{\text{train}} (xt,yt)Dtrain 是第 t t t 个样本,该损失作为误差信号在下一次迭代中输入到元学习者中。在学习任务之后,元学习者通过在测试集 D test D_{\text{test}} Dtest 上的损失进行梯度下降来得到改进。通过从 P ( T ) P(T) P(T) 中抽取的一组 T s T_s Ts 学习,元学习者可以为 FSL 提供更高效的算法。最近,28 中通过 LSTM 的细胞状态更新来实例化方程 (3),其中 ϕ \phi ϕ 被设置为 LSTM 的细胞状态。

5.4 讨论与总结

  微调现有参数可以减少在 H H H 中的搜索工作量。通过将现有的 θ 0 \theta_0 θ0 作为初始化,这些方法通常需要较低的计算成本即可获得 H H H 中的良好假设 h h h。学习的重点在于微调这些现有参数。然而,由于 θ 0 \theta_0 θ0 是从与当前任务不同的任务中学习到的,因此这种策略可能会为追求速度而牺牲精度。

  另外两种策略依赖于元学习。通过从一组相关任务中学习,元学习得到的 θ 0 \theta_0 θ0 可以更接近于新任务 T t T_t Tt 的任务特定参数 ϕ t \phi_t ϕt。通过元学习者学习搜索步骤可以直接指导学习算法。换句话说,元学习者充当了优化器。然而,一些重要问题仍未解决,例如如何在不同粒度(例如动物的粗粒度分类与狗种类的细粒度分类)或不同数据源(如图像与文本)之间进行元学习 132。从这个角度来看,元学习和多任务学习是相似的,因此也存在如何避免负迁移的问题 133

6 未来工作

  在本节中,我们讨论 FSL 进一步发展的四个关键方向,即 (i) 问题设置,(ii) 技术,(iii) 应用,以及 (iv) 理论。

6.1 问题设置

  现有的 FSL 方法通常只利用来自单一模态(如图像、文本或视频)的先验知识。然而,尽管 D train D_{\text{train}} Dtrain 中当前使用的模态只有少量样本,可能存在另一模态,其中包含丰富的监督样本。例如,在对灭绝动物的研究中,虽然此物种可能只有有限的视觉样本,但在文本领域(如教科书或网页)中可能有大量相关信息,因为人们往往对稀有类别给予特别关注。因此,多模态的先验知识可以提供互补视角。在零样本学习(ZSL)中,多模态数据已被频繁使用。示例先验信息包括属性 134 135、WordNet 134 135、词嵌入 70 136、共现统计 137 和知识图谱 138

  最近,有一些工作尝试将 ZSL 方法中的技术借用到 FSL 问题中。例如,可以使用小样本 D train D_{\text{train}} Dtrain 对 ZSL 方法学习的参数进行微调 134 135。然而,使用少量样本进行微调可能导致过拟合。另一种可能性是强制多模态学习到的嵌入在共享空间中匹配 70 136。最近的一个研究 139 利用标签之间的结构化关系,并使用 GNN 来对齐 FSL 的嵌入。由于不同模态可能包含不同的结构,因此需要仔细处理。例如,文本需要遵守语法结构,而图像则不需要。在未来,一个有希望的方向是考虑在设计 FSL 方法时使用多模态信息。

6.2 技术

  在之前的章节中,根据 FSL 中先验知识的使用方式,我们从数据(第 3 节)、模型(第 4 节)和算法(第 5 节)的角度对 FSL 方法进行了分类。每个组件都有改进的空间。例如,使用最先进的 ResNet 6 作为嵌入函数可能比使用 VGG 140 更好。

  基于元学习的 FSL 方法,如第 4 节和第 5 节所述,特别有趣。通过跨任务学习,元学习可以以较小的推理成本快速适应新任务。然而,元学习中考虑的任务通常假设来自单一任务分布 p ( T ) p(T) p(T)。在实际中,我们可能有大量任务,其任务相关性未知或难以确定。在这种情况下,直接从所有这些任务中学习可能导致负迁移 133。此外,当前 FSL 方法通常考虑静态和固定的 P ( T ) P(T) P(T) 16 28。然而,在流应用中, p ( T ) p(T) p(T) 是动态的 141,并且新任务不断出现。因此,这一点也应该纳入 p ( T ) p(T) p(T) 的考虑。一个重要的问题是在动态设置中如何避免灾难性遗忘 142,即不应遗忘关于旧任务的信息。

  正如前面章节所讨论的,不同的 FSL 方法各有优缺点,没有一种方法在所有设置中都是绝对赢家。此外,假设空间 H H H H H H 中的搜索策略通常依赖于人工设计。自动化机器学习(AutoML)143 通过构建任务感知的机器学习模型,在许多应用中取得了最先进的效果。最近,AutoML 已被用于数据增强 73。另一个方向是将自动化特征工程 144、模型选择 145 和神经结构搜索 146 的 AutoML 方法扩展到 FSL。这样,可以通过 AutoML 以经济、高效和有效的方式获得更好的算法设计。

6.3 应用

  回顾一下,由于样本稀缺、减少数据收集成本和计算成本,或者作为模拟人类学习的跳板,FSL 在许多实际应用中得到了需求。计算机视觉是 FSL 算法最早的测试平台之一。FSL 还在许多其他应用中引起了广泛关注,例如机器人学、自然语言处理和声学信号处理。总的来说,FSL 在许多有趣的领域和应用中值得进一步探索。

6.3.1 计算机视觉

  大多数现有的工作都将 FSL 问题应用于计算机视觉领域。两个最流行的应用是字符识别 23 10 16 19 83 104 32 29 60 85 22 21 147 和图像分类 16 83 104 28 60 85 86 22 148 21 122 121 101。在标准基准数据集(如 Omniglot 和 miniImageNet)上已经获得了很高的准确率,留给进一步改进的空间不多 132。最近,构建了一个来自多个图像数据源的大型多样化基准数据集 132。除了字符识别和图像分类之外,还考虑了其他图像应用。这些包括目标识别 9 10 48、字体风格转移 47、短语定位 95、图像检索 22、目标跟踪 23、图像中特定目标计数 95、场景位置识别 67、手势识别 24、部位标注 88、图像生成 31 11 107 108、跨领域的图像翻译 59、3D 目标的形状视图重建 109、以及图像字幕生成和视觉问答 25

  FSL 也成功地应用于视频领域,包括运动预测 131、视频分类 102、动作定位 149、人物再识别 69、事件检测 26 和目标分割 118

6.3.2 机器人学

  为了让机器人行为更像人类,它们应该能够从少量示范中泛化。因此,FSL 在机器人学中发挥了重要作用。例如,通过单次示范使用模仿学习来学习机器人手臂运动 14,以及在教师纠正错误动作的帮助下从少量示范中学习操作动作 150

  除了模仿用户,机器人还可以通过与用户的交互来改善其行为。最近,辅助策略通过 FSL 强化学习从少量交互中学习到 151。FSL 在机器人学中的其他示例包括多臂老虎机问题 15、视觉导航 15 16、以及连续控制 16 93 17。最近,这些应用进一步扩展到动态环境中 37 152

6.3.3 自然语言处理

  最近,FSL 在自然语言处理领域引起了人们的关注。示例应用包括解析 112、翻译 19、句子补全(从提供的词集中填充空白)105 21、从短评中进行情感分类 84 36、对话系统中的用户意图分类 36、犯罪指控预测 78、词相似度任务(如一次性定义)153 103,以及多标签文本分类 139。最近,发布了一个新的关系分类数据集 FewRel 154,以弥补 FSL 在自然语言处理任务中基准数据集的不足。

6.3.4 声学信号处理

  除了早期尝试通过 FSL 从一个样本中识别语音单词 155 之外,最近的努力集中在语音合成上。一个流行的任务是从用户的少量音频样本中进行语音克隆 156。这可以用于在地图应用中生成个性化语音导航,或者在智能家居工具包中模仿父母在讲故事时的声音。最近,已经可以通过一次性语音或文本样本实现从一个用户到另一个用户的语音转换 157,甚至跨不同语言的语音转换 158

6.3.5 其他应用

  例如,在医学应用的背景下,最近的一项尝试是小样本药物发现 18。在深度网络学习方面,一次性结构搜索(OAS)在 27 159 160 中进行了研究。与需要多次运行以找到最佳架构的随机搜索和网格搜索不同,OAS 方法可以通过一次训练超网找到良好的架构。FSL 还被用于曲线拟合 127 128 29 17,以及通过逻辑推理理解数字类比以执行计算 100

6.4 理论

  FSL 使用先验知识来弥补监督信息的不足。这与样本复杂度的理论研究有关,样本复杂度是指在高概率下获得经验风险 R I ( h ) R_I(h) RI(h) 较小的模型所需的训练样本数量 7 8。为了使所提供的 I I I 个样本足够, H H H 需要不那么复杂。回顾一下,FSL 方法利用先验知识来增强更多样本(即增加 I I I),约束 H H H(即降低 H H H 的复杂性),并改变搜索策略(即增加找到良好 h h h 的概率)。这表明 FSL 方法可以利用先验知识来降低所需的样本复杂度。对这一方面的详细分析将非常有用。

  此外,回顾一下,FSL 与领域自适应有关 49 79 24,而现有的领域自适应理论界限可能带来启发 46 161。例如,最近的分析表明,通过微调前馈神经网络可以获得更好的风险界限 162。考虑一种特定的元学习方法时,研究了将训练于一个任务的模型迁移到另一个任务的风险 163。然而,到目前为止,只有少数方法得到了研究,仍然有很多理论问题值得探索。

  最后,对于 FSL 算法的收敛性尚未完全理解。特别是,元学习方法在任务分布上优化 θ \theta θ,而不是针对单个任务。最近在 164 中的分析为一种元学习方法的收敛性提供了充分条件。元学习者学习深度网络的较低层,而学习者则学习最后一层,所有过程均使用梯度下降。对元学习方法的收敛性进行更一般的分析将会非常有用。

7 结论

  小样本学习(Few-Shot Learning, FSL)旨在缩小 AI 与人类学习之间的差距。通过结合先验知识,它可以学习包含少量带监督信息样本的新任务。FSL 既可以作为 AI 的测试平台,也可以实现对稀有案例的学习,或有助于减轻工业应用中收集大规模监督数据的负担。在本综述中,我们对 FSL 进行了全面而系统的回顾。我们首先正式定义了 FSL,并讨论了 FSL 与相关学习问题(如弱监督学习、不平衡学习、迁移学习和元学习)的联系与区别。接着,我们指出 FSL 的核心问题在于不可靠的经验风险最小化器,这使得 FSL 难以学习。理解这一核心问题有助于根据 FSL 如何利用先验知识解决核心问题,将不同的工作分为数据、模型和算法三类:数据增强了 FSL 的监督经验,模型约束了 FSL 的假设空间以使其更小,算法则改变了在给定假设空间中寻找最佳假设的搜索策略。在每个类别中,我们对各自的优缺点进行了详细讨论,并提出了一些总结和见解。为了激发 FSL 领域未来的研究,我们还提供了在问题设置、技术、应用和理论方面的可能探索方向。


  1. M. A. Turing. “Computing machinery and intelligence.” Mind 59, 236 (1950), 433–433. ↩︎

  2. J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. “ImageNet: A large-scale hierarchical image database.” In Conference on Computer Vision and Pattern Recognition, 2009. 248–255. ↩︎

  3. A. Krizhevsky, I. Sutskever, and G. E. Hinton. “ImageNet classification with deep convolutional neural networks.” In Advances in Neural Information Processing Systems, 2012. 1097–1105. ↩︎ ↩︎

  4. S. Hochreiter and J. Schmidhuber. “Long short-term memory.” Neural Computation 9, 8 (1997), 1735–1780. ↩︎

  5. D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. Van Den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, et al. “Mastering the game of Go with deep neural networks and tree search.” Nature 529, 7587 (2016), 484–489. ↩︎

  6. K. He, X. Zhang, S. Ren, and J. Sun. “Deep residual learning for image recognition.” In Conference on Computer Vision and Pattern Recognition, 2016. 770–778. ↩︎ ↩︎

  7. M. T. Mitchell. Machine Learning. McGraw-Hill, 1997. ↩︎ ↩︎ ↩︎ ↩︎

  8. M. Mohri, A. Rostamizadeh, and A. Talwalkar. Foundations of Machine Learning. MIT Press, 2018. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  9. L. Fei-Fei, R. Fergus, and P. Perona. “One-shot learning of object categories.” IEEE Transactions on Pattern Analysis and Machine Intelligence 28, 4 (2006), 594–611. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  10. M. Fink. “Object classification from a single example utilizing class relevance metrics.” In Advances in Neural Information Processing Systems, 2005. 449–456. ↩︎ ↩︎ ↩︎

  11. B. M. Lake, R. Salakhutdinov, and J. B. Tenenbaum. “Human-level concept learning through probabilistic program induction.” Science 350, 6266 (2015), 1332–1338. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  12. B. M. Lake, T. D. Ullman, J. B. Tenenbaum, and S. J. Gershman. “Building machines that learn and think like people.” Behavioral and Brain Sciences 40 (2017). ↩︎

  13. J. J. Craig. “Introduction to Robotics: Mechanics and Control.” Pearson Education India, 2009. ↩︎

  14. Y. Wu and Y. Demiris. “Towards one shot learning by imitation for humanoid robots.” In International Conference on Robotics and Automation, 2010. 2889–2894. ↩︎ ↩︎

  15. Y. Duan, M. Andrychowicz, B. Stadie, J. Ho, J. Schneider, I. Sutskever, P. Abbeel, and W. Zaremba. “One-shot imitation learning.” In Advances in Neural Information Processing Systems, 2017. 1087–1098. ↩︎ ↩︎ ↩︎ ↩︎

  16. C. Finn, P. Abbeel, and S. Levine. “Model-agnostic meta-learning for fast adaptation of deep networks.” In International Conference on Machine Learning, 2017. 1126–1135. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  17. J. Yoon, T. Kim, O. Dia, S. Kim, Y. Bengio, and S. Ahn. “Bayesian model-agnostic meta-learning.” In Advances in Neural Information Processing Systems, 2018. 7343–7353. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  18. H. Altae-Tran, B. Ramsundar, A. S. Pappu, and V. Pande. “Low data drug discovery with one-shot learning.” ACS Central Science 3, 4 (2017), 283–293. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  19. Ł. Kaiser, O. Nachum, A. Roy, and S. Bengio. “Learning to remember rare events.” In International Conference on Learning Representations, 2017. ↩︎ ↩︎ ↩︎ ↩︎

  20. M. Vartak, A. Thiagarajan, C. Miranda, J. Bratman, and H. Larochelle. “A meta-learning perspective on cold-start recommendations for items.” In Advances in Neural Information Processing Systems, 2017. 6904–6914. ↩︎ ↩︎

  21. O. Vinyals, C. Blundell, T. Lillicrap, D. Wierstra, et al. “Matching networks for one shot learning.” In Advances in Neural Information Processing Systems, 2016. 3630–3638. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  22. E. Triantafillou, R. Zemel, and R. Urtasun. “Few-shot learning through an information retrieval lens.” In Advances in Neural Information Processing Systems, 2017. 2255–2265. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  23. L. Bertinetto, J. F. Henriques, J. Valmadre, P. Torr, and A. Vedaldi. “Learning feed-forward one-shot learners.” In Advances in Neural Information Processing Systems, 2016. 523–531. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  24. T. Pfister, J. Charles, and A. Zisserman. “Domain-adaptive discriminative one-shot learning of gestures.” In European Conference on Computer Vision, 2014. 814–829. ↩︎ ↩︎ ↩︎ ↩︎

  25. X. Dong, L. Zhu, D. Zhang, Y. Yang, and F. Wu. “Fast parameter adaptation for few-shot image captioning and visual question answering.” In ACM International Conference on Multimedia, 2018. 54–62. ↩︎ ↩︎

  26. W. Yan, J. Yap, and G. Mori. “Multi-task transfer methods to improve one-shot learning for multimedia event detection.” In British Machine Vision Conference, 2015. ↩︎ ↩︎ ↩︎

  27. A. Brock, T. Lim, J. M. Ritchie, and N. Weston. “SMASH: One-shot model architecture search through hypernetworks.” In International Conference on Learning Representations, 2018. ↩︎ ↩︎

  28. S. Ravi and H. Larochelle. “Optimization as a model for few-shot learning.” In International Conference on Learning Representations, 2017. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  29. A. Santoro, S. Bartunov, M. Botvinick, D. Wierstra, and T. Lillicrap. “Meta-learning with memory-augmented neural networks.” In International Conference on Machine Learning, 2016. 1842–1850. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  30. F. Sung, Y. Yang, L. Zhang, T. Xiang, P. H. Torr, and T. M. Hospedales. “Learning to compare: Relation network for few-shot learning.” In Conference on Computer Vision and Pattern Recognition, 2018. 1199–1208. ↩︎ ↩︎ ↩︎

  31. H. Edwards and A. Storkey. “Towards a neural statistician.” In International Conference on Learning Representations, 2017. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  32. R. Salakhutdinov, J. Tenenbaum, and A. Torralba. “One-shot learning with a hierarchical nonparametric Bayesian model.” In ICML Workshop on Unsupervised and Transfer Learning, 2012. 195–206. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  33. J. Shu, Z. Xu, and D. Meng. “Small sample learning in big data era.” arXiv preprint arXiv:1808.04572 (2018). ↩︎

  34. L. Bottou and O. Bousquet. “The tradeoffs of large scale learning.” In Advances in Neural Information Processing Systems, 2008. 161–168. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  35. C. M. Bishop. Pattern Recognition and Machine Learning. Springer, 2006. ↩︎ ↩︎

  36. M. Yu, X. Guo, J. Yi, S. Chang, S. Potdar, Y. Cheng, G. Tesauro, H. Wang, and B. Zhou. “Diverse few-shot text classification with multiple metrics.” In Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2018. 1206–1215. ↩︎ ↩︎ ↩︎ ↩︎

  37. M. Al-Shedivat, T. Bansal, Y. Burda, I. Sutskever, I. Mordatch, and P. Abbeel. “Continuous adaptation via meta-learning in nonstationary and competitive environments.” In International Conference on Learning Representations, 2018. ↩︎ ↩︎

  38. S. Mahadevan and P. Tadepalli. “Quantifying prior determination knowledge using the PAC learning model.” Machine Learning 17, 1 (1994), 69–105. ↩︎ ↩︎

  39. C. H. Lampert, H. Nickisch, and S. Harmeling. “Learning to detect unseen object classes by between-class attribute transfer.” In Conference on Computer Vision and Pattern Recognition, 2009. 951–958. ↩︎

  40. Z.-H. Zhou. “A brief introduction to weakly supervised learning.” National Science Review 5, 1 (2017), 44–53. ↩︎

  41. X. J. Zhu. “Semi-supervised learning literature survey.” Technical Report. University of Wisconsin-Madison Department of Computer Sciences, 2005. ↩︎

  42. X.-L. Li, P. S. Yu, B. Liu, and S.-K. Ng. “Positive unlabeled learning for data stream classification.” In SIAM International Conference on Data Mining, 2009. 259–270. ↩︎

  43. B. Settles. “Active learning literature survey.” Technical Report. University of Wisconsin-Madison Department of Computer Sciences, 2009. ↩︎

  44. H. He and E. A. Garcia. “Learning from imbalanced data.” IEEE Transactions on Knowledge and Data Engineering 9 (2008), 1263–1284. ↩︎

  45. S. J. Pan and Q. Yang. “A survey on transfer learning.” IEEE Transactions on Knowledge and Data Engineering 10, 22 (2010), 1345–1359. ↩︎

  46. S. Ben-David, J. Blitzer, K. Crammer, and F. Pereira. “Analysis of representations for domain adaptation.” In Advances in Neural Information Processing Systems, 2007. 137–144. ↩︎ ↩︎

  47. S. Azadi, M. Fisher, V. G. Kim, Z. Wang, E. Shechtman, and T. Darrell. “Multi-content GAN for few-shot font style transfer.” In Conference on Computer Vision and Pattern Recognition, 2018. 7564–7573. ↩︎ ↩︎ ↩︎

  48. B. Liu, X. Wang, M. Dixit, R. Kwitt, and N. Vasconcelos. “Feature space transfer for data augmentation.” In Conference on Computer Vision and Pattern Recognition, 2018. 9090–9098. ↩︎ ↩︎ ↩︎

  49. Z. Luo, Y. Zou, J. Hoffman, and L. Fei-Fei. “Label efficient learning of transferable representations across domains and tasks.” In Advances in Neural Information Processing Systems, 2017. 165–177. ↩︎ ↩︎ ↩︎

  50. S. Hochreiter, A. S. Younger, and P. R. Conwell. “Learning to learn using gradient descent.” In International Conference on Artificial Neural Networks, 2001. 87–94. ↩︎

  51. M. Andrychowicz, M. Denil, S. Gomez, M. W. Hoffman, D. Pfau, T. Schaul, and N. de Freitas. “Learning to learn by gradient descent by gradient descent.” In Advances in Neural Information Processing Systems, 2016. 3981–3989. ↩︎ ↩︎

  52. K. Li and J. Malik. “Learning to optimize.” In International Conference on Learning Representations, 2017. ↩︎

  53. J. D. Co-Reyes, A. Gupta, S. Sanjeev, N. Altieri, J. DeNero, P. Abbeel, and S. Levine. “Meta-learning language-guided policy learning.” In International Conference on Learning Representations, 2019. ↩︎

  54. L. Bottou, F. E. Curtis, and J. Nocedal. “Optimization methods for large-scale machine learning.” SIAM Rev. 60, 2 (2018), 223–311. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  55. V. N. Vapnik. “Principles of risk minimization for learning theory.” In Advances in Neural Information Processing Systems, 1992. 831–838. ↩︎

  56. J. Friedman, T. Hastie, and R. Tibshirani. The Elements of Statistical Learning, Vol. 1. Springer series in statistics New York, 2001. ↩︎

  57. P. Germain, F. Bach, A. Lacoste, and S. Lacoste-Julien. “PAC-Bayesian theory meets Bayesian inference.” In Advances in Neural Information Processing Systems, 2016. 1884–1892. ↩︎

  58. H. Nguyen and L. Zakynthinou. “Improved algorithms for collaborative PAC learning.” In Advances in Neural Information Processing Systems, 2018. 7631–7639. ↩︎

  59. S. Benaim and L. Wolf. “One-shot unsupervised cross domain translation.” In Advances in Neural Information Processing Systems, 2018. 2104–2114. ↩︎ ↩︎ ↩︎ ↩︎

  60. P. Shyam, S. Gupta, and A. Dukkipati. “Attentive recurrent comparators.” In International Conference on Machine Learning, 2017. 3173–3181. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  61. H. Qi, M. Brown, and D. G. Lowe. “Low-shot learning with imprinted weights.” In Conference on Computer Vision and Pattern Recognition, 2018. 5822–5830. ↩︎ ↩︎

  62. Y. Zhang, H. Tang, and K. Jia. “Fine-grained visual categorization using meta-learning optimization with sample selection of auxiliary data.” In European Conference on Computer Vision, 2018. 233–248. ↩︎ ↩︎ ↩︎

  63. J. Kozerawski and M. Turk. “CLEAR: Cumulative learning for one-shot one-class image recognition.” In Conference on Computer Vision and Pattern Recognition, 2018. 3446–3455. ↩︎ ↩︎ ↩︎

  64. E. G. Miller, N. E. Matsakis, and P. A. Viola. “Learning from one example through shared densities on transforms.” In Conference on Computer Vision and Pattern Recognition, Vol. 1, 2000. 464–471. ↩︎

  65. E. Schwartz, L. Karlinsky, J. Shtok, S. Harary, M. Marder, A. Kumar, R. Feris, R. Giryes, and A. Bronstein. “Delta-encoder: An effective sample synthesis method for few-shot object recognition.” In Advances in Neural Information Processing Systems, 2018. 2850–2860. ↩︎

  66. B. Hariharan and R. Girshick. “Low-shot visual recognition by shrinking and hallucinating features.” In International Conference on Computer Vision, 2017. ↩︎

  67. R. Kwitt, S. Hegenbart, and M. Niethammer. “One-shot learning of scene locations via feature trajectory transfer.” In Conference on Computer Vision and Pattern Recognition, 2016. 78–86. ↩︎ ↩︎ ↩︎

  68. M. Douze, A. Szlam, B. Hariharan, and H. Jégou. “Low-shot learning with large-scale diffusion.” In Conference on Computer Vision and Pattern Recognition, 2018. 3349–3358. ↩︎

  69. Y. Wu, Y. Lin, X. Dong, Y. Yan, W. Ouyang, and Y. Yang. “Exploit the unknown gradually: One-shot video-based person re-identification by stepwise learning.” In Conference on Computer Vision and Pattern Recognition, 2018. 5177–5186. ↩︎ ↩︎

  70. Y. H. Tsai and R. Salakhutdinov. “Improving one-shot learning through fusing side information.” arXiv preprint arXiv:1710.08347 (2017). ↩︎ ↩︎ ↩︎ ↩︎

  71. I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. “Generative adversarial nets.” In Advances in Neural Information Processing Systems, 2014. 2672–2680. ↩︎ ↩︎

  72. H. Gao, Z. Shou, A. Zareian, H. Zhang, and S. Chang. “Low-shot learning via covariance-preserving adversarial augmentation networks.” In Advances in Neural Information Processing Systems, 2018. 983–993. ↩︎

  73. E. D. Cubuk, B. Zoph, D. Mane, V. Vasudevan, and Q. V. Le. “AutoAugment: Learning augmentation policies from data.” In Conference on Computer Vision and Pattern Recognition, 2019. 113–123. ↩︎ ↩︎

  74. J. Wei and K. Zou. “EDA: Easy data augmentation techniques for boosting performance on text classification tasks.” In Conference on Empirical Methods in Natural Language Processing and International Joint Conference on Natural Language Processing, 2019. 6383–6389. ↩︎

  75. I. Goodfellow, Y. Bengio, and A. Courville. Deep Learning. MIT Press, 2016. ↩︎ ↩︎

  76. R. Caruana. “Multitask learning.” Machine Learning 28, 1 (1997), 41–75. ↩︎

  77. Y. Zhang and Q. Yang. “A survey on multi-task learning.” arXiv preprint arXiv:1707.08114 (2017). ↩︎

  78. Z. Hu, X. Li, C. Tu, Z. Liu, and M. Sun. “Few-shot charge prediction with discriminative legal attributes.” In International Conference on Computational Linguistics, 2018. 487–498. ↩︎ ↩︎

  79. S. Motiian, Q. Jones, S. Iranmanesh, and G. Doretto. “Few-shot adversarial domain adaptation.” In Advances in Neural Information Processing Systems, 2017. 6670–6680. ↩︎ ↩︎

  80. Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. “Caffe: Convolutional architecture for fast feature embedding.” In ACM International Conference on Multimedia, 2014. 675–678. ↩︎

  81. M. D. Spivak. A Comprehensive Introduction to Differential Geometry. Publish or Perish, 1970. ↩︎

  82. J. Bromley, I. Guyon, Y. LeCun, E. Säckinger, and R. Shah. “Signature verification using a ‘siamese’ time delay neural network.” In Advances in Neural Information Processing Systems, 1994. 737–744. ↩︎

  83. G. Koch. “Siamese neural networks for one-shot image recognition.” Ph.D. Dissertation, University of Toronto, 2015. ↩︎ ↩︎ ↩︎ ↩︎

  84. L. Yan, Y. Zheng, and J. Cao. “Few-shot learning for short text classification.” Multimedia Tools and Applications 77, 22 (2018), 29799–29810. ↩︎ ↩︎

  85. J. Snell, K. Swersky, and R. S. Zemel. “Prototypical networks for few-shot learning.” In Advances in Neural Information Processing Systems, 2017. 4077–4087. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  86. K. D. Tang, M. F. Tappen, R. Sukthankar, and C. H. Lampert. “Optimizing one-shot recognition with micro-set learning.” In Conference on Computer Vision and Pattern Recognition, 2010. 3027–3034. ↩︎ ↩︎

  87. P. Bachman, A. Sordoni, and A. Trischler. “Learning algorithms for active learning.” In International Conference on Machine Learning, 2017. 301–310. ↩︎ ↩︎

  88. J. Choi, J. Krishnamurthy, A. Kembhavi, and A. Farhadi. “Structured set matching networks for one-shot part labeling.” In Conference on Computer Vision and Pattern Recognition, 2018. 3627–3636. ↩︎ ↩︎ ↩︎

  89. B. Oreshkin, P. R. López, and A. Lacoste. “TADAM: Task dependent adaptive metric for improved few-shot learning.” In Advances in Neural Information Processing Systems, 2018. 719–729. ↩︎ ↩︎

  90. M. Ren, S. Ravi, E. Triantafillou, J. Snell, K. Swersky, J. B. Tenenbaum, H. Larochelle, and R. S. Zemel. “Meta-learning for semi-supervised few-shot classification.” In International Conference on Learning Representations, 2018. ↩︎ ↩︎

  91. Y.-X. Wang, R. Girshick, M. Hebert, and B. Hariharan. “Low-shot learning from imaginary data.” In Conference on Computer Vision and Pattern Recognition, 2018. 7278–7286. ↩︎ ↩︎

  92. Y. Bengio, D. Bahdanau, and K. Cho. “Neural machine translation by jointly learning to align and translate.” In International Conference on Learning Representations, 2015. ↩︎

  93. N. Mishra, M. Rohaninejad, X. Chen, and P. Abbeel. “A simple neural attentive meta-learner.” In International Conference on Learning Representations, 2018. ↩︎ ↩︎

  94. L. Bertinetto, J. F. Henriques, P. Torr, and A. Vedaldi. “Meta-learning with differentiable closed-form solvers.” In International Conference on Learning Representations, 2019. ↩︎

  95. F. Zhao, J. Zhao, S. Yan, and J. Feng. “Dynamic conditional networks for few-shot learning.” In European Conference on Computer Vision, 2018. ↩︎ ↩︎ ↩︎ ↩︎

  96. A. Graves, G. Wayne, and I. Danihelka. “Neural Turing machines.” arXiv preprint arXiv:1410.5401 (2014). ↩︎

  97. A. Miller, A. Fisch, J. Dodge, A.-H. Karimi, A. Bordes, and J. Weston. “Key-value memory networks for directly reading documents.” In Conference on Empirical Methods in Natural Language Processing, 2016. 1400–1409. ↩︎

  98. S. Sukhbaatar, J. Weston, R. Fergus, et al. “End-to-end memory networks.” In Advances in Neural Information Processing Systems, 2015. 2440–2448. ↩︎

  99. J. Weston, S. Chopra, and A. Bordes. “Memory networks.” arXiv preprint arXiv:1410.3916 (2014). ↩︎

  100. T. Ramalho and M. Garnelo. “Adaptive posterior learning: Few-shot learning with a surprise-based memory module.” In International Conference on Learning Representations, 2019. ↩︎ ↩︎ ↩︎

  101. Z. Xu, L. Zhu, and Y. Yang. “Few-shot object recognition from machine-labeled web images.” In Conference on Computer Vision and Pattern Recognition, 2017. 1164–1172. ↩︎ ↩︎ ↩︎

  102. L. Zhu and Y. Yang. “Compound memory networks for few-shot video classification.” In European Conference on Computer Vision, 2018. 751–766. ↩︎ ↩︎ ↩︎

  103. J. Sun, S. Wang, and C. Zong. “Memory, show the way: Memory based few-shot word representation learning.” In Conference on Empirical Methods in Natural Language Processing, 2018. 1435–1444. ↩︎ ↩︎

  104. T. Munkhdalai and H. Yu. “Meta networks.” In International Conference on Machine Learning, 2017. 2554–2563. ↩︎ ↩︎ ↩︎

  105. T. Munkhdalai, X. Yuan, S. Mehri, and A. Trischler. “Rapid adaptation with conditionally shifted neurons.” In International Conference on Machine Learning, 2018. 3661–3670. ↩︎ ↩︎

  106. Q. Cai, Y. Pan, T. Yao, C. Yan, and T. Mei. “Memory matching networks for one-shot image recognition.” In Conference on Computer Vision and Pattern Recognition, 2018. 4080–4088. ↩︎

  107. S. Reed, Y. Chen, T. Paine, A. van den Oord, S. M. A. Eslami, D. Rezende, O. Vinyals, and N. de Freitas. “Few-shot autoregressive density estimation: Towards learning to learn distributions.” In International Conference on Learning Representations, 2018. ↩︎ ↩︎ ↩︎ ↩︎

  108. D. Rezende, I. Danihelka, K. Gregor, and D. Wierstra. “One-shot generalization in deep generative models.” In International Conference on Machine Learning, 2016. 1521–1529. ↩︎ ↩︎ ↩︎

  109. J. Gordon, J. Bronskill, M. Bauer, S. Nowozin, and R. Turner. “Meta-learning probabilistic inference for prediction.” In International Conference on Learning Representations, 2019. ↩︎ ↩︎ ↩︎ ↩︎

  110. A. Torralba, J. B. Tenenbaum, and R. R. Salakhutdinov. “Learning to learn with compound HD models.” In Advances in Neural Information Processing Systems, 2011. 2061–2069. ↩︎ ↩︎

  111. R. Zhang, T. Che, Z. Ghahramani, Y. Bengio, and Y. Song. “MetaGAN: An adversarial approach to few-shot learning.” In Advances in Neural Information Processing Systems, 2018. 2371–2380. ↩︎ ↩︎

  112. V. Joshi, M. Peters, and M. Hopkins. “Extending a parser to distant domains using a few dozen partially annotated examples.” In Annual Meeting of the Association for Computational Linguistics, 2018. 1190–1199. ↩︎ ↩︎

  113. R. Salakhutdinov and G. Hinton. “Deep Boltzmann machines.” In International Conference on Artificial Intelligence and Statistics, 2009. 448–455. ↩︎

  114. C. Zhang, J. Butepage, H. Kjellstrom, and S. Mandt. “Advances in variational inference.” IEEE Transactions on Pattern Analysis and Machine Intelligence 41, 8 (2019), 2008–2026. ↩︎

  115. D. P. Kingma and M. Welling. “Auto-encoding variational Bayes.” In International Conference on Learning Representations, 2014. ↩︎

  116. L. B. Hewitt, M. I. Nye, A. Gane, T. Jaakkola, and J. B. Tenenbaum. “The variational homoencoder: Learning to learn high capacity generative models from few examples.” In Uncertainty in Artificial Intelligence, 2018. 988–997. ↩︎

  117. A. Van den Oord, N. Kalchbrenner, L. Espeholt, O. Vinyals, A. Graves, et al. “Conditional image generation with PixelCNN decoders.” In Advances in Neural Information Processing Systems, 2016. 4790–4798. ↩︎

  118. S. Caelles, K.-K. Maninis, J. Pont-Tuset, L. Leal-Taixé, D. Cremers, and L. Van Gool. “One-shot video object segmentation.” In Conference on Computer Vision and Pattern Recognition, 2017. 221–230. ↩︎ ↩︎

  119. R. Keshari, M. Vatsa, R. Singh, and A. Noore. “Learning structure and strength of CNN filters for small sample size training.” In Conference on Computer Vision and Pattern Recognition, 2018. 9349–9358. ↩︎

  120. D. Yoo, H. Fan, V. N. Boddeti, and K. M. Kitani. “Efficient k-shot learning with regularized deep networks.” In AAAI Conference on Artificial Intelligence, 2018. ↩︎

  121. Y.-X. Wang and M. Hebert. “Learning to learn: Model regression networks for easy small sample learning.” In European Conference on Computer Vision, 2016. 616–634. ↩︎ ↩︎ ↩︎ ↩︎

  122. Y.-X. Wang and M. Hebert. “Learning from small sample sets by combining unsupervised meta-training with CNNs.” In Advances in Neural Information Processing Systems, 2016. 244–252. ↩︎ ↩︎

  123. E. Bart and S. Ullman. “Cross-generalization: Learning novel classes from a single example by feature replacement.” In Conference on Computer Vision and Pattern Recognition, Vol. 1. 2005. 672–679. ↩︎

  124. S. Gidaris and N. Komodakis. “Dynamic few-shot visual learning without forgetting.” In Conference on Computer Vision and Pattern Recognition, 2018. 4367–4375. ↩︎

  125. J. Hoffman, E. Tzeng, J. Donahue, Y. Jia, K. Saenko, and T. Darrell. “One-shot adaptation of supervised deep convolutional models.” In International Conference on Learning Representations, 2013. ↩︎

  126. Y. Lee and S. Choi. “Gradient-based meta-learning with learned layerwise metric and subspace.” In International Conference on Machine Learning, 2018. 2933–2942. ↩︎

  127. C. Finn, K. Xu, and S. Levine. “Probabilistic model-agnostic meta-learning.” In Advances in Neural Information Processing Systems, 2018. 9537–9548. ↩︎ ↩︎ ↩︎ ↩︎

  128. E. Grant, C. Finn, S. Levine, T. Darrell, and T. Griffiths. “Recasting gradient-based meta-learning as hierarchical Bayes.” In International Conference on Learning Representations, 2018. ↩︎ ↩︎

  129. S. Ravi and A. Beatson. “Amortized Bayesian meta-learning.” In International Conference on Learning Representations, 2019. ↩︎

  130. A. A. Rusu, D. Rao, J. Sygnowski, O. Vinyals, R. Pascanu, S. Osindero, and R. Hadsell. “Meta-learning with latent embedding optimization.” In International Conference on Learning Representations, 2019. ↩︎

  131. L.-Y. Gui, Y.-X. Wang, D. Ramanan, and J. Moura. “Few-shot human motion prediction via meta-learning.” In European Conference on Computer Vision, 2018. 432–450. ↩︎ ↩︎

  132. E. Triantafillou, T. Zhu, V. Dumoulin, P. Lamblin, K. Xu, R. Goroshin, C. Gelada, K. Swersky, P.-A. Manzagol, et al. “Meta-dataset: A dataset of datasets for learning to learn from few examples.” arXiv preprint arXiv:1903.03096 (2019). ↩︎ ↩︎ ↩︎

  133. T. Deleu and Y. Bengio. “The effects of negative adaptation in Model-Agnostic Meta-Learning.” arXiv preprint arXiv:1812.02159 (2018). ↩︎ ↩︎

  134. Z. Akata, F. Perronnin, Z. Harchaoui, and C. Schmid. “Label-embedding for attribute-based classification.” In Conference on Computer Vision and Pattern Recognition, 2013. 819–826. ↩︎ ↩︎ ↩︎

  135. S. J. Hwang and L. Sigal. “A unified semantic embedding: Relating taxonomies and attributes.” In Advances in Neural Information Processing Systems, 2014. 271–279. ↩︎ ↩︎ ↩︎

  136. P. Wang, L. Liu, C. Shen, Z. Huang, A. van den Hengel, and H. Tao Shen. “Multi-attention network for one-shot learning.” In Conference on Computer Vision and Pattern Recognition, 2017. 2721–2729. ↩︎ ↩︎

  137. T. Mensink, E. Gavves, and C. Snoek. “Co-occurrence statistics for zero-shot classification.” In Conference on Computer Vision and Pattern Recognition, 2014. 2441–2448. ↩︎

  138. X. Wang, Y. Ye, and A. Gupta. “Zero-shot recognition via semantic embeddings and knowledge graphs.” In Conference on Computer Vision and Pattern Recognition, 2018. 6857–6866. ↩︎

  139. A. Rios and R. Kavuluru. “Few-shot and zero-shot multi-label learning for structured label spaces.” In Conference on Empirical Methods in Natural Language Processing, 2018. 3132. ↩︎ ↩︎

  140. R. K. Srivastava, K. Greff, and J. Schmidhuber. “Training very deep networks.” In Advances in Neural Information Processing Systems, 2015. 2377–2385. ↩︎

  141. C. Finn and S. Levine. “Meta-learning and universality: Deep representations and gradient descent can approximate any learning algorithm.” In International Conference on Learning Representations, 2018. ↩︎

  142. J. Kirkpatrick, R. Pascanu, N. Rabinowitz, J. Veness, G. Desjardins, A. A. Rusu, K. Milan, J. Quan, T. Ramalho, A. Grabska-Barwinska, et al. “Overcoming catastrophic forgetting in neural networks.” National Academy of Sciences 114, 13 (2017), 3521–3526. ↩︎

  143. Q. Yao, M. Wang, E. H. Jair, I. Guyon, Y.-Q. Hu, Y.-F. Li, W.-W. Tu, Q. Yang, and Y. Yu. “Taking human out of learning applications: A survey on automated machine learning.” arXiv preprint arXiv:1810.13306 (2018). ↩︎

  144. J. M. Kanter and K. Veeramachaneni. “Deep feature synthesis: Towards automating data science endeavors.” In International Conference on Data Science and Advanced Analytics, 2015. 1–10. ↩︎

  145. L. Kotthoff, C. Thornton, H. H. Hoos, F. Hutter, and K. Leyton-Brown. “Auto-WEKA 2.0: Automatic model selection and hyperparameter optimization in WEKA.” Journal of Machine Learning Research 18, 1 (2017), 826–830. ↩︎

  146. B. Zoph and Q. V. Le. “Neural architecture search with reinforcement learning.” In International Conference on Learning Representations, 2017. ↩︎

  147. M. Woodward and C. Finn. “Active one-shot learning.” arXiv preprint arXiv:1702.06559 (2017). ↩︎

  148. Y.-H. Tsai, L.-K. Huang, and R. Salakhutdinov. “Learning robust visual-semantic embeddings.” In Conference on Computer Vision and Pattern Recognition, 2017. 3571–3580. ↩︎

  149. H. Yang, X. He, and F. Porikli. “One-shot action localization by learning sequence matching network.” In Conference on Computer Vision and Pattern Recognition, 2018. 1450–1459. ↩︎

  150. N. Abdo, H. Kretzschmar, L. Spinello, and C. Stachniss. “Learning manipulation actions from a few demonstrations.” In International Conference on Robotics and Automation, 2013. 1268–1275. ↩︎

  151. M. Hamaya, T. Matsubara, T. Noda, T. Teramae, and J. Morimoto. “Learning assistive strategies from a few user-robot interactions: Model-based reinforcement learning approach.” In International Conference on Robotics and Automation, 2016. 3346–3351. ↩︎

  152. A. Nagabandi, C. Finn, and S. Levine. “Deep online learning via meta-learning: Continual adaptation for model-based RL.” In International Conference on Learning Representations, 2018. ↩︎

  153. A. Herbelot and M. Baroni. “High-risk learning: Acquiring new word vectors from tiny data.” In Conference on Empirical Methods in Natural Language Processing, 2017. 304–309. ↩︎

  154. X. Han, H. Zhu, P. Yu, Z. Wang, Y. Yao, Z. Liu, and M. Sun. “FewRel: A large-scale supervised few-shot relation classification dataset with state-of-the-art evaluation.” In Conference on Empirical Methods in Natural Language Processing, 2018. 4803–4809. ↩︎

  155. B. Lake, C.-Y. Lee, J. Glass, and J. Tenenbaum. “One-shot learning of generative speech concepts.” In Annual Meeting of the Cognitive Science Society, Vol. 36, 2014. ↩︎

  156. S. Arik, J. Chen, K. Peng, W. Ping, and Y. Zhou. “Neural voice cloning with a few samples.” In Advances in Neural Information Processing Systems, 2018. 10019–10029. ↩︎

  157. A. Tjandra, S. Sakti, and S. Nakamura. “Machine speech chain with one-shot speaker adaptation.” In INTERSPEECH, 2018. 887–891. ↩︎

  158. S. H. Mohammadi and T. Kim. “Investigation of using disentangled and interpretable representations for one-shot cross-lingual voice conversion.” In INTERSPEECH, 2018. 2833–2837. ↩︎

  159. H. Liu, K. Simonyan, and Y. Yang. “DARTS: Differentiable architecture search.” In International Conference on Learning Representations, 2019. ↩︎

  160. Q. Yao, J. Xu, W.-W. Tu, and Z. Zhu. “Efficient neural architecture search via proximal iterations.” In AAAI Conference on Artificial Intelligence, 2020. ↩︎

  161. J. Blitzer, K. Crammer, A. Kulesza, F. Pereira, and J. Wortman. “Learning bounds for domain adaptation.” In Advances in Neural Information Processing Systems, 2008. 129–136. ↩︎

  162. D. McNamara and M.-F. Balcan. “Risk bounds for transferring representations with and without fine-tuning.” In International Conference on Machine Learning, 2017. 2373–2381. ↩︎

  163. G. Denevi, C. Ciliberto, D. Stamos, and M. Pontil. “Learning to learn around a common mean.” In Advances in Neural Information Processing Systems, 2018. 10190–10200. ↩︎

  164. L. Franceschi, P. Frasconi, S. Salzo, R. Grazzi, and M. Pontil. “Bilevel programming for hyperparameter optimization and meta-learning.” In International Conference on Machine Learning, 2018. 1563–1572. ↩︎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值