少样本学习的综合调查:进化、应用、挑战和机遇

摘要

摘要:FSL作为一种有效的学习方法已经出现并显示出巨大的潜力。尽管最近在处理FSL任务方面有了创造性的工作,但仅从几个甚至零样本中快速学习有效信息仍然是一个严峻的挑战。在此背景下,我们广泛调查了过去三年中发表的200多篇关于FSL的最新论文,旨在及时全面地概述FSL的最新进展,并对现有作品的优缺点进行公正的比较。为了避免概念上的混淆,我们首先阐述并比较了一组类似的概念,包括少样本学习、迁移学习和元学习。此外,针对FSL的挑战,我们提出了一种新的分类方法,根据知识的抽象程度对现有的工作进行分类。为了丰富调查内容,我们在每个小节中对这些主题的最新进展进行了深入的分析和有见地的讨论。此外,以计算机视觉为例,我们强调了FSL的重要应用,涵盖了各种研究热点。最后,我们总结了本次调查,对技术演进趋势和未来潜在的研究机会有了独特的见解,希望对后续研究提供指导。

索引术语:跨领域,少样本学习,微调,元学习,迁移学习

1 介绍

        最近硬件和信息技术的进步加速了各种物联网应用领域中数十亿设备的互联。智能和自适应设备越来越多地部署在关键基础设施中,如卫生、交通、工业生产、环境检测、家庭自动化以及许多其他证明万物互联(IoE)框架的基础设施中。这些数量庞大的终端设备产生了大量的数据,这些数据需要发送回服务器进行中央处理和存储。虽然在边缘生成的数据总量非常大,但单个设备或单个场景生成的每个数据集的体积非常有限,样本非常少。传统的数据驱动和单域算法在这些设置中表现不佳。为此,人们进行了大量的研究,探索基于少样本和跨域场景的有效学习方法。少样本学习(FSL)和元学习不可避免地成为一种有前途的学习方式。然而,如何有效地从小样本数据集甚至跨域数据集中获取有效信息仍然是当前FSL面临的最大挑战。

        此外,现实场景中的数据分布往往具有长尾效应,难以将同一模型推广到不同的领域。以智能制造工业检测为例,这种泛化不良问题已成为影响其智能模型性能的关键挑战之一。具体来说,目前的工业质检设备需要一定的特定照明条件,在一种照明条件下训练的AI模型很难“泛化”到其他照明条件。此外,考虑到工业质检场景的高精度要求,目前的AI模型通常采用监督学习,需要大量的缺陷样本进行训练。然而,由于实际生产场景中不良品的比例很小,很难收集到足够数量的满意样品。此外,它也不可能跨域传输。例如,PC外观缺陷检测模型不能直接用于手机屏幕、冰箱、洗衣机甚至不同型号PC的缺陷检测。同样,在对元器件和电路板的字符图像进行识别时,由于元器件供应商多,器件类型多,字符样式多,不可能为一个供应商收集到足够数量的各种字符图像样本,导致每种类型的样本很少或没有。表1提供了这些挑战的详细总结。

        为了更有效地应对这些挑战,FSL在数据、算法和模型方面进行了一些创造性的工作。作为目前最经典的一种分类方法,小样本学习分为元学习和基于度量的学习。本文从挑战的角度出发,将外语学习分为数据增强学习、迁移学习、元学习和多模态学习。 数据增强侧重于通过度量方法或生成方法来模拟不同场景下的数据,以使实际数据分布达到最优(或尽可能贴近实际数据分布)。迁移学习主要与预训练和微调相结合,从大规模辅助数据集中提取先验知识。当领域相关性相对不常见或没有大型辅助数据集时,迁移学习具有明确的局限性。元学习是目前解决FSL问题的主流方法。近年来,一些学者质疑“这种元训练范式或情景训练范式对FSL问题真的负责任和最优吗?”这导致了关于FSL中元学习必要性的广泛讨论[1],b[2]。对于多模态学习,它整合了不同维度的信息,如语言、图像和音频。多模态学习有望打破FSL在现实人类信息世界中有用信息不足的困境。

               由于FSL的特殊性,每种FSL方法都面临着不同程度的多方面挑战。数据扩充中最直接的挑战之一是数据样本太有限,模型不能仅依靠少数样本来评估真实的数据分布。因此,在这种情况下训练的模型是有偏差的,很容易陷入过拟合。在迁移学习中,特征可以有效地缓解FSL问题,即数据量小,无法跨相似域迁移。然而,如何有效地表示特征,如何在不同任务之间重用特征,以及如何在数据和标签之间建立有效的映射是迁移学习中存在的巨大挑战。此外,在元学习范式中,当用一组任务训练元学习者时,它不仅对数据空间进行采样,而且对任务空间进行采样。通过不断适应每一个具体的任务,使网络具有抽象的学习能力。当训练任务和目标任务明显不同时,元学习的效果最小。此外,在多模态学习领域,如何有效地整合多模态信息来辅助外语学习也得到了广泛的研究。已有几篇调查论文对外语学习的相关工作进行了研究,如b[3]将外语学习方法分为经验学习和概念学习。工作[4]根据概率分布将FSL方法分为生成模型和判别模型。最近,[5]提出了一种新的分类方法,从数据、模型和算法方面对FSL方法进行分类。然而,据我们所知,没有一篇论文从FSL挑战的角度提供了一个分类。通过总结FSL的挑战,读者可以更好地掌握FSL背后的动机和原则,而不是局限于各种模型。表2总结了本文中使用的关键缩写词列表。

场景        挑战关键的解决方案
质量检验线易受光影响样本数据少无法跨域传输少镜头跨域转移鲁棒模型泛化
电子元件识别各种颜色,尺寸,品牌每个品牌样品不足存在未见的新品牌少镜头学习迁移学习统一特征表示

表1 当前行业急需解决的挑战

1.1调查组织

本调查的其余部分组织如下。第2节概述了FSL,介绍了FSL,比较分析了机器学习、元学习和迁移学习,并总结了FSL的当前变体和挑战。此外,为了系统地解决这些障碍,在本节中,我们展示了一种新的分类法来对现有的FSL相关作品进行分类。第3节至第6节从FSL面临的挑战的角度对当前的主流研究进行了系统的考察,并从各个方面进行了比较分析。使用这种分类法,在每个部分的末尾提供了讨论和总结,给出了我们对各自领域的见解以及一些潜在的研究机会。第7节以计算机视觉为例,按时间顺序列举了FSL在图像分类、目标检测、语义分割、实例分割等方面的最新进展。第8节深入探讨了FSL当前面临的挑战以及如何在每个分支机构中寻求突破。本文的总体轮廓如图1所示

图1所示。调查的概念图。

   命名法

完整的形式缩写完整的形式缩写
人工智能AI 少样本学习FSL
深度学习DL机器学习ML
Zero-Shot学习ZSL一次性学习OSL
神经架构搜索NAS传统神经网络CNN
K - 近邻算法KNN支持向量机SVM
最近质心分类器NCC图少样本学习GFL
变分自编码器VAE少样本目标检测FSOD

长短期记忆(网络)

LSTM数据增强DA
少样本跨领域(学习)FSCD对比学习CL

表2 关键缩略语列表

本次调查的主要贡献可以概括如下:

• 我们从边缘计算场景开始,其中出现了几次学习挑战,解释和澄清了几个容易与FSL混淆的类似概念。这将有助于读者建立少次学习、迁移学习和元学习之间的关系。

• 通过知识图谱和热图,从挑战的角度对FSL相关工作进行全面研究。通过这种分类法,我们将FSL划分为几个不同的级别,其中最高级别是多模态学习,主要使用各种语义知识来辅助判断,第二、第三和第四级别是单模态学习,分别解决数据级、特征级和任务级的挑战。值得注意的是,我们还对FSL跨领域研究进行了深刻的讨论,这是目前FSL领域更具挑战性的方向。

• 我们调查了近三年来足够数量的论文,总结了FSL在计算机视觉领域的主要成就,包括图像分类、目标检测、语义分割和实例分割。

• 结合调查最后提到的这些挑战,结合实际应用,我们深入研究当前FSL面临的挑战,并探讨如何在各个分支中找到突破点,共同推动FSL研究向更加实用的方向发展。

• 我们对FSL的演变提供了独特的见解,并针对每个挑战确定了几个未来的方向和潜在的研究机会。

2 概念和基础

        作为机器学习(ML)的一个分支,FSL仍然是一个年轻的领域。什么是FSL,它与机器学习、迁移学习和元学习有什么关系?目前存在哪些FSL变体?哪些基准数据集经常出现在研究论文中?在本节中,我们将通过回答这些问题来为读者解决FSL的障碍。

2.1什么是少样本学习

        FSL概念的灵感来自于人类强大的推理和分析能力,它广泛应用于边缘计算场景。2020年,Wang等人通过机器学习的经验、任务和4性能给出了FSL的详细定义,这是迄今为止最被认可的定义之一:如果计算机程序的性能可以通过P测量的T上的E来提高,那么它就可以从某些类别的任务T和性能度量P中学习经验E。这里值得一提的是,FSL中的E非常小。近年来,相关神经科学证据[6],[7]表明,人类的先天能力与多种记忆系统有关,包括参数慢速学习新皮层系统和非参数快速海马学习系统,分别对应于FSL基于数据的慢速学习和基于特征的快速学习。

        为了更好地理解FSL,有必要引入两个概念,一个是n - way-k -shot问题,另一个是跨域FSL。N-way-K-shot问题通常用来描述FSL遇到的具体问题。在这种情况下,支持集表示在训练阶段使用的小数据集,它为第二阶段的测试生成参考信息。查询集是模型实际需要预测的任务。注意,查询集类永远不会出现在支持集中。经典的N-way-K-shot表示有N个类别和每个类别K个样本的支持集,则整个任务只有N * K个样本。因此,N-way-1-shot代表一次学习,N-way-0-shot代表零次学习。跨领域的概念来源于迁移学习,是指将知识从源领域迁移到目标领域。这些域之间通常存在域间隙。跨域FSL集成了跨域和FSL的特性,是近年来出现的一个具有挑战性的方向。

        在这个阶段,FSL仍然存在许多挑战,这些挑战来自各个方面,包括但不限于数据、模型和算法。在此背景下,根据知识的整合程度,挑战大致可以总结如下:

数据分布评估不准确:由于成本、道德、法律或其他原因,FSL无法访问大型数据集。因此,依赖少量样本进行学习在估计实际数据分布时会产生偏差,这对于某些任务可能是致命的。为此,利用有限的信息最大限度地探索数据分布成为FSL面临的最大挑战。数据扩充是解决FSL估计不准确的直接方法。目前的主要工作集中在探索可迁移的类内或类间特征,以及使用生成器自定义特定的图像。

• 特征重用敏感性:通过采样大规模辅助数据集来持续积累先验知识。迁移学习可以很容易地使用它从源域到相似的目标域。预训练的目的是通过特征提取器提取高维特征向量,而微调的目的是对预训练的初始参数进行微调。迁移学习侧重于数据层面,通过将数据映射到标签来获得更多独立于任务的有价值的特征。它在优化特定任务方面表现出色,但通常会受到当前任务特性的限制,对未来任务的泛化能力较差。尤其是当领域发生较大变化时,如果不对特征进行筛选和对齐,可能会导致负向知识迁移。

• 未来任务的通用性:与迁移学习不同,元学习通过对任务和数据进行双重采样,学会快速构建从已知任务到目标模型的映射。在FSL中,通过探索任务空间,汇总不同任务中的元知识,可以以较低的成本快速聚合未见任务。元学习是一种通用的学习框架,它独立于具体的问题,更多的是面向未来的任务,而不是优化当前的任务。然而,元学习被证明只有在测试和训练任务相对相似的情况下才有效,并且高度依赖网络结构,缺乏灵活性。当同时训练一组任务的元学习者时,甚至很难适应任务的分布,需要重新设计网络结构。

单模态信息的缺陷:由于FSL固有的信息限制,很难有效地学习特征。在从其他方式获取信息的帮助下,这种情况在很大程度上得到改善。在这方面,语义辅助[8]、[9]是一种很好的提供外部先验知识的方法,其中通过引入或生成语义信息作为弱监督,可以结合原模型完成自适应分类。

2.2什么是机器学习,它与少样本学习有何不同?

        传统的冯·诺依曼计算机体系结构允许用户以程序[10]的形式一步一步地执行一系列指令。然而,这种方法在ML中不起作用,相反,ML使用大规模的数据集作为输入。它对新样本的判断是基于历史数据提取的统计结果。如今,蓬勃发展的5G网络为数百万终端设备提供了大规模连接,实现了万物互联。终端设备产生的数据总量是巨大的,但是单个数据集的量是极小的。因此,传统ML的性能强烈依赖于大数据集,在这种样本较少的情况下无法表现良好。为此,FSL应运而生,并提供了一种很有前景的方法来处理数据稀缺场景。

        近十年来,FSL的研究得到了广泛的开展,并取得了重大的研究进展,例如阿里巴巴提出的KGBert[12]在FSL领域首次超越人类。图2为基于Web of Science统计结果的近十年FSL相关论文发表情况统计。从2011年到2015年,由于FSL理论尚不完善,相关论文相对较少。自 2015 年深度学习兴起以来,与少样本学习(FSL)相关的研究论文数量几乎每年都呈线性增长。在过去的2020年,相关论文数量高达239篇,相应的被引次数达到2731次。图3提供了近年来FSL领域的热点研究课题和前沿发展的知识图谱,包括但不限于零次学习、单次学习、迁移学习、多任务学习和元学习。与FSL相关的任务包括特征表示、可视化、机器人和跨域转移。其中,领域自适应是一种应用广泛的小范围跨领域学习方法。以绿色为主色的计算机视觉是目前最活跃的研究领域,包括图像分类、目标检测、语义分割和实例分割等。

图 2. 2010 年至 2021 年上半年在知名期刊上发表的与少样本学习(FSL)相关的论文数量(不包括引用情况)

图3所示。知识图谱以Few-shot learning、One-shot learning和Zero-shot learning为关键词,概括了近三年来在Few-shot learning领域的主要进展和研究方向。

         FSL与传统机器学习最显著的区别在于支持集和查询集的类集合是不相交的。在机器学习中,测试集的类被提前包含在训练集中。FSL结合有限的监督信息和先验知识来训练模型。模型的输入通常以任务的形式给出。通过不断收集任务,该模型能够识别数据以及任务之间的相似之处和不同之处。当模型遇到不可见的任务时,只需几个具有适当初始化参数的迭代训练步骤就可以快速完成知识转移。相比之下,传统的机器学习需要通过模型中大规模数据集生成的损失函数进行优化。总之,FSL只是机器学习的一个非常年轻的分支,它主要解决机器学习场景中难以访问高质量数据集的问题。

2.3什么是迁移学习,它与单次学习有何区别?

        传统的迁移学习是将在源领域学到的知识应用到不同但相关的目标领域。在FSL中,有限的训练数据量、领域变化和任务修改是导致模型不能很好地从源领域转移到目标领域的关键因素。例如,与自然图像数据集imagenet相似度较低的医学图像数据集,如果没有相关专业知识的帮助,即使对于只有少数图像指导的人类来说,也很难准确识别。当然,当源域和目标域相对相似时,该方法也有效。在FSL任务的最后,如果先验知识是通过预训练从其他任务或领域获得的,则FSL可以属于迁移学习,主要学习数据到标签的映射。

        根据迁移学习的分类,迁移学习问题有多种变体,包括单次学习(OSL)、零次学习(ZSL)和跨域少次学习:

单次学习:OSL对支持数据集中的每个样本只有一个正确的标签,其目的是在已见类中找到最相似的类作为匹配。在警察审讯过程中,这两个过程非常相似。目击者只看了犯罪嫌疑人一眼,警方给出的照片可视为查询图像。证人只需要对这些照片回答“是”或“不是”。类似地,单次学习并不具体地对数据进行分类,而是简单地按照相似函数的顺序进行聚类。根据现有的工作,一次性学习可以分为两种主要的方法。一种是使用生成模型对先验知识进行分类[13],[14],[15],其中贝叶斯编程学习[16]是该领域最具代表性的框架[17]。另一种方法是将OSL分类任务转换为验证任务[18],[19]。

零次学习:ZSL首先由Lampert等人提出,考虑了FSL中更极端的情况。在没有任何查询样本的情况下,仅依赖推理机制来识别以前未见过的样本。ZSL本质上是用高维语义特征[21]、[22]、[23]代替低维原始数据来实现的。嵌入表示和自动编码器是构建中间语义空间最有效的方式,该空间包含能更全面地定义各类别的属性。到目前为止,零次学习是最接近人类智能的方法之一,可以识别以前未观察到的类别。一次性学习和FSL本质上可以看作是特殊的ZSL。

跨领域少样本学习 :在迁移学习中,目标域中的每个类都有足够多的可用样本。当源领域和目标领域之间发生较大的领域转移时,知识转移往往变得非常具有挑战性。跨领域的短时学习结合了迁移学习和FSL的挑战。在存在域间隙的情况下,源域和目标域中类的交集为空,目标域中每个类的可用样本量极小。仅通过源域数据来提高模型的泛化能力,对模型的性能影响非常有限。目前的工作主要集中在特征的移位变换和辅助数据集的构建上。跨域少镜头学习是目前FSL领域最具挑战性的场景。

2.4什么是元学习,它与次元学习有何不同?

        元学习是一种通用的学习范式,它通过情节训练机制对任务进行训练。图 4 展示了元学习 [24] 训练所涉及的三个步骤。元学习侧重于利用先验知识提高对未见过任务的泛化能力。如果利用先验知识来教导模型如何针对特定任务进行学习,那么元学习可被视为少样本学习(FSL)的一个变体。需要强调的是,元学习并不等同于 FSL,FSL 更应被看作是一个终极目标。它旨在不依赖大规模数据集实现稳健的生成。通过对数据和任务空间进行双重采样,元学习能够构建大量与未见过任务相关的辅助任务。即便有些论文没有采用元学习方法,但如果能考虑情节训练机制,比如元强化学习 [25]、[26],元视频检测 [27] 等等,也很可能会提高模型的性能。

图4所示。元学习训练的三步方法包括:找到学习算法,使用任务定义损失函数,找到能使损失函数最小化的参数。

        然而,元学习也有自己的局限性:当训练任务和测试任务存在明显的领域差距时,很少使用元学习来初始化参数权值。它很容易导致模型的负迁移。此外,元学习高度依赖于网络的结构,需要重新设计以适应各种不同的任务。尽管如此,元学习仍然是解决FSL最有效的方法之一。

2.5数据集

        在FSL基准数据集可用之前,研究人员经常使用手动构建N-way-K-shots等任务来评估模型的性能。然而,这些简单的任务并不能反映现实世界问题的复杂性。经过10年的发展,FSL基准数据集已经完成了从单一领域、单一数据集到跨领域、多数据集的转变。  

      如图5所示,2017-2021年共有898篇论文使用了CUB-200-2011[28]数据集,占统计总数的46.6%;使用MiniImageNet[29]数据集的论文587篇,占30.5%;使用Omniglot[30]数据集的论文335篇,占17.4%;44篇论文使用PASCAL-5i[31]数据集,46篇论文使用元数据集[32]。其他具体数据集为Paris-Lille-3D[33]、N-Digit MNIST[34]、SUN397[35],近5年共发表论文15篇。从数量上看,CUB-200-2011、Mini-ImageNet、Omniglot基准数据集在FSL领域占据主导地位。表3从不同维度对上述数据集进行了比较。通过本文的发表,提出了一个更客观的评价FSL跨域能力的基准数据集[36]。1) CropDiseases[37],植物病害数据集,2)EuroSAT[38],卫星图像数据集3)ISIC[39],医学皮肤图像数据集,4)ChestX [40], x射线胸部图像数据集。与MiniImageNet相比,这些数据集的相似性降低了。

图5所示。在小样本学习中有八个最常用的数据集,其中包括关于主流基准数据集的论文数量(2017 - 2021 年)可能会有一篇论文对所有主流基准数据集进行测试。数据来源于 “paperswithcode” 平台

表3 FSL在机器视觉主要任务中的最新表现

2.6分类

        根据知识的整合程度,外语学习大致分为单模态学习和多模态学习。在本次调查中,单模态学习可以进一步分为数据增强学习、迁移学习和元学习。它主要关注将有限的信息抽象或转化为更高层次的特征向量或元知识。多模态学习更接近人类智能的真实世界,不再依赖于有限的样本,而是试图寻找其他模态的空间来辅助FSL。根据这种分类法,我们将详尽地回顾和讨论每种方法。图6生动地展示了挑战视角下FSL的分类。

图6所示。整个分类法以金字塔的形式呈现。底层为“云-边缘-终端”边缘计算场景,其特点是在大流量下进行少次实时计算。在此基础上,根据所需要知识的整合程度,将FSL面临的挑战分为四个层次。其中,以数据增强、迁移学习和元学习为代表的挑战为单模态挑战。

评估真实的数据分布:FSL的难点在于有限的样本不能反映真实的数据分布。机器学习最直观的想法是基于某种概率模型生成额外的数据,或者利用来自扩展数据的大量未标记数据来扩充辅助数据集。现有的工作重点是探索可以在类之间或在语义层面上与外部数据集学习的特征差异。手工规则和自动学习数据处理是这个阶段的两种主要方法。

构建数据到标签的映射:此外,如果来自基准数据集的大量特征可以被重用,这将大大减少模型对数据的压力。预训练和微调通过学习数据到标签的有效表示以及底层语义特征的有效正则化来帮助FSL。其中,预训练阶段学习各种不同任务的最优初始化参数,微调阶段冻结大部分下层参数,只重新训练分类层的参数。 

导出任务到目标模型映射:微调在小样本的基线模型中已经具有良好的性能。然而,在多任务学习中,大量的任务被当作一个任务来学习,这导致了模型的可怕泛化。相比之下,元学习使用情景训练机制对数据和任务空间进行双重采样,发现不同任务之间的潜在关联,从而对整个任务空间有很好的描述。

有限信息的互补学习:深度学习中早就提出了多模态学习,但近年才开始与FSL相结合。多模态维度的信息最接近真实的人类信息世界,在一定程度上弥补了FSL无法准确评估单模态数据分布的不足。像素、语义和声音都可以作为FSL任务的监督信号,甚至最近的无监督学习也被用于使用对比学习来探索更健壮的特征表示。

3  数据扩充,以最大概率评估真实数据分布

        在实际的FSL任务中,由于隐私、收集成本和标记成本,支持和查询集中的样本数量通常是有限的。为了缓解这一问题,数据增强被认为是增加FSL样本丰富度的最直接方法。然而,FSL数据增强的核心风险在于增强的数据集评估真实数据背后分布的可能性有多大。根据数据增强技术是否可以在其他任务中重用,将FSL数据增强分为手工制定规则和自动学习数据处理

3.1手工规则

手工制作的规则需要具有专业领域知识的专家的指导。代表性的结果是Bouthillier等人提出在随机矩形区域上随机丢弃像素[41],生成模拟噪声的黑色矩形块。类似的操作还包括随机擦除[42]和填充[43],[44]在FSL。然而,简单地依赖于单样本像素的简单变换并不能避免过拟合的风险。此外,根据信息的维度,手工制作的规则包含数据级和特征级。表格4总结了手工规则制定的数据增强方法。

模式核心的观点关键方法指标的基础使用外部数据集数据级别功能水平
快速傅里叶变换丰富即时属性Places-CNNTransient Attributes Database 11
计算机科学与工程系抹去修理Metric based miniImageNet01
图像变形语义不变性Meta-learning miniImageNet11
自适应图卷积神经网络对采集到的网络图像进行去噪处理 GCN layer-11
以生成对抗网络为基础实例协方差信息的“可变性”作为基本实例生成对抗网络ImageNet生成对抗网络 ImageNet11
发现并学习提取不同序列的补丁强化学习 miniImagenet 01
显著图引导的幻觉背景-前瞻性学习Realation网络 miniImagenet 01
Laso探索标签之间可靠的差异转移学习 MS-COCO 11
Dual TriNet语义合成示例Auto Encoder MS-COCO 01

表4手工规则中FSL的最新表现

3.1.1数据级别

        数据级扩充主要是对输入数据进行转换,通过对数据进行微小的修改,使现有数据规模增大,从而实现模型输入的多样性。随机擦除[42]和随机裁剪[43]、[53]是经典算法,通过模拟不同程度损伤的图像,提高模型的泛化能力。受此启发,Li等人[46]抛弃了传统的基于图像整体特征提取器的方法,转而关注局部patch图像。这些方法需要大规模的数据集作为支持。在FSL设置中实现这一点并不容易。相反,CSEI[46]不需要额外的数据集。具体操作是将由度量函数导出的支持集中的大部分歧视性区域擦除,并使用恢复操作将其替换为图像填充。FTT[45]通过对一些瞬态变换的属性(如不同天气和光照)进行线性插值,丰富了数据集。Z Chen等人[15]受到MIXUP[54]思想的启发,提出了一种端到端整体分割图像的方法,该方法认为图像即使在经历了各种扭曲之后也能保留重要的语义信息。图像失真和GNN之间最显著的区别是,图像失真只是将两个图像以线性模式拼接在一起。这种方法能够在不丢失分类的情况下实现最大变形。此外,利用现实世界中大量的未标记数据集进行补充,是数据扩展的一个很好的方向。最后,当源类和目标类都只有有限数量的样本时,AdarGCN的[47]实现从互联网资源中抓取数据并自动去除无关噪声,以实现可控的数据增强。同时,AdarGCN可以自动判断信息在每个图节点中传播了多远。综上所述,数据级的数据增强主要是通过像素变换和像素生成来增加样本数量。图7显示了手工规则下基于数据级别的主要方法。

图7所示。基于数据层次的FSL数据增强主要包括网络数据采集、环境变化、差异转移和作物随机填充。这里用一张熊猫的图片作为例子来实现上述变化。

3.1.2特性级别

        特征级数据增强主要是将像素信息映射到高维潜在空间中。它比单纯的原始像素携带更多的有效信息。Gao等人[48]首先探索了少样本数据背后的潜在分布,并提出了一种对抗协方差增强网络来克服FSL的局限性。它的实验表明,仅仅依靠学习整个图像的特征会给结果带来噪声。Chu等人[49]试图计算每个补丁的特征表示,而不是整个图像。每个小块通过RNN连接起来,进一步融合图像的特征。这种启发式算法远优于简单的注意力模型[55]。Zhang等。【50】从另一个角度解释了部分特征学习,提议使用一个预训练模型将视觉特征分解为三个部分,然后选择原始图像、前景图像和背景图像,将它们重新拼接成新的视觉特征。类似地,Laso[51]探讨了高维空间中不同数据集之间的特征差异。通过集合的交集和互补,将不同的标签组合在一起,可以让图像在特征层面同时包含多个类别的关键信息。将这部分图像作为支持集进行训练,可以显著提高小样本的分类性能。Chen等人更进一步,将这些特征扩展到高维语义空间。在FSL中,通过以压缩的方式对有效信息进行建模,特征级增强比数据级增强更有效。图8显示了手工规则下基于特征级别的主要方法。

图8所示。基于特征层次的数据增强主要分为全局特征和局部特征。全局特征关注整个图像,包括前景和背景。另一方面,局部特征选择性地聚焦于前景中的主体部分。

3.2学习数据处理

        2018年,随着元学习的成熟,数据增强进入了自动增强领域。通过元学习与其他数据增强方法的结合,在此期间涌现了大量优秀的工作。Hu等人[57]受到DARTS算法的启发,将数据增强抽象为多个子策略,每个子策略根据不同的少样本任务有一定的被选择概率。除了基于概率的方法外,另一种方法是基于生成的方法。Li 等人[58] 提出了对抗特征幻影网络(AFHN)。幻影多样性和判别特征是有条件的少量标记样品。Chen等人[56]试图训练一个元学习器,并通过融合成对的图像来生成一个网络来学习图像之间端到端的相似性和差异性。在MetaGAN[59]的基础上,引入了一个基于任务条件的对抗生成器,帮助FSL任务在不同类之间形成可推广的决策边界。另一方面,Zhang等[50]进一步证明了幻影数据生成对FSL的有用性,并提出了一种低成本的自动化数据生成方法,该方法使用直接的前景-背景组合来生成用于训练的特征空间级数据。此外,探索支持数据集中类之间和类内部的可迁移差异也是有效的。与基于度量的视觉相似性计算[62]不同,Deltaencoder[60]使用auto-encoder[61]学习同一类中的差异进行迁移学习。表5总结了学习数据处理的数据增强方法。图9显示了FSL下自动学习数据处理的主要方法。 

图9所示。学习数据处理旨在学习多个任务空间中的策略生成器,从而自动匹配不同的任务。与手工规则相比,它最大的好处是可以重用。

3.3讨论与总结

        为了最大限度地评估FSL环境下真实数据的分布,数据增强已经从手工制定规则到自动学习数据处理阶段。分水岭是2018年元学习的成熟。本节全面研究了数据增强领域中新兴的代表性技术,并回顾了少量数据增强的发展历程。表格5对不同维度的模型进行了清晰的总结。

表5 FSL在学习数据处理领域的最新表现。

4 迁移学习为特定问题构建数据到标签的映射

        迁移学习[63]是一种经典的学习范式,它旨在解决FSL中只有很少甚至没有标记样本[64]的难题[65]特征重用是迁移学习解决FSL缺乏数据设置的核心思想。基本操作是在广泛的数据集上预训练模型,然后在有限的支持集上进行微调。当源领域和目标领域存在较大的差距时,知识转移的效率必然会大大降低。这种跨域的设置给FSL带来了新的挑战。在FSL中,迁移学习大致可以分为预训练阶段和微调阶段,这两个阶段也可以称为基线。图10说明了一般过程。

图10所示。迁移学习可以分为预训练阶段和微调阶段,在此阶段,基线模型可以与其他技术相结合,以提高模型的性能。(基线,元学习,度量学习,知识蒸馏,优化器)

4.1预训练和微调

        从 2012 年到 2018 年,计算机视觉和自然语言处理领域涌现出了大量优秀的成果,比如MobileNet【66】、ResNet【67】、ELMO【68】、GPT【69】以及 BERT【70】。尤其需要指出的是,在预训练模型出现之前,自然语言处理领域的发展较为缓慢。随着计算能力的提升以及优秀预训练模型的不断推出,在 BERT 的引领下,该领域已经取得了相当大的发展。

        作为下游任务,如何利用这些优秀的模型获取特征,将在很大程度上缓解FSL的数据压力。特别是对于小样本图像分类,作为预训练模型[71],[72],需要使用外部大规模标签数据集从相似任务中提取先验知识最常见的做法是设计一个没有分类器层的骨干模型,其中包括卷积神经网络或自编码器。模型的输入是一组图像,输出是嵌入在高维空间中的特征向量[73]。高维特征向量获得目标图像足够有效的语义信息。在提出预训练后,研究人员随后提出微调。预训练中的大部分参数是冻结的,在测试阶段只更新分类层参数。最近的许多研究[74],[1]证明,与基线模型相比,微调可以将5-way-1-shot任务的准确率提高2%-7%。虽然支持集和查询集中的样本数量很少,但预训练和微调对于提高FSL的准确率仍然有很大的帮助。结论在自然语言处理中也是类似的。[75]、[76]、[77]中的作者还表明,微调可以嵌入到最先进的元学习或半监督学习框架中,以优化模型参数。Dhillon等[76]用余弦相似度代替了标准激活函数,Nakamura等[74]用自适应梯度优化器代替了传统的梯度下降,都提高了模型精度的微调过程。目前,微调通常与元学习相结合。Cai等人[78]试图将它们整合到具有特定层的训练网络中。然而,实验结果表明,由于支持集和查询集在FSL设置中不重叠,因此从源数据集转移整个知识并不是FSL的最佳解决方案。Shen等[79]认为知识应该专门针对零件进行转移。可转移性的程度需要通过冻结或微调骨干模型中的特定层来控制。类似地,微调也可以用来防止网络的新类污染基本类的特征空间。目前,FSL和微调已广泛应用于病虫害鉴定[80]、道路检测[81]、自动问答[82]等任务中。

4.2跨领域小样本学习

        FSL的最新进展很大程度上依赖于训练阶段的标记数据。然而,在许多实际应用中,为特定任务收集各种形式的数据集是不现实的,这给不同领域之间的FSL带来了挑战。跨域小样本学习将FSL和域自适应问题相结合,是一个比较全面和具有挑战性的环境。长期以来,FSL常用的基准数据集存在数据结构标准化和自然场景相似性大的问题,导致模型在标准数据集上表现良好,但在现实世界任务中却得不到令人难以接受的结果。Google于2020年首次发布了名为Meta-Dataset的FSL跨域数据集[32],该数据集包括ImageNet、CUB-200-2011等共10个公共图像数据集。然而,这些数据集仍然集中在自然场景上,不能被广泛地视为跨领域的少量基准数据集。直到BSCD-FSL[36]数据集可用。根据与ImageNet的相似程度分为CropDiseases[37]、EuroSAT[38]、ISIC[39]、ChestX[40]。作者广泛评估了现有FSL方法的性能,实验表明,所有方法的精度都与所提出的自然图像数据相似度度量相关。目前,跨领域语音识别主要集中在识别与领域无关的特征和基于迁移学习的领域自适应技术上。

        领域自适应的目标是将知识从源领域迁移到目标领域,目标领域与源领域具有相同的类别集,但数据分布不同。最近,许多研究工作都利用自适应网络使其特征与新领域对齐,或者从多个骨干模型中选择与领域无关的特征。德沃尔尼克等人 [83] 通过使用不同领域训练一组特征提取器,分别获得了多个领域的表征。在训练期间将模型设置为具有多个领域的数据集,以便在测试阶段尝试迁移到其他领域。然而,当这些领域相互正交时,这种方法在元训练和元测试阶段可能并不奏效。基于此,FRN [84] 探索了小样本图像分类的潜在空间,它利用岭回归来重构和归一化特征图,且无需添加新的学习参数。FWT [85] 仅利用源数据对特征进行仿射变换,LRP - GNN [86] 和 SBMTL [87] 也是如此。FD - MIXUP [88] 通过混合构建辅助数据集,并使用编码器来学习与领域无关的特征,以引导网络对其他任务进行泛化。STARTUP [89] 不仅利用了源数据,还假定模型在训练期间能够获取大量未标注的目标数据。大量未标注数据被用于增强模型对其他领域的泛化能力。基于度量的方法经常被用于半监督和无监督的跨领域小样本学习。卢等人 [90] 最近发表的一篇论文将注意力作为一种度量策略来重新加权并组合特定领域的表征。陈等人 [72] 基于一个元基线,通过在所有基础类别上预训练分类器,并基于最近质心算法对少量样本进行分类以实现元学习,其效果大大超越了最新的前沿方法。李等人 [91] 受 [92]、[93] 的启发,提议将特定领域的特征映射到同一个共享空间,从而实现一种与领域无关的通用表征。

4.3讨论与总结

        虽然元学习方法在标准FSL环境下比迁移学习表现更好,但在跨域FSL环境下情况正好相反。最近发表的一篇新论文指出,当域呈现正交时,微调和预训练的改进同样非常有限。在预训练的特征空间中,基类形成紧凑的聚类,而新类分布在较大的差异组中。目前,将训练过的模型实际部署到生产环境中往往不能适应快速变化的环境。预训练可以看作是一个包含许多学习类的任务,但它只是一个单一的学习任务。

5 元学习派生独立于具体问题的任务到目标模型映射

        元学习从数据和任务的双重采样中学习历史先验知识,然后提取元知识应用于未来的任务。元学习独立于具体问题,在任务空间中探索最优初始化参数,抛弃了传统监督学习中任务独立的特征表示。目前,大多数元学习模型都是采用传统的梯度下降法进行参数更新的。当然,也有基于强化学习和度量方法的非梯度下降方法。在FSL中,元学习可以实现模型参数、度量函数和信息传递的自动化学习。

5.1学习模型参数

        大多数深度学习框架使用不同的参数初始化方法,如均匀分布、正态分布等。这种随机初始化的最大问题是它很容易陷入局部最优位置。元学习的目标是训练一个超参数生成器,经典的方法是MAML[94]、Repital[95],甚至是它们的衍生变体。MAML(模型无关元学习)通过计算每个任务的优化方向来确定全局优化方向。与MAML相比,Reptile(是一种元学习算法,它的目的也是让模型能够快速适应新任务。Reptile 通过在多个不同任务上的训练,学习到一个良好的初始模型参数,使得模型在面对新任务时,仅需要进行少量的更新就能达到较好的性能。)可以一次更新更少的参数。元学习和多任务学习最大的区别在于,多任务学习只关注当前任务的表现。使用标准的FSL基准数据集证明元学习比迁移学习表现更好。然而,元学习对网络结构更为敏感,需要对超参数进行微调。在那之后,有更多的版本分别解决了这些问题。如maml++[96]、一阶MAML (faml)[95]、Meta-SGD[97]、TAML[98]、iMAML[99]、iTMAML[100]等。其中,除了学习初始化参数外,Meta-SGD还找到了最优学习率,同时更新了参数的方向。TAML[98]是一种任务无关的方法,它克服了MAML只能使用外部模型的问题。随后,IMAML[99]提出了一种新的损失函数和相应的梯度计算方法,使得只计算损失函数的解就可以得到参数的梯度,而不需要考虑其具体的优化方法。iTMAML[100]基于TAML,实现任务自动识别。当数据处于连续状态时,它可以通过更新来快速适应新任务。目前,MAML已广泛应用于各种任务中[101],[102],[103],产生了不同的变体。表6从不同角度区分了MAML、Reptile及其变体。学习优化器是学习模型参数的另一个重要方向。LSTM作为基础优化器[104],[105],它接受t时刻的差值和t−1时刻元网络的隐藏状态。原始网络的输出是模型的权重和偏差的更新。2016年,Xu等[106]提出了BPTT来监督LSTM培训。值得注意的是,这是在监督学习的背景下进行的。如果是在无监督和主动学习的情况下,需要对优化进行哪些更新?受此启发,长期以来一直有相关工作聚焦于强化学习【107】、贝叶斯推理【108】和进化算法【109】,试图通过启发式算法自动找到优化策略。    

        最后,传统的神经架构搜索(NAS)也融入了元学习的理念,并在小样本学习(FSL)的情境下进行了相应的调整。据我们所知,共享 [110] 以及随机选择的超网权重 [111]、[112] 是针对小样本学习的早期解决方案。近期,大量的研究工作 [112]、[113]、[114] 表明,一次性神经架构搜索(one-shot NAS)和传统神经架构搜索之间仍然存在性能差异。一次性神经架构搜索利用权重共享网络仅对超网络进行一次训练,然后进行单轮推理以获得准确预测,极大地减少了实验所需的计算量。随后,赵等人 [115] 在一次性神经架构搜索的基础上提出了小样本神经架构搜索(few-shot NAS)。其核心思想是将超网络划分为多个子超网络,以便对搜索空间的不同区域进行搜索。随着超网络数量的略微增加,小样本神经架构搜索的准确性得到了极大提高。MetaNAS [116] 是第一种将元学习与传统神经架构搜索完全整合的方法。借助元学习的理念,MetaNAS 能够更好地初始化参数。它完全取代了 DARTS 算法中的加权求和,以减少不同的操作,并且实验结果也表明它更能适应更多的下游学习任务。

表6 MAML、Reptile 及其变体综述

5.2学习度量算法

        度量学习[117]与经典元学习不同,度量学习不再将模型划分为训练和测试阶段。在之前的许多论文[4],[5],[3],[118]中,度量学习总是单独介绍的。在本文中,度量学习将在元学习的框架下进行解释。图11展示了一种最具代表性的学习方法,它基于一个原型网络,该网络经过改进,在分类任务的基准数据集上获得了实质性的改进。

图11所示。框架[128]将嵌入模型和原型学习联合进行端到端学习,利用学习到的嵌入特征计算查询图像与原型之间的距离,将不同类之间的距离推得更远,使相同类之间的距离更近。

        暹罗神经网络(Siamese Neural Network)[119]是度量学习中较早的模型。它可以简单地看作是一个二分类问题。模型的输入由一组正或负样本对组成,模型需要在推理阶段评估图像的相似性。三重损失[120]是FSL度量学习中处理多对输入的另一种方法。与Siamese神经网络相反,三重损失需要同时获得正样本、负样本和锚点样本。如果训练样本之间容易区分,这将不利于模型更好地学习判别特征。硬样本选择技术[121]除了考虑正、负样本之间的相对距离外,还考虑了正样本对之间的绝对距离。除此之外,Li等人[122]重新审视了经典三元组网络,并将其扩展为用于FSL的k元组网络。

        与Siamese神经网络相比,原型网络[123]实现了分类的真正意义。最显著的区别是该模型允许更多的数据作为输入。通过特征平均,可以找到最具代表性的样本作为原型。然而,简单的特征平均容易受到噪声的干扰。在此基础上,许多作品[124]、[125]、[126]、[127]、[128]探讨了如何使原型之间的距离越来越大。其中最具代表性的是提出了正负边距[129],进一步减少了过拟合,在最大化模型判别能力的基础上增强了泛化。

       匹配网络[29]是一种更通用的网络框架,它将少量拍摄数据集和未标记数据映射到嵌入空间中的向量。匹配网络结合了最近邻算法的参数模型和非参数模型的最佳特征,通过学习嵌入表示对样本距离分布进行建模。实验证明[130],嵌入传播产生更平滑的嵌入流形。如何在有限的时间内学习到高质量的嵌入表示对于提高模型的准确性具有重要意义。GVSE[131]融合了视觉嵌入、语义嵌入和门控指标,通过模型自动平衡每个度量维度的相对重要性随后,Arvind Srinivasan等人[132]提出了一种新的架构来改进Inception-Net、U-Net、Attention - net和squeese - net,这些架构将生成嵌入质量的时间作为成本。基于嵌入表示的处理在FSL中起着至关重要的作用。

        关系网络[133]与上述三种模型的不同之处在于,它的相似性是通过使用神经网络来计算的。与Siamese神经网络和原型网络相比,关系网络可以被视为提供了一个可学习的非线性分类器来确定关系。分类器可以是预训练神经网络的特征提取器[122]或多个嵌入式模块[134]。关系网络最重要的贡献是它脱离了单一的线性度量函数,并探索了使用替代模型来生成相似性。表7对每个代表性的度量学习算法进行了分类,比较了它们在原始方法上的创新。

表7 基于基数法的公制学习总结。

5.3学习传递信息

近年来,图神经网络(gnn)[137]在基于关系的任务上表现良好[138]。研究人员发现,它基于类的信息传递可以很好地帮助FSL学习识别新的类,同时避免这些类被专有功能所主导。首先,早期的图神经网络通过创建支持集和查询集之间的完整连接来模拟不同节点之间权重的传播。节点可以用单热编码表示,也可以用嵌入向量表示,节点之间的连接可以通过边传递。考虑到图神经网络算法的复杂性,目前大多数图神经网络的层数都很浅。为了更好地适应FSL,在最近的发展中,图神经网络被独特地设计为节点和边。图12显示了从小样本分布探索角度出发的图神经网络FSL的最新代表性算法。

图12所示。DPGN[139]除了关注样本分布之间的关系外,还关注GNN中样本之间的关系。其中点图用于描述样本,分布图用于描述分布。这两个gnn通过传递信息融合了实例级和分布级的关系。

        EGNN(等变图神经网络)使用顶点集、边集和任务集对节点的标签进行编码。当节点之间发生更新时,同时考虑了相似性和差异性,极大地提高了图神经网络对FSL的泛化性能。Meta-GCN[140]进一步融入了元学习的思想,使得FSL下图权值的更新也可以根据梯度下降步骤进行优化,整个过程只需要很少的梯度步骤,并且可以快速接收到新的数据。随后,几个基于图结构本身改进的模型出现了。原型网络通过GFL[141]网络进行了改进,该网络侧重于学习具有图结构的小样本数据。DPGN使用对偶图神经网络来描述样本并对其分布进行建模。此外,GERN[142]使用图神经网络连接的嵌入来实现更稳健的类内权重转移。然而,直到2021年,这些方法都没有解决图神经网络的浅层问题,HGNN[143]设计了三个自下而上的部分,并跳过连接,以消除普通gnn失去节点之间层次关联的缺陷。基于此,Frog-GNN[144]利用多维信息综合节点间的邻接信息,形成类内相似度和类间不相似度的成对关系特征。目前,图神经网络被广泛应用于少量图像分类[145]、[146]、语义分割[147]和实例分割等任务。在FSL中,元学习主要探索从任务到目标模型的映射。它训练了一个超级调谐装置,当它根据不同的任务收敛时,它给出了一组很好的超参数。与多任务学习相反,多任务学习只专注于单一任务。然而,元学习并非适用于所有条件。当前元学习的想法是有足够的历史任务。如果在某些问题上没有足够的任务,那么元学习可能无法解决这些问题。同样,如果源和目标之间的域差距太大,结果也会变得可怕。

6 信息有限的小样本多模态互补学习

        到目前为止,FSL在单峰领域取得了重大进展。在单模态学习中,模型主要负责将信息表示为特征向量,这些特征向量可以由计算机处理,或者进一步抽象为更高层次的语义向量。特别是,FSL中的多模态学习是指通过利用多模态之间的互补性和消除模态之间的冗余来学习更好的特征表示。在现实生活中,当父母教孩子事物时,他们总是包括一般信息和语义描述。这对于FSL来说是至关重要的,因为FSL本身没有多少有效的信息来对数据或特征分布进行良好的评估。受此启发,许多研究工作[8]、[148]、[149]在求解FSL时考虑引入其他模态信息。通过融合多模态信息,可以提高模型对小样本数据的感知能力。图13为多模态下FSL的主要路径。

图13所示。多模态FSL场景下,如何在特征表示的条件下,通过融合、对齐、辅助等方式对其他模态信息进行有效建模,以弥补自身有效信息的不足。

6.1多模态嵌入

        近期的一些研究工作【9】、【148】、【149】、【150】、【160】证明了视觉特征在某些任务的少样本学习(FSL)方面存在局限性。语义空间作为辅助信息能够为视觉特征提供有效的上下文,并有助于少样本学习。实验表明[148],[149],两种或多种模态的自适应组合比单模态FSL要好得多。Wang等。[8]通过整合多个视觉特征,为每个类别构建弱语义监督。Schonfeld等人[149]使用变分自编码器(VAEs)来建模基于潜在视觉特征的语义特征。随后,Schwartz等人[150]和Peng等人[151]通过添加类标签、属性和自然语言描述以及知识推理进一步扩展了语义信息。通过嵌入损失函数将额外的语义信息与视觉特征对齐[152],大大降低了知识转移的成本。基于此,Karpathy等人[160]使用多模态对齐来寻找训练集图像中的图像补丁与其描述性话语之间存在的潜在对应关系。Aoxue等人[148]进一步使用语义信息将类建模为层次结构。

6.2从图像中生成语义信息

        除此之外,使用多模态FSL的另一个相关领域是文本到图像的生成。在少数镜头的视觉分类任务中,基于视觉和语义的方法[153]具有相当大的优势,它们试图使用文本描述来生成额外的训练图像。Pade等[153]使用生成式对抗网络作为数据生成器来训练模型,该模型可以基于语义信息有目的地生成相应的视觉特征,并结合原始视觉特征得到增强的视觉特征。Zhu等[159]和Xian等[0]分别对生成图像和特征向量进行了探索,在ZSL领域取得了可喜的进展。

        同样,Fortin等人[154]将文本到图像的生成迁移到目标检测任务,该任务可以与当前的FSL集成,在上下文联合学习阶段实现更通用的模块。Zhang等[155]在普通生成网络的基础上,通过连接两个cgan,提高了生成图像的分辨率。第一个子任务从文本生成相对模糊的图像,第二个子任务从模糊的图像生成高分辨率图像15。最终,该模型将使用更多的细节来生成图像。然而,有时文本描述包含多个目标,单个文本描述不能捕获图像中的所有细节。Sharma等人[156]提供了一个对话界面,使用对话中的文本信息来获取关于图像的更详细的信息。

        另一套文本到图像的算法是基于嵌入的可变自编码器。与生成方法不同,编码器的输入是属性向量。Akata等人[157]探索了不同来源的语义特征,如WordNet和词嵌入。但是,如果没有部分注释,这些方法无法识别图像的部分。Elhoseiny等人[158]使用视觉分类器通过仅使用文本术语和测试而不使用部分注释来检测鸟类图像数据集中的补丁。结果表明,视觉文本信息和鸟类器官可以用零样本进行关联。

6.3讨论与总结

        多模态FSL仍处于发展阶段,目前面临的挑战有:如何结合异构域的数据,如何处理不同模态结合过程中产生的不同程度的噪声,以及如何共同学习。表格8将多模态的外语学习任务分为表征、对齐、融合、共同学习和翻译。在多模态FSL中,一个好的特征表示应该能够根据观察到的模态信息来填补缺失的模态。未来将出现更多的方法,远远超出模态嵌入和从图像中生成语义信息。

表8 从多模态的小样本中学习的挑战。

7 FSL在计算机视觉中的应用

        在过去的五年中,我们对计算机视觉领域的FSL进行了系统的梳理和总结[161],并将任务分为图像分类、目标检测、语义分割和实例分割。下面是基于时间维度的图表形式的详细总结。通过阅读本节,读者将能够对计算机视觉领域的FSL有一个全面的掌握。

7.1少样本图像分类

        除了谷歌和Facebook,现实生活中的大多数研究人员都无法获得高质量的大型数据集。在FSL计算机视觉分类任务中,每个任务可能只包含一个或几个样本。解决少量图像分类任务主要通过数据增强、迁移学习、元学习和多模态融合学习来解决目前精度排名前三的方法都是基于主干模型的特征增强和特征变换。在本节中,我们研究了从2016年到现在的所有少样本图像分类模型,并计算了所有模型在mini-ImageNet基准数据集上的最佳性能。在这里我们使用5-way-1-shot和5-way-5-shot作为基准任务。表格图9和图14说明了我们的调查结果。

表9 FSL在计算机视觉图像分类任务中的最新表现

图14所示。2017-2021年间度量学习在图像分类任务中的最佳表现

7.2小样本目标检测

        小样本目标检测(Few-Shot Object Detection, FSOD)是一种从多个样本中检测稀有目标的方法。FSL在图像分类方面已经取得了很大的进展,但在目标检测方面却很少。目前,小目标检测的发展可以分为三个主要阵营:数据增强、迁移学习和元学习。其中,注意机制在小样本目标检测中起着举足轻重的作用。同样,为满足实时要求而进行少量目标检测的缓慢推理问题仍然很严重。表10和图15显示了FSL中目标检测的最新进展。

表10 2019-2021年FSL在小镜头目标检测任务中的最新表现

图15所示。2017-2021年目标检测任务中度量学习的最佳表现

7.3小样本语义分割

        直到2017年,才首次提出了小样本语义分割。它已被广泛应用于医疗图像和无人驾驶汽车等场景。与传统的语义分割不同,小样本语义分割在支持数据集中具有较少的像素标注信息。据我们所知,小样本语义分割可以大致分为监督语义分割、无监督语义分割和视频语义分割。在机器学习阶段,更经典的方法是使用概率映射作为先验知识进行推导。在深度学习阶段,出现了大量高效的分割工具算法,但这些模型往往需要大量的手工样本标注。最近,[201]通过提出一种更简洁的范例,对小样本语义分割进行了重大改进,其中只有分类器是元学习的,特征编码解码器仍然使用传统的分割模型进行训练。提供表11和图16显示小样本语义分割。

表11 2019-2021年FSL在小样本语义分割任务中的最新表现

图16所示。2018-2021年度量学习在语义分割任务中的最佳表现

7.4小样本实例分割

        与语义分割相反,实例分割涉及识别图像中的每个像素并单独标记它。近年来,很少有研究涉及到实例的小样本分割问题。目前的工作仍然集中在如何使用一些有效的工具来改进r - cnn。最近的研究[210]提出了一种增量式的少镜头实例分割算法,该算法极大地提高了基准数据集上的性能。在本节中,我们对近三年来关于小样本实例分割的论文进行了综述。表12和图17显示了小样本实例分割的研究进展.

表12 2018-2021年FSL在小样本实例分割任务中的最新表现。

图17。2017-2021年度量学习在实例分割任务中的最佳表现

8 FSL未来的发展方向和机遇

        近期相当多的研究工作在少样本学习(FSL)的各种任务设定方面已经取得了有前景的进展。然而,对于更具挑战性的场景而言,训练数据集和验证数据集都极少,在这种情况下,其他数据的分布既无助于对真实样本进行评估,也没有大量的训练数据或验证数据集可用于迁移学习。此外,元学习也没有足够的任务来初始化参数。依据本综述所提出的分类法,在本节中我们提出了少样本学习中几个可能的未来研究方向。此外,通过对少样本学习的这一全面综述,还介绍了其在应用和算法方面的近期进展。

8.1更好地评价数据分布

        FSL的本质是支持数据集太小,无法评估真实的数据分布。那么,怎样才能在有限的样本中最大限度地评估真实的数据分布呢?最新的工作[215]在这个方向上做了有益的尝试,提出了分布校正的思想,即对基类的均值和协方差进行计算校正,然后直接使用线性分类器获得良好的结果。事实上,当少数样本足够精确到足以估计真实数据分布时,FSL与传统深度学习之间的差异并不大。这是一个令人兴奋的探索方向。同样,在计算机视觉领域,也没有针对FSL的基于真实应用场景的任务设置或数据集。大部分工作仍然集中在利用和挖掘图像数据中的信息。目前主流的基准数据集或多或少都存在各种各样的问题:mini-Imagenet数据集存在一些样本不合适或者样本难度过大的问题,比如实体遮挡、同一张图像中的多个对象等。Omniglot数据集离实际应用程序很远,在实际应用程序中不容易受到启发。BSCD-FSL[36]提供了一个涉及卫星图像、医学图像的更强的跨域FSL基准数据集。到目前为止,还没有一个基准数据集来评估模型在细粒度细节上的泛化能力。开发和完成FSL领域的基准数据集将为FSL目前的最新技术提供更现实的评估。

8.2提高数据到标签映射的鲁棒性

        跨域少样本学习(BSCDFSL)的出现给少样本学习(FSL)带来了新的挑战。它的出现探索并揭示了当前少样本学习解决方案在跨域学习方面的局限性。近期的研究在这一领域已经取得了一些出色的成果,比如巧妙设计的任务微调、更精细的超参数微调、辅助数据集的构建以及与域无关特征的提取。目前,微调在迁移学习和元学习的交叉领域已经表现得非常稳健。然而,这两种技术仍然有很大的不同。预训练可以被看作是学习许多类别的任务,但它是单任务学习。而元学习则是一种多任务学习的方法。当下,是否存在一种更好的模型,能够整合元学习和微调,在最大化模型性能的同时降低元学习的计算复杂度,这是一个值得研究人员深入探讨和交流的方向。

8.3从历史任务中更有效地学习元知识

        元学习仍然局限于在定义的网络结构下的特定任务空间中的性能。在分类任务的情况下,目前只能考虑分类任务之间的关联。是否有可能有一个框架可以同时考虑分类、检测、预测和生成等任务?这将使元学习在某种程度上与任务概念分离开来。最近的一些工作试图将每个小批量作为一个整体进行优化。在这种情况下,如何优化内环将是高效应用优化的一个重要方向。在未来,预训练和微调将成为FSL的主流算法。目前,元学习还停留在探索任务之间的相关性,尚未出现相关理论来解释元学习背后的因果关系。随着因果关系理论框架的发展,元学习可能会成为一个更通用的框架。

8.4多模式信息的充分融合

        多模态学习是目前解决FSL问题的一种新兴方法,它通过在没有监督信息的情况下自动学习边缘场景中的小样本任务,并快速迁移到来自不同领域的数据。它被广泛认为是一种从有限领域的弱人工智能到通用人工智能的路径探索。在多模态学习场景中实现预训练和微调可以在很大程度上实现跨不同任务使用统一的特征表示。例如,跨模式理解和跨模式生成。多模态预训练模型的出现可以支持多个任务,在许多场景中泛化,并且具有大规模泛化和复制的强大能力。在融合两种或两种以上类型的信息(包括语义信息)方面已经做了大量的工作。尽管如此,主要工作仍然集中在像素和语义信息上,功能相对单一。为了有效地解决多模式下的特征重用问题,降低数据标注成本,业界迫切需要实现一种功能强大的三种及以上模式融合的预训练模型。

9 结论

        作为深度学习的一个重要分支,few-shot learning不需要大量的数据,而是选择了一种更柔和的方法来解决问题,它可以与迁移学习、元学习和数据增强等技术完美结合。在本文中,我们以问答的形式对FSL进行了全面的调查,从而容易区分混淆的概念,并总结了FSL下丰富的基线数据集。此外,我们提供了独特的见解,在新的分类下,FSL的发展面临的挑战。根据各阶段的知识整合程度,深入分析了19种相关研究方法的演变过程。此外,为了论述的完整性,我们还比较和分析了FSL在计算机视觉领域的最新进展。最后,根据最近大量的文献,我们列出了未来可能的研究方向和机会。总的来说,本文对近三年来FSL的前沿进展进行了全面的总结,希望对FSL及其相关领域的协同发展有所贡献。        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值