【读点论文】Deep Metric Learning for Few-Shot Image Classification: A Selective Review

Deep Metric Learning for Few-Shot Image Classification: A Selective Review

Abstract

  • 少样本图像分类是一个具有挑战性的问题,旨在仅基于少量图像实现人类水平的识别。深度学习算法,如元学习、迁移学习和度量学习,最近已被采用,并取得了最先进的性能。在本调查中,我们回顾了用于少样本分类的代表性深度度量学习方法,并根据它们关注的主要问题和新颖性将它们分为三组。我们以对少样本图像分类的当前挑战和未来趋势的讨论来结束这篇综述。
  • 少样本学习是一种机器学习范式,其目标是通过极少量的训练样本(通常是每个类别1到5个样本)来学习一个模型,使其能够在新的类别上进行泛化。与传统的监督学习不同,少样本学习不需要大量的标注数据,因此非常适合那些数据稀缺的场景。N-way K-shot 是机器学习和深度学习中用于描述小样本学习(Few-Shot Learning)任务的一个术语。它通常用于元学习(Meta-Learning)或小样本分类任务中。N-way: 表示在任务中有多少个类别(或类别数)需要进行分类。例如,如果任务是 “5-way”,那么模型需要在5个不同的类别中进行分类。K-shot: 表示每个类别中有多少个样本(或示例)用于训练或测试。例如,如果任务是 “5-shot”,那么每个类别有5个样本。在少样本学习(Few-Shot Learning)中,支持集(Support Set)和查询集(Query Set)是两个关键的概念,它们用于训练和评估模型在有限样本情况下的学习能力。
    • 支持集是用于提供模型学习所需信息的样本集合。它通常包含少量(即“少样本”)的标记数据,这些数据用于帮助模型识别和理解特定任务或类别。支持集的规模通常很小,可能只有几个样本(例如,每个类别只有1到5个样本)。在训练过程中,模型通过支持集来学习类别的特征和模式。
    • 查询集是用于测试模型性能的样本集合。它包含未标记的样本,模型需要根据从支持集中学到的知识来对这些样本进行分类或预测。查询集通常包含与支持集相同类别的样本,但模型之前没有见过这些样本。
  • 论文地址:[2105.08149] Deep Metric Learning for Few-Shot Image Classification: A Review of Recent Developments

Introduction

  • 图像分类是机器学习和计算机视觉中的一项重要任务。随着深度学习的快速发展,近年来该领域取得了突破性进展 。然而,这种进展取决于收集和标记大量数据(大约数百万),这在一些实际应用中可能是困难和昂贵的。更严重的是,这种学习机制与人类的学习机制形成鲜明对比,在人类中,一个或几个例子就足以学习一个新的概念 。因此,为了减少数据需求和模仿人类智能,许多研究人员开始关注少数样本分类 ,即从少数(通常为1-5个)标记的例子中学习分类规则。

  • 少数样本分类的最大挑战是模型过度适应来自小类的少数训练样本。为了缓解这一问题,研究者们提出了各种方法,如元学习方法、迁移学习方法和度量学习方法。元学习方法在许多不同的分类任务上训练元学习者,以提取可概括的知识,这使得能够用很少的例子快速学习新的相关任务。迁移学习方法假设源域和目标域之间共享知识,并微调在丰富的源数据上训练的模型,以适应少数标记的目标样本。度量学习方法学习特征嵌入 和/或距离度量(或者相反,相似性度量) ,并基于未知样本到标记样本或类别表示的距离对其进行分类;同一类的样本在嵌入空间中应该靠得很近,而不同类的样本应该离得很远。注意,上述方法可以同时应用,例如通过使用元学习策略学习度量学习方法的特征嵌入 。[Small sample learning in big data era,Learning from very few samples: A survey,Generalizing from a few examples: A survey on few-shot learning]中提供了对这些和其他少样本学习方法的综合调查。

  • 在本文中,我们提出了一个选择性的审查最近的深度度量学习方法的少数样本图像分类。度量学习方法值得特别注意,因为一旦学习了度量,它们就不需要学习新类别的附加参数,从而避免了上述过拟合问题。他们还在基准数据集上展示了令人印象深刻的分类性能。首先,为了完整起见,我们给出了少样本分类的定义,并介绍了评价过程和常用的数据集。其次,我们回顾了2018年至2021年发表的经典少样本度量学习算法和近期有影响力的作品。这些方法根据度量学习的三个阶段分为三组,即学习特征嵌入、学习类表示和学习距离或相似性度量。最后,我们讨论了现有方法中仍然存在的一些挑战和进一步发展的方向

  • 在Matching networks论文中对训练周期的定义上提出了episodes的概念,为了区别大数据训练的epochs,
    在episodes周期里,都是为了服务于few-shot任务的子类别样本训练,这个子类别就是区别于epochs中全类别子样本训练。很多meta-leaming中的任务也喜欢用episodes这个词汇,而对应神经网络中的minibatch是比较合适的。

  • 元学习旨在训练一个模型,使其能够快速适应新的任务。在小样本图像分类中,元学习通过在多个相关任务上进行训练,学习到通用的知识和模式,从而能够快速泛化到新的分类任务。需要设计合理的任务分布,确保任务的多样性和相关性;注意模型的泛化能力,避免在特定任务上过拟合。需要设计合理的任务分布,确保任务的多样性和相关性;注意模型的泛化能力,避免在特定任务上过拟合。

  • 迁移学习利用在大规模数据集上预训练的模型,通过微调或特征提取的方式,将其应用到小样本数据集上。预训练模型在大规模数据上学习到的通用特征表示,能够为小样本任务提供良好的初始化。预训练模型与目标任务之间的差异可能导致性能下降;微调过程中可能存在过拟合风险。

  • 度量学习通过学习样本之间的距离度量或相似度度量,将图像嵌入到一个特征空间中,使得同一类别的样本在该空间中距离较近,不同类别的样本距离较远。在小样本分类中,度量学习通过比较查询样本与支持集样本或类表示之间的距离,实现分类。特征嵌入和距离度量的学习难度较大;对支持集的质量和数量较为敏感。

  • 对于小样本图像分类任务,建议优先考虑度量学习方法,如Prototypical Networks、Relation Networks等。这些方法在小样本场景下表现出色,且计算资源需求相对较低。

The Framework of Few-Shot Image Classification

Notation and definitions

  • 我们首先建立符号,并通过推广少样本学习的定义给出各种类型的少样本分类的统一定义。

  • 少样本分类涉及两个数据集,基础数据集和新数据集。新数据集是执行分类任务的数据集。基础数据集是一个辅助数据集,用于通过传递知识来促进分类器的学习。我们使用 D b a s e = { f ( X i ; Y i ); X i ∈ X b a s e ; Y i ∈ Y b a s e } i = 1 N b a s e D_{base}=\{f(X_i;Y_i);X_i \in X_{base};Y_i\in Y_{base}\} ^{N_{base}} _{i=1} Dbase={fXiYi);XiXbaseYiYbase}i=1Nbase 表示基础数据集,其中Yi是实例Xi的类标签;在图像分类的情况下,Xi表示第i个图像的特征向量。新数据集用 D n o v e l = { ( X ˉ j ; Y ˉ j ); X ˉ j ∈ X n o v e l , Y ˉ j ∈ Y n o v e l } j = 1 N n o v e l D_{novel}=\{(\bar X_j;\bar Y_j);\bar X_j\in X_{novel} ,\bar Y_j \in Y_{novel}\} ^{N_novel} _{j=1} Dnovel={XˉjYˉj);XˉjXnovel,YˉjYnovel}j=1Nnovel。Dbase和Dnovel在标签空间中没有重叠,即$Y_{base} ∩ Y_{novel}= None $;。为了训练和测试分类器,我们将Dnovel分为支持集DS和查询集DQ

  • 定义1。假设支持集DS可用,并且DS中每个类的样本量非常小(例如,从1到5)。少样本分类任务旨在向DS学习分类器 f : X n o v e l → Y n o v e l f:X_{novel} \rightarrow Y_{novel} f:XnovelYnovel 可以正确地对查询集DQ中的实例进行分类。特别是,如果DS包含C类和每个类的 K 个标记示例,则该任务称为C路K-shot分类;如果DS中每个类的样本量为 1,则该任务称为 one-shot 分类。在介绍下一个定义之前,我们先介绍域的概念。域由两个部分组成,即特征空间X和X上的边际分布P(X)。

  • 定义2。如果基础数据集和新数据集来自两个不同的域,即 X b a s e ≠ X n o v e l X_{base} \neq X_{novel} Xbase=Xnovel P ( X ) ≠ P ( X ˉ ) P(X)\neq P(\bar X) PX=PXˉ,其中 X ∈ X b a s e X \in X_{base} XXbase X ∈ X n o v e l X \in X_{novel} XXnovel,则称为跨域少样本分类任务。

Evaluation procedure of few-shot classification

  • 我们提供了一个通用的程序来评估算法1中 C 路K-shot分类分类器的性能。评估程序包括许多事件(即任务)。在每一集中,我们首先从新标签集中随机选择C类,然后从每个C类中随机选择K个样本形成支持集,从这些 C 类的剩余样本中随机选择M个样本形成查询集。设Xe和Ye分别表示查询集中的实例集和标签集。学习算法在接收到基础数据集和eth支持集后返回分类器 f ( ⋅ ∣ D b a s e ; D S ( e ) ) f(·|D_{base};D^{(e)}_S) fDbaseDSe,该分类器将查询实例的标签预测为 Y ^ ( e ) = f ( X ( e ) ∣ D b a s e ; D S ( e ) ) \hat Y^{(e)}=f(X^{(e)}|D_{base};D^{(e)}_S) Y^e=fXeDbaseDS(e)。设a(e)表示eth事件的分类准确性。学习算法的性能是通过所有事件的平均分类精度来衡量的。
    • 在这里插入图片描述

Datasets for few-shot image classification

  • 在本节中,我们简要介绍了用于少样本图像分类的基准数据集。数据集和常用实验设置的统计数据如下,样本图像如图1所示。

    • 在这里插入图片描述

    • 图1:用于少样本图像分类的基准数据集的示例图像。数据集包括Omniglot、Mini ImageNet、Fewshot CIFAR100、斯坦福犬和CUB-200-2011。

  • Omniglot:Omniglot数据集是用于评估少样本分类算法的最广泛使用的数据集之一。它包含来自50种语言的1623个字符。数据集通常通过90度、180度、270度的旋转来增强,产生6492个类,这些类分为4112个基本类、688个验证类和1692个新类。验证类用于模型选择。在最新研究中,该数据集的使用频率较低,因为许多方法在5way 1次分类任务中可以达到99%以上的准确率。

  • Mini ImageNet:Mini ImageNet数据集是另一个广泛使用的数据集。它由ImageNet中的100个选定类组成,每个类有600张图像。该数据集最初由Vinyals等人提出,但最近的研究遵循了Ravi和Larochelle提供的实验设置,该设置将100个类别分为64个基本类别、16个验证类别和20个新类别。

  • Fewshot-CIFAR100:Fewshot CIFAR100数据集建立在CIFAR-100的基础上,CIFAR-100包含100个类,每个类有600个图像。数据集分为64个基本类、16个验证类和20个新类。请注意,提出了另一种拆分策略,将100个类分为20个超类,并在此基础上形成基类、验证类和新类

  • 斯坦福犬:斯坦福犬数据集是细粒度分类任务的基准数据集之一,其中包含120个品种(类)的狗,总共20580张图像。这些类分别分为70个基本类、20个验证类和30个新类。

  • CUB-200-2011:CUB数据集是一个细粒度的鸟类分类数据集,共包含200个类别和11788张图像。数据集通常分为100个基本类、50个验证类和50个新类。

  • Mini-ImageNet CUB:Mini-ImageNet CUB数据集用于跨域少样本分类。Mini-ImageNet用作基础数据集,CUB-200-2011的50个类用作验证类,其余50个类作为新类。

Few-Shot Deep Metric Learning Methods

  • 监督度量学习的目标是学习实例对之间的距离度量,该度量分配小的(大的,相应的)到语义相似(不相似,分别)实例。在少数样本分类的情况下,度量是在基本数据集上学习的;新类别的查询图像通过计算它们相对于学习到的度量到新支持图像的距离来分类,随后应用基于距离的分类器,例如k-最近邻(kNN)算法。传统的度量学习方法学习一个Mahalanobis距离,相当于学习一个原始特征的线性变换。
  • 然而,在深度度量学习中,距离度量和特征嵌入通常是分开学习的,以便捕捉非线性数据结构并生成更具区分性的特征表示。此外,许多少量度量学习方法不是与单个样本进行比较,而是将查询样本与类表示(如原型和子空间)进行比较。在本节的剩余部分,我们对代表性的方法进行了简要的回顾,这些方法根据其改进的部分分为三组,即1)学习特征嵌入,2)学习类表示,以及3)学习距离或相似性度量。图2总结了这些方法。
    • 在这里插入图片描述

    • 图2:本文中回顾的少量深度度量学习方法的分类。一些方法有助于度量学习的两个方面,因此出现两次。

Learning feature embeddings

  • 学习特征嵌入的方法隐含地假设该网络对于提取区别特征是强大的,并且可以很好地推广到新的类别。早期的方法旨在建立一个对任何任务都有效的任务无关的嵌入模型。最近,人们努力学习一种特定于任务的嵌入模型,以便更好地区分手边的类。此外,用于数据扩充和多任务学习的技术被用来解决数据稀缺和过度拟合的问题。
Learning task-agnostic embedding models
  • 暹罗卷积神经网络是第一个用于一次性图像分类的深度度量学习方法。首先在[Signature verification using a “siamese” time delay neural network]中介绍的暹罗网络由两个具有相同架构和共享权重的子网络组成。[Siamese neural networks for one-shot image recognition]采用VGG式卷积层作为子网络,从两幅图像中提取高级特征,并采用加权L1距离作为两个特征向量之间的距离。使用传统的小批量梯度下降技术来训练网络的权重以及组件式距离的权重。

  • 匹配网络在整个支持集的上下文中使用不同的网络对支持和查询图像进行编码,并且它首次将情节训练引入到少样本分类中。通过双向LSTM网络嵌入支持图像,该网络不仅考虑图像本身,还考虑集合中的其他图像;查询图像通过具有注意机制的LSTM嵌入,以实现对支持集的依赖。然而,双向LSTM的顺序性质导致特征嵌入将随着支持集中样本的不同排序而改变。这个问题可以被回避,例如通过应用汇集操作或使用自我关注。匹配网络的分类机制适用于少样本学习。网络通过计算所有支持样本的独热标签向量的凸组合来输出标签分布,其中系数通过使用余弦相似性上的软最大值来定义;具有最高概率的类别被选为预测类别。另一个有价值的贡献是基于情节的训练策略,这种策略被后来的许多作品所采用。按照元学习的思想,在基本数据集上的训练阶段应该模拟预测阶段,在预测阶段只有很少的支持样本可用。也就是说,梯度更新应该在具有从基本标签集中随机采样的C个类别和每个类别的K个示例的剧集上执行

  • 间歇训练策略缩小了训练和测试分布之间的差距,从而缓解了过拟合问题。这也可以从不同的角度通过直推推理利用查询实例(即,排除查询标签)来解决。直推式传播网络(TPN) 是第一个采用直推式推理进行少量学习的工作,并引入了标签传播的思想。具体地,该网络包含特征嵌入模块和图形构建模块。图构造模块以特征嵌入作为输入,学习标签传播图以利用支持和查询样本的流形结构。特别地,根据高斯核构建kNN图,高斯核的长度尺度参数以示例方式学习。基于该图,标签从支持集传播到查询集;标签传播的封闭形式的解决方案用于加速预测过程。泊松转移网络(PTN) 通过应用泊松学习算法改进了标签传播方案,该算法在理论上已被证明是更稳定和信息更丰富的,尤其是在标签非常少的情况下。PTN主要用于半监督少样本分类,使用比查询样本更多的未标记数据,通过对比自监督学习进一步增强特征嵌入,并使用图割方法改进推理过程。

  • 考虑到感兴趣的对象仅位于图像的一个区域中,并且位于跨图像的不同位置,一些工作通过关注图像的局部信息来进一步增强特征嵌入方法,例如,通过学习局部特征和编码位置信息。在深度最近邻神经网络(DN4) 中,特征嵌入模块从图像中提取多个局部描述符**,这些描述符实质上是在添加最终图像级池层之前通过CNN学习的特征映射。分类是在图像到类别的级别上执行的,这意味着来自相同类别的支持图像的局部描述符被放入一个池中,在每个类别池中搜索KNN以寻找每个查询局部描述符,并且所有局部描述符和KNN的总距离被用作查询图像和相应类别之间的距离**。该方法在细粒度数据集上特别有效,并且学习局部描述符的思想已经在其他细粒度分类方法中采用。自适应任务感知局部表征网络(ATL-Net) 通过选择具有学习阈值的局部描述符并根据情节注意力为其分配不同的权重,改善了DN4,这比使用kNNs带来了更大的灵活性,并分别调整了类之间的可区分性。与在空间局部面片上学习一个特征嵌入相反,COMET 在输入特征的各个部分上学习多个嵌入函数。一组称为概念的固定二进制掩码被应用于输入特征,以将图像分成人类可解释的片段。对于每个概念,学习特征嵌入以将屏蔽的特征映射到新的区别特征空间。根据从所有特定概念空间聚集的距离对查询图像进行分类。

  • 为了降低关系网络(将在3.3.2节中介绍)对语义对象的空间位置的敏感性,位置感知关系网络(PARN) 采用了可变形卷积层来提取更有效的特征,这些特征过滤掉了背景等不相关的信息,并采用了双重相关注意模块来将图像的每个空间位置与关于比较图像和图像本身的全局信息结合起来,以便后续的卷积操作,即使受到局部连通性的影响,也可以感知和比较不同位置的语义特征。与克服位置敏感性的标准方法(例如通过使用更大的内核或更多层)相比,PARN更具参数效率。图像不同部分之间的空间关系也通过使用胶囊网络在[Attentive prototype few-shot learning with capsule network-based embedding]中进行了编码。

  • 当新数据来自不同的领域时,上述设计用于对来自相同领域的新数据进行分类的方法会降级。Tseng等人注意到这是由不同领域中的特征分布之间的较大差异引起的,并提出在训练阶段模拟各种特征分布作为增强度量学习方法的领域推广能力的通用解决方案。这是通过将多个基于特征的变换层插入特征提取器来实现的;每个变换模拟一个分布,并且仿射变换的超参数可以通过元学习方法来调整,使得它们对于特定的度量学习方法是最优的,并且捕获特征分布中的复杂变化

Learning task-specific features
  • 前一节中回顾的方法为图像生成相同的特征嵌入,而不管随后的分类任务。虽然这避免了过度拟合的风险,但是这些通用特征可能不足以区分新的类别。为此,已经提出了特定于任务的嵌入模型来使特征适应特定的任务;应该注意的是,适应是在基本数据集上学习的,并且不涉及在新数据集上的任何重新训练。

  • TADAM 是第一个明确执行任务调整的度量学习方法。利用条件批量归一化技术,它将特定于任务的仿射变换应用于任务不可知特征提取器的每个卷积层。任务由类原型的平均值来表示,并且仿射变换的比例和移位参数从称为任务嵌入网络(TEN)的独立网络中生成。由于TEN引入了更多的参数并导致优化困难,训练方案被修改以添加标准训练,即区分基本数据集中的所有类,作为情节训练的辅助任务。

  • 李等人提出了一种元学习方法,该方法可以使匹配网络的权重适应新数据。所提出的LGMNet由一个称为元网的元学习器和一个称为目标网的特定任务学习器组成。元网络模块学习从支持集产生每个任务的表示,并构建从表示到目标网络权重的映射。设置为匹配网络的TargetNet模块嵌入支持和查询图像并执行分类。所提出的元学习策略可以潜在地实现来适应其他度量学习方法的网络参数

  • 与上述两个为特定任务嵌入层生成参数的工作不同,李等人提出修改从任务不可知嵌入层输出的通用特征。从类别遍历模块(CTM)生成特定于任务的特征掩码,该模块包括集中器单元和投影器单元,以分别提取类内共性和类间唯一性的特征。值得注意的是,CTM可以很容易地嵌入到大多数少拍度量学习方法中,例如匹配网络、原型网络和关系网络;后两种方法将在下面的章节中介绍。Ye等人也提出了直接调整特征,但是,不是应用掩码,而是使用集对集函数将一组任务不可知的特征转换成一组任务特定的特征。这些函数可以对一组图像之间的交互进行建模,从而实现每个图像的共同适应。中给出了四种集对集函数逼近器,其中一种称为FEAT的带变压器函数逼近器最为有效。

  • Yoon等人建议XtarNet为新的通用少样本学习设置学习特定于任务的特征,其中模型在基础数据集上训练,根据新数据集的支持集进行调整,并用于对基础类和新类的实例进行分类。XtarNet包含三个元学习者。MetaCNN模块为每个任务调整特征嵌入。MergeNet模块产生用于混合预训练特征和元学习特征的权重。由于分类是通过将混合特征与类原型进行比较来执行的,因此 TconNet 模块采用基本类和新类的原型来提高可辨别性。

Feature learning with data augmentation
  • 数据扩充是一种策略,它以人工或基于模型的方式通过标签保留转换来扩展支持集,因此非常适合支持样本有限的情况。一种常用的方法是变形,如裁剪、填充和水平翻转。除此之外,生成更多的训练样本和伪标签也是增加数据的流行技术

  • 在少样本学习中,有一类作品将数据扩充过程置于一个模型中,即嵌入一个可以生成扩充数据的生成器来学习或想象数据的多样性。Wang等人构建了一种端到端的少样本学习方法,其中训练数据通过两个流输出-一个是从原始数据直接到分类器,另一个是从原始数据到“幻觉”网络以增强数据,然后从增强的数据到分类器。Zhang等人开发了一种基于显著性的数据生成策略。显著性网络获得图像的前景和背景,用于实现图像的幻觉。

Multi-task feature learning
  • 除了生成更多的训练特征外,一些工作试图利用样本的辅助信息来构建多任务学习,从而学习出有区别的特征。
  • Gidaris等人提出了一种结合自我监督的少量学习方法。具体来说,支持样本被人工旋转到不同的度数。一个共享的特征嵌入通过两个分支网络学习,一个是用于原始分类任务,另一个是识别旋转程度。此外,如上文简要解释的,TADAM 使用辅助任务,即基本数据集上的普通全局分类器,来共同训练少数样本分类器。辅助任务在训练过程中以一个概率进行采样,并产生正则化效果。

Learning class representations

  • 早期的少数样本度量学习方法,如暹罗网络和匹配网络,通过测量和比较其与支持样本的距离来对查询样本进行分类。然而,由于支持样本是稀缺的,他们在代表小说类的能力有限。为了缓解这个问题,一些研究者建议使用类原型,作为每个类的参考向量。原型可以通过简单或加权平均的特征嵌入来构建,或者以端到端的方式学习,以进一步提高其表示能力。除了基于点的原型,一些作品考虑了每个类的分布或者使用子空间作为类表示。
Mean feature embeddings
  • 原型网络是一种经典方法,它通过计算学习嵌入空间中到类原型的欧几里德距离来执行分类。每个类的原型被设置为该类中支持样本的特征嵌入的平均值。以最小化交叉熵损失为目标,使用情节训练来学习特征嵌入,从而学习类原型。这项工作建立在这样一个假设上,即存在一个嵌入空间,其中每个类都可以用一个原型来表示,并且所有实例都聚集在它们对应的类的原型周围。建立在原型网络上,任等提出半监督原型网络,这是半监督少拍学习的第一个工作。标记的支持样本和未标记的样本都用于生成原型表示。特别地,该方法采用软k-means计算未标记样本的分配分数,并基于分配分数计算作为加权样本的平均值的原型

  • 考虑到数据集可能呈现多模态,多个原型更适合这种情况,无限混合原型(IMP) 对每个类中的多个聚类进行建模,每个聚类建模为高斯分布。具体地,样本遵循每个聚类的高斯分布的概率决定了样本被分配到哪个聚类中。此外,需要学习的高斯分布的聚类方差会影响类原型的数量和IMP的性能

  • Wu等人提出计算依赖于查询的原型。为每个查询计算关注原型作为支持样本的加权平均,并且权重由具有查询和支持样本之间的欧几里德距离的高斯核给出。因为与查询更相关的支持样本对分类具有更大的影响,所以该方法对支持样本中的离群点更鲁棒。在CrossTransformers (CTX) 中也研究了依赖于查询的原型,但是它们是为每个空间位置单独计算的。换句话说,将查询图像的局部区域与特定于该查询和区域的关注原型进行比较,并且查询和原型之间的总距离是所有局部区域上的平均距离。此外,自我监督的插曲是建设训练CTX。

Learning point-based prototypes
  • Ravichaandran等人采用了一种隐式的方法来学习类表示,而不是像前面提到的方法那样确定类原型。原型通过最小化一个目标函数来获得,该目标函数测量样本的特征嵌入和类原型之间的距离。类原型被建模为类中标记样本的特征嵌入的可学习和参数化的函数。同时,该函数是无抽样的,也就是说,它允许新数据中类的样本大小是不平衡的。Das和Lee提出了一个生成类原型的两阶段方法。在第一阶段,学习特征嵌入,由此可以从平均嵌入中获得基本类和新类的粗略原型。在第二阶段,新的类原型通过它自己的原型和相关的基本原型的元学习功能被提炼。

  • 除了上述方法,TapNet 明确地将类原型建模为可学习的参数。原型和特征嵌入是按照原型网络的训练过程同时学习的。此外,为了使原型和特征嵌入更具体地针对当前任务,它们都通过线性投影矩阵投影到新的分类空间。投影矩阵是通过使用线性零化操作获得的,并且不包括任何可学习的参数。罗等人提出通过在训练过程中包括新颖类的支持集来同时学习基础类和新颖类的原型。每集从样本合成模块生成局部原型,旨在增加小说类的多样性。然后在注册模块中使用它们来更新全局原型,使其具有更好的可分性。通过在全局原型中搜索最近的邻居来分类查询图像。由于学习了基本原型和新原型,该方法可以很容易地应用于通用的少数样本学习设置。Chen等人分享了学习基础和新颖原型的相同目的,但是另外利用了这些类之间的语义相关性。提出了一种知识图传递网络(KGTN ),它采用门控图神经网络将类原型和相关分别表示为节点和边。通过在图中传播,来自相关基类的信息被用于指导新颖表示的学习

Learning class distributions or subspace representations
  • 考虑到基于单点的度量学习对噪声敏感,Zhang等人提出了一种变分贝叶斯框架用于少拍学习,并使用Kullback-Leibler散度来度量样本的距离。该框架可以通过基于神经网络估计每个类别的分布来计算查询图像被分配到每个类别的置信度

  • Simon等人提出深子空间网络(DSN)使用低维子空间来表示每个类别,该低维子空间通过奇异值分解从支持样本构建。根据最近子空间分类器对查询样本进行分类,即将查询分配给查询与其在特定于类的子空间上的投影之间具有最短欧氏距离的类。与原型网络相比,该方法对噪声和异常值具有更强的鲁棒性

Learning distance or similarity measures

  • 第3.1节和第3.2节中回顾的方法集中于学习嵌入或获得准确类别表示的区别特征。对于分类,他们大多采用固定的距离或相似性度量,如欧几里德距离和余弦相似性。最近,研究人员提出学习这些固定测度中的参数或定义新的测度,以进一步提高分类精度。此外,通过使用全连接神经网络或图形神经网络(GNNs ),已经做出了相当大的努力来学习相似性得分
Learning or selecting an analytical distance or similarity measure
  • 在TADAM 中,Oreshkin等人从数学上分析了度量标度对损失函数的影响。从那时起,许多工作通过交叉验证调整比例参数。Chen等人提出在贝叶斯框架中学习这一点。通过假设单变量或多变量高斯先验,并应用随机变分推理技术来近似后验分布,可以分别学习缩放参数或缩放向量,其在所有维度上相等地缩放距离或者对于每个维度不同地缩放距离。特定于任务的比例矢量也可以通过从任务到变化的参数学习神经网络来学习。

  • 传统的Mahalanobis距离使用协方差矩阵的逆矩阵去相关和缩放特征。在简单CNAPS 中,在使用条件神经自适应过程(CNAPS) 的架构提取特征之后,基于查询实例和类原型之间的Mahalanobis距离执行分类。特定于任务的特定于类的协方差矩阵被估计为样本协方差矩阵的凸组合,该样本协方差矩阵是从任务的实例和类的实例中估计的,并朝着单位矩阵正则化。直推式情景自适应度量(TEAM) 构建了融合支持样本和查询图像的任务特定度量。TEAM包含三个模块,即特征提取器、特定任务度量模块和相似性计算模块。特定于任务的度量模块学习Mahalanobis距离,以缩小相似对之间的距离,并扩大不同对之间的距离,遵循开创性度量学习方法的目标函数。

  • Nguyen等人提出了一种称为SEN的相异度度量,它结合了欧几里德距离和L2范数的差异。最小化这一措施将鼓励特征标准化,从而有利于分类性能。DeepEMD 结合了密集图像表示上的结构距离、earth mover’s 距离(EMD)和卷积特征嵌入来进行少量拍摄学习。以端到端的方式训练EMD中的最佳匹配流参数和特征嵌入中的参数。

Learning similarity scores via neural networks
  • 关系网络是第一个引入神经网络来模拟少样本学习中特征嵌入的相似性的工作。它由嵌入模块和关系模块组成。嵌入模块建立在用于将原始图像映射到嵌入空间的卷积块上,而关系模块由两个卷积块和两个全连接层组成,用于计算每对支持和查询图像之间的相似性。可学习的相似性度量增强了模型的灵活性。

  • 与关系网络不同,语义对齐度量学习(SAML) 采用多层感知器(MLP)网络来计算相似性得分。具体来说,SAML包含特征嵌入模块和语义对齐模块。在语义对齐模块中,首先通过使用固定的相似性度量和注意机制来计算局部特征级的关系矩阵,然后将其馈送到MLP网络,该网络输出查询和支持类之间的相似性得分

  • 最近,一些研究者采用图神经网络来实现少样本分类。与上面的综述工作一样,基于GNN的方法也使用神经网络来模拟相似性度量,而其优势在于样本上丰富的关系结构。Garcia等人提出了第一个基于GNN的神经网络,用于少量学习,这里是GNN-FSL的缩写。它包含两个模块,特征嵌入和GNN模块。在GNN模块中,一个节点代表一个样品,更具体地说,等于样品及其标签的特征的串联。对于查询样本,其在第一个GNN层中的初始标签使用K-单纯形上的均匀分布(K是少点学习中的类的数量),并且其在最后一个GNN层中的预测标签用于计算损失函数

  • 像GNN-FSL一样,边缘标记图神经网络(EGNN) 也包含一个特征嵌入模块和一个三层GNN模块。然而,EGNN不是标记节点,而是学习标记GNN层中的边,以便它可以通过使用类内相似性和类间不相似性显式地聚类样本。在EGNN中,每个GNN图层都有自己的损失函数,该函数是基于图层中的边值计算的,总损失是所有GNN图层的损失函数的加权和。直推式关系传播图神经网络(TRPN) 通过将支持-查询对视为图节点来明确地对它们的关系进行建模。在关系传播之后,学习相似性函数以将更新的节点映射到相似性分数,该相似性分数表示支持和查询样本属于同一类别的概率。得分总和最高的类别为预测类别。

  • 先前基于GNN的方法仅仅关注一对样本之间的关系。在分布传播图网络(DPGN) 中,通过从相似性向量生成分布特征来考虑样本和所有支持样本之间的全局关系。构建了一个对偶完全图来独立处理样本级和分布级特征,并使用循环更新策略在两个图之间传播。来自分布图的信息细化了样本级节点特征,并因此基于它们的边相似性改进了分类。

Challenges and Future Directions

  • 尽管少样本度量学习方法已经实现了有希望的性能,但仍有几个重要的挑战需要在未来处理。

    • 改进在少量样本上的广义特征学习。关于特征学习,在现有的少样本度量学习方法中,甚至在整个少样本学习方法中,研究者大多尝试基于注意机制、数据扩充、多任务学习等方法来学习区分特征。为了从少量标记样本中学习具有良好泛化能力的特征,需要开发新的评估和特征学习方法

    • 反思情景训练策略的使用。虽然片段训练是在少数样本学习环境中训练度量学习方法的常见实践,但是要求每个训练片段具有与评估片段相同数量的类和图像是严格的;事实上,观察到了大量类别的好处。此外,模型在接收到一集之后得到更新,而不考虑其质量,因此容易出现像离群值一样的差采样图像。是第一次试图通过利用情节之间的关系来缓解这个问题;需要更多的解决方案来识别高质量且对小说任务有用的剧集。此外,我们注意到,阶段性训练可能导致模型不符合基本数据集。一个可能的原因是,通过使用情节训练,方法采用从基本数据集采样的大量任务的连续学习,并遭受灾难性遗忘,即,在学习新任务后,从先前任务学习的模型被取代。因此,如何避免这一问题并提高度量学习方法在基础数据集和新数据集上的模型拟合能力仍然是一个挑战。

    • 发展跨领域少样本分类的度量学习方法。虽然在实践中基本数据集和新数据集可能来自不同的领域,但是目前只有很少的工作关注跨领域的少镜头学习。最近,更严重的是,报道了所有元训练方法,包括审查的工作,在存在大的域转移的情况下,特别是在对自然图像进行训练和评估时,例如对农业和卫星图像,优于简单的直推式微调。困难在于基本数据和新数据通常具有不同的度量空间。因此,如何减轻训练和评估阶段之间的领域转换需要在未来进行探索

Conclusions

  • 本文简要回顾了近年来的少量深度度量学习方法。我们提供了少量学习的定义和一般评估框架,然后对代表性方法进行分类和回顾,最后总结了主要挑战。基于这些挑战,未来可以进一步探索几个新的方向。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羞儿

写作是兴趣,打赏看心情

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值