Semantic Prompt for Few-Shot Image Recognition-CSDN博客

本文链接：https://blog.csdn.net/qq_46563097/article/details/131342703

动机：

小样本学习 (FSL) 是一个基本且具有挑战性的任务，旨在预测具有稀有样本的新类。由于新类的标记图像很少，一个简单的替代方法是使用其他形式的辅助信息，例如自然语言，来帮助学习新概念。最近的FSL研究提出从类名中推断文本原型，并将其与从罕见的支持图像中提取的视觉原型（即分类器）相结合。通过引入更复杂的文本原型预测因子（如图卷积网络）或通过利用大规模预训练语言模型的优势产生更准确的文本原型来改进这项工作。

尽管这些方法取了成功，但上述从文本特征直接推断类别原型的方法大多忽略了文本和视觉特征之间的信息差距。具体来说，文本特征可能包含新类和已知类之间的语义关系。然而，由于缺乏与底层视觉表示的交互，它们未能提供新类的确切的判别视觉特征。因此，当直接将丰富的语义信息注入分类器时，识别新类的益处有限。此外，在只有有限的支持图像的情况下，学习到的视觉特征仍然受到虚假特征的影响，例如背景杂波，并且难以产生准确的类原型。

在本文中，我们提出了语义提示，这是一种利用类名的文本信息来显著提高视觉特征表示能力的新方法，用于小样本学习。我们不是直接从文本特征推断原型，而是探索利用文本特征作为语义提示，为罕见的支持样本自适应地调整特征提取网络。

摘要

小样本学习是一个具有挑战性的问题，因为只有少数示例被提供来识别新类。最近的几项研究利用额外的语义信息，例如类名的文本嵌入，通过将语义原型与视觉原型相结合来解决稀有样本的问题。然而，这些方法仍然受到从稀有支持样本中学习到的虚假视觉特征的影响，导致效益有限。在本文中，我们提出了一种用于小样本学习的新型语义提示 (SP) 方法。我们没有简单地利用语义信息来弥补分类器，而是探索利用语义信息作为提示来自适应地调整视觉特征提取网络。具体来说，我们设计了两种互补的机制，将语义提示插入到特征提取器中：一种是通过自我注意使语义提示和补丁嵌入之间的交互沿空间维度，另一种是沿着通道维度用转换后的语义提示来补充视觉特征。通过结合这两种机制，特征提取器具有更好的关注类特定特征的能力，并且只需几个支持样本即可获得更通用的图像表示。通过对四个数据集的广泛实验，所提出的方法取得了可喜的结果，平均将 1-shot 学习准确率提高了 3.67%。

引言

小样本学习 (FSL) [21] 是一个基本且具有挑战性的任务，并且在很大程度上仍未解决，因为它旨在预测具有稀有样本的新类。为了解决这个问题，最有效的 FSL 方法利用来自大型标记基础数据集的先验知识，并将先验知识编码为一组初始网络参数 [12, 37, 42]，或者由所有类共享的固定嵌入函数[16，45，46，49]。

由于新类的标记图像很少，一个简单的替代方法是使用其他形式的辅助信息，例如自然语言，来帮助学习新概念，这在零样本学习中已经得到了广泛的研究[13,26,40,43]。这些方法通常直接使用文本嵌入作为新类的图像分类器。根据这一想法，最近的FSL研究[52]提出从类名中推断文本原型，并将其与从罕见的支持图像中提取的视觉原型（即分类器）相结合。其他[32，53]通过引入更复杂的文本原型预测因子（如图卷积网络）或通过利用大规模预训练语言模型的优势产生更准确的文本原型来改进这项工作。

尽管它们取得了成功，但上述从文本特征直接推断类别原型的方法大多忽略了文本和视觉特征之间的信息差距。具体来说，文本特征可能包含新类和已知类之间的语义关系。然而，由于缺乏与底层视觉表示的交互，它们未能提供新类的确切的判别视觉特征。因此，当直接将丰富的语义信息注入分类器时，识别新类的益处有限。此外，在只有有限的支持图像的情况下，学习到的视觉特征仍然受到虚假特征的影响，例如背景杂波，并且难以产生准确的类原型。例如，如图1所示，给定一个新类别“独轮车”的支持图像，特征提取器可能会捕获包含独轮车和其他干扰物（如骑手和瓦片屋顶）的图像特征，而无法在其他环境中识别独轮车。事实上，人类感知系统有一种独特的视觉感知机制，称为认知穿透性[30]，它利用语言先验知识将正在进行的视觉感知处理调整为类别相关的刺激特征，促进对新物体的学习。因此，有必要开发一种新的架构来有效地利用文本信息来弥补由罕见样本引起的缺陷表示。

（给定一个关于新类“独轮车”的图像，特征提取器很容易被虚假特征混淆，如独轮车上的骑手，无法获得关于新类的广义图像表示。在本文中，我们提出了语义提示，这是一种在丰富的语义先验知识上调节特征提取的新方法，使得特征提取器捕获了关于新类的内在类特定特征。）

在本文中，我们提出了语义提示，这是一种利用类名的文本信息来显著提高视觉特征表示能力的新方法，用于小样本学习。我们不是直接从文本特征推断原型，而是探索利用文本特征作为语义提示，为罕见的支持样本自适应地调整特征提取网络。如图1所示，在语义提示的引导下，特征提取器有望为新类捕获固有的特定于类的特征，而不是其他背景杂乱。此外，大规模训练的出现产生了大量强大的自然语言处理(NLP)模型，如BERT[9]和GPT[36]，它们引导从类名中提取丰富的文本信息。通过语义提示和视觉特征之间的交互，这种语义丰富的表示具有强大的潜力，可以为特征提取器提供关于新类的附加判别视觉特征，并随后生成更一般化的类原型。

为了将视觉特征提取以语义提示为条件，我们提出了两种互补的机制来将语义信息注入特征提取器，这两种机制分别允许语义提示和视觉特征在空间维度和通道维度上进行交互。具体来说，为了促进空间维度上的交互，我们使用语义提示扩展了图像补丁序列，并将其输入到Transformer编码器中。通过自注意层，语义提示可以通知特征提取器注意类特定特征，同时抑制其他干扰因素。对于通道维度上的交互，我们首先将语义提示与从所有补丁中提取的视觉上下文连接起来，然后将它们输入到MLP模块中。将提取的特征向量添加到每个补丁令牌，以逐通道调制和增强视觉特征。通过将这两种交互机制相结合，所提出的语义提示方法（SP）可以有效地利用类名中的文本信息来提高FSL。通过在四个基准上的综合实验，所提出的SP在不同类型的文本编码器和架构设计下表现出一致的性能改进，证明了其对FSL问题的强大通用性。

总之，本文的贡献有三个方面：

我们提出了一种新的语义提示方法来利用类名中的文本信息进行小样本图像识别，该方法的灵感来自于人类感知中的自上而下的认知渗透效应，旨在根据语义提示自适应地将特征提取调整为类特定特征。

为了将视觉特征提取以语义提示为条件，我们提出了两种互补的机制来将语义提示注入视觉特征提取器，这两种机制分别允许在空间维度和通道维度上进行交互。

该方法在四个FSL基准上取得了显著的性能，在具有挑战性的one-shot设置下，FSL精度平均提高了3.67%。

问题公式化

FSL问题通常被定义为N-way K-shot分类任务，其中模型应该基于来自支持集S的几个标记示例（ $x_{i}^{s}$ ， $y_{i}^{s}$ ） $_{i=1}^{N\times K}$ ，将来自查询集Q的查询样本 $x^{q}$ 分类为N个类 $C_{novel}$ 中的一个，提供大的标记数据集 $D_{base}$ 以在执行小样本学习之前预训练模型。先前的工作通常采用元训练策略[49]将基本数据集拆分为多个N-way K-shot集。每个集还包含一个支持集和一个查询集，模仿测试期间的小样本学习问题。注意基类 $C_{base}$ 与新类不重叠，即 $C_{base}$ $\cap$ $C_{novel}$ = $\phi$ $\o$ $\O$ 。因此，该模型有望在元训练后获得推广到看不见的类的能力。

变体：在之前的工作中，图像标签 y 通常表示为 one-hot 向量，例如 y = [0, 1, 0, 0。..]。然而，这种表示消除了对象概念之间的语义关系，而忽略了文本标签中包含的有价值的语言信息。在本文中，除了 one-hot 标签之外，我们还保留了文本标签（例如“cat”、“dog”），以便从文本中提取语义。我们将 $y^{text}$ 表示为文本标签，将其与 one-hot 标签 y 区分开来。

方法

根据[6]，我们的方法包括两个训练阶段。在第一阶段，我们通过对基本数据集 $D_{base}$ 中的所有图像进行分类来预训练特征提取器f。在第二阶段，我们在元学习范式下用语义提示（SP）对f进行微调，使f能够为数据稀缺的场景提取广义和类相关的视觉特征。

Pre-training

学习通用特征提取器是将知识转移到下游学习任务[15，19，35]的关键，包括小样本学习[47]。给定标记的基本数据集 $D_{base}$ ，我们采用简单的监督学习范式来学习特征提取器。在特征提取器的顶部添加线性分类头[W，b]，其将输入特征向量f（x）映射到基类之一中。我们通过最小化标准交叉熵损失来联合训练特征提取器和分类头：

其中 $W_{i}$ ， $b_{i}$ 表示分类器对类别i的权重和偏差。

Backbone:为了便于视觉特征和语义提示之间的以下交互，我们采用了Vision transformer作为图像特征提取器f。具体来说，首先将输入图像x∈ $R^{H\times W\times C}$ 划分为M个图像块序列x={ $x_{p}^{1}$ ， $x_{p}^{2}$ ，...， $x_{p}^{M}$ }，其中 $x_{p}^{i}$ ∈ $R^{P\times P\times C}$ 是图像块，P是patch size。然后，将每个补丁映射到嵌入向量中，并添加可学习的位置嵌入。Transformer输入的预处理图像补丁可以写成： $Z_{0}$ =[ $z_{0}^{1}$ ， $z_{0}^{2}$ ，...， $z_{0}^{M}$ ]，其中 $z_{0}^{i}$ ∈ $R^{C_{z}}$ 是位置i处的patch token， $C_{z}$ 是每个token的通道数。

patch tokens被馈送到L Transformer层中以提取视觉特征，每个视觉特征由多头自注意（MSA）、MLP块、Layernorm（LN）和残差连接组成。（更多细节请参阅附录。）在顶层L，我们对序列中的所有嵌入向量进行平均，作为提取的图像特征：

其中 $z_{L}^{i}$ 是层L处的第i个嵌入向量。

注意，自注意具有相对于序列长度的二次计算成本。为了降低计算成本，我们在实现中采用了Visformer[7]，这是原始ViT[11]的一个变体，它用卷积块取代了前七个Transformer层，并在阶段之间采用池化来减少序列长度。

Semantic Prompt（语义提示）

在base数据集上预训练后，特征提取器f可以从输入图像中提取实质的视觉特征。然而，由于新类和base数据集之间的语义转移，特征提取器仅用几个标记的例子将知识推广到新概念的能力有限，尤其是当新类图像中出现虚假相关性时[3，50]。例如，给定一只站在树上的看不见的鸟的图像，该模型可能会处理鸟的特征和其他视觉特征（例如树叶、树枝）来表示鸟的概念，而无法在其他环境中识别鸟。

为了缓解这个问题，我们探索了额外的语义信息作为提示，以引导视觉特征网络在罕见的支持样本下获得内在的和有区别的类原型，从而可以根据查询图像与这些原型的距离轻松地对其进行分类。具体来说，类名的文本数据由于其强大的语义描述能力而被用作新类的先验知识。此外，我们使用具有大规模预训练的NLP模型[33，35，38]来提取文本特征。来自大量预先训练的NLP模型的先验知识有利于从类名中提取文本特征。

为了使模型适应语义提示，我们采用元训练策略[49]来微调与一系列训练集上的语义提示相关的特征提取器。我们的方法的框架如图2所示。具体来说，给定训练集中的支持图像 $x^{s}$ ，我们将其类名 $y^{text}$ 输入到预先训练的语言模型g（·）中，以提取语义特征，即g（ $y^{text}$ ）。语义特征用于调整罕见支持样本的特征提取。我们将 $f_{g}$ （ $x^{s}$ ）=f（ $x^{s}$ |g（ $y^{text}$ ））表示为条件特征提取过程，这将在下一节中描述。在每个类中对所获得的支持特征进行平均，以计算类原型。设pi表示类i的原型，则

其中 $x_{j}^{s}$ 是类 i 的第 j 个support image。

(所提出的语义提示方法的框架。支持图像被分割成小块，并被馈送到Transformer层中以提取视觉特征，然而，这些视觉特征可能包含类特定特征和其他杂波。为了解决这个问题，我们利用从类名中提取的文本特征作为语义提示来自适应地调整视觉特征提取。语义提示可以沿着空间和通道维度与视觉特征交互，并引导特征提取器捕获关于新类的内在判别特征。)

在元训练期间，我们冻结文本编码器 g(·) 并通过交叉熵损失最大化查询样本与其原型之间的特征相似性来微调其他参数：

其中 s 表示余弦相似度， $p_{y^{q}}$ 是 $y^{q}$ 类的原型，τ 是温度超参数。

Interaction on the spatial dimension(空间维度的交互)

我们首先从NLP[5，34]中的提示方法中获得灵感，将提示向量与输入序列连接起来，并将它们一起馈送到Transformer层中。给定l层上的语义特征g（ $y^{text}$ ）和补丁嵌入的输入序列 $Z_{l-1}$ =[ $z_{l-1}^{1}$ ， $z_{l-1}^{2}$ ，…， $z_{l-1}^{M}$ ]∈ $R^{M\times C_{z}}$ ，我们通过用投影的语义特征扩展 $Z_{l-1}$ 得到了一个新的序列：

其中 $z^{0}$ = $h_{s}$ （g（ $y^{text}$ ））∈ $R^{C_{z}}$ 是空间交互的投影语义嵌入， $h_{s}$ 是保持语义嵌入的维度与补丁嵌入相同的投影。

然后，将扩展序列 $\hat{Z}_{l-1}$ 馈送到剩余的Transformer层中，这些Transformer层包含多头自注意模块（MSA），以允许语义提示和补丁标记之间沿着空间维度的交互。具体地说，如果让 $\hat{Z}_{l-1}$ 是第l层MSA模块的输入序列，MSA首先将每个标记映射到三个向量中，q，k，v∈ $R^{N_{h}\times (M+1)\times C_{h}}$ ，线性投影由 $W_{qkv}$ 参数化，即，

其中 $N_{h}$ 是头数， $C_{h}$ 是每个头的通道数。然后它通过取 q 和 k 的内积并在空间维度上执行 softmax 来计算注意力权重 A ∈ $R^{N_{h}\times (M+1)\times (M+1)}$ ：

注意力权重用于选择和聚合来自不同位置的信息。通过将所有头的输出串联起来并执行由 $W_{out}$ 参数化的线性投影来获得最终输出：

Interaction on the channel dimension(通道维度的交互)

除了通过MSA进行空间交互外，我们还提出了另一种交互机制，该机制允许根据输入语义提示逐个通道调制和增强视觉特征。给定补丁嵌入的输入序列 $Z_{l-1}$ = [ $z_{l-1}^{1}$ , $z_{l-1}^{2}$ ,.., $z_{l-1}^{M}$ ] ∈ $R^{M\times C_{z}}$ 在第 l 层，我们首先通过平均所有patch token来获得全局视觉上下文向量 $z_{l-1}^{c}$ ∈ $R^{C_{z}}$ ：

然后，视觉上下文 $z_{l-1}^{c}$ 与投影的语义向量 $z^{0}$ = $h_{c}$ （g（ $y_{text}$ ））∈ $R^{C_{z}}$ 连接，并被馈送到2层MLP模块中，以获得调制向量 $\beta _{l-1}$ ∈ $R^{C_{z}}$ :

其中 W1、b1、W2、b2 是 MLP 模块的参数，σ 是 sigmoid 激活函数， $h_{c}$ 是通道交互的projector。

我们最终将调制向量添加到所有patch token中，以便它可以调整每个通道的视觉特征。调制序列̃ $\tilde{Z}_{l-1}$ ∈ $R^{M\times C_{z}}$ 可以写成：

实验

数据集和实验细节

miniImageNet和tieredImageNet。在[49]中提出了miniImageNet数据集来对小样本学习问题进行基准测试。它包含ImageNet[41]数据集中100个类的子集，其中64个类被用作训练前和元训练的基类，16个类用于验证，20个类用于测试。tiereImageNet 数据集 [39] 也源自 ImageNet，包含更多的类：351 个类用于训练，97 个类用于验证，160 个类用于测试。tieredImageNet数据集中基类和新类之间的语义差异远大于miniImageNet。

CIFAR-FS和FC100。这两个数据集源自具有不同分区模式的CIFAR-100[20]数据集。CIFAR-FS[22]将100个类随机分为64个训练类、16个验证类和20个测试类。相比之下，FC100[31]根据其语义超类划分类，其中20个超类中的60个类用于训练，4个超类的20个类用于验证，4个超级类中的20个用于测试。较大的语义差距使FC100比CIFAR-FS更难理解。

Text encoders。为了从类名中提取丰富的语义特征，我们采用了三种文本编码器，即CLIP[35]、SBERT[38]和GloVe[33]，它们是在大规模语料库上预先训练的，可供公众使用。对于 CLIP，我们只使用它的文本编码器，并使用文本模板扩展输入类名称：A photo of a {class name} 。对于 SBERT 和 Glove，我们直接将类名输入他们的编码器，如果名称有多个单词，则平均输出词向量。

Implementation details。我们采用Visformer Tiny[7]作为特征提取器，并默认将输入图像调整为224×224。其他输入分辨率在第5.3.5节中进行验证。使用RandomResizedCrop、RandAug[8]和RepeatAug[4]增强图像。在预训练过程中，我们使用AdamW最优器[29]，学习率为5e-4，权重衰减为5e-2。我们在miniImageNet、CIFAR-FS和FC100上预训练了800个epochs的模型，并在tieredImageNet上训练了300个epochs。在元训练期间，我们将特征提取器的学习率降低到1e-6，并将projectors的学习率设置为5e-4。该模型在所有数据集上进行了100个epcohs的元训练。根据验证精度，超参数τ设置为0.2。我们用TITAN Xp服务器进行实验，训练可以用一个GPU完成。

在评估过程中，我们从新类中随机抽取了2000个test episodes。对于one-shot学习，我们使用余弦分类器进行预测，如等式4所示。对于5-shot学习，我们采用了带有随机作物增强的逻辑回归分类器。我们最后报告了95%置信区间的平均准确度。

Comparison with the state-of-the-art

为了评估我们方法的有效性，我们在四个数据集上进行了广泛的实验，并将结果与表1和表2中以前的SoTa方法进行了比较。

(与之前在miniImageNet和tieredImageNet上的工作进行比较。顶行中的方法不使用语义信息，中间行中的方式利用类名[24、32、52]或描述[53]中的语义信息。准确度以95%的置信区间报告。)

与以前利用语义信息的方法（KTN[32]、AM3[52]、TRAML[24]、DeepBERT[53]）相比，我们的方法在miniImageNet上提高了5.21%的1-shot准确率，在tieredImageNet上降低了4.27%。DeepEMD BERT在miniImageNet上实现了比我们更好的5-shot精度，但需要多次前向通过和额外的内部优化步骤才能获得可靠的局部特征相似性。请注意，以前的方法通常采用CNN作为主干，除了最近提出的方法SUN[10]也采用Visformer主干。尽管如此，我们的方法在三个数据集上的平均性能优于SUN 2.46%。

当使用不同的文本编码器来提取语义特征时，所提出的SP在预训练基线上表现出一致的改进。具体来说，我们可以看到，与SBERT和GloVe相比，SP-CLIP在1-shot上取得了更好的效果，这可能是因为CLIP的多模态预训练导致语义嵌入与视觉概念更好地对齐。在5-shot中，当支持图像足够时，随着模型性能由视觉特征主导，性能差异会减小。在下面的实验中，我们使用CLIP作为默认的文本编码器。

(与先前关于CIFAR-FS[22]和FC100[31]的工作进行比较。)

Model analysis

Ablation study(消融实验)

消融研究结果如表3所示。通过使用RandAug和RepeatAug扩展标准RandomResizedCrop，预训练的特征提取器的1-shot精度在四个数据集上平均提高了2.45%。为了验证SP的有效性，我们用三种不同的交互机制对特征提取器进行了微调，包括SI（空间交互）、CI（通道交互）和SI+CI。如表3所示，SI和CI都非常有效，在4个数据集上的平均1-shot精度分别提高了5.89%和5.43%。此外，通过将它们结合在一起，在所有四个数据集上进一步提高了1-shot学习的准确性。这些结果表明，所提出的SP是利用语义信息进行小样本学习的有效方法。

(在1-shot设置下对四个数据集的消融研究。SI表示空间相互作用，CI表示通道相互作用。)

Layer selection

理论上，这项工作中的语义提示可以插入到任何层的特征提取器中。然而，我们发现层的选择对性能有很大的影响。在图3中，我们可以看到，在较高层插入提示可以提高准确性，而在较低层插入提示会导致性能下降。考虑提示向量是类特定的，这些结果表明，类特定的特征应该在较高的网络层提取，而较低层的特征应该更好地在类之间共享。当研究每一层的性能时，我们可以看到，虽然不同数据集的最佳层选择略有不同，但第三阶段所有层的SP都能始终如一地提高准确性。为了简化架构设计，我们在实验中选择了第3-2层作为默认层。

（插入提示的准确性与不同图层的对比。我们报告了在元训练过程中，miniImageNet和CIFAF-FS的验证集的5-way 1-shot准确率（%）。特征提取器具有三个阶段和每个阶段中的多个Transformer层。）

The backbone and classifier architectures(主干和分类器架构)

在表4中，我们使用与我们相同的Visformer主干重新实现了三种基线方法，并在miniImageNet 1-shot设置下比较了不同主干的结果。可以看出，简单地用Visformer代替ResNet12并不能获得显著的改进。相反，当配备相同的Visformer主干时，使用语义提示可以在这些基线上提高1-shot性能。

在表5中，我们比较了所有数据集上的LR和NN分类器。对于1-shot，简单的NN分类器的性能与LR分类器一样好，而LR受益于更多的训练示例，并且对于5-shot，其性能优于NN 0.53%。

Projector structure and pooling strategy

如表6所示，projector的设计对性能几乎没有影响：线性和MLP投影仪都能很好地工作，而MLP稍有优势。相比之下，pooling策略对性能的影响要大得多。当采用“Head”策略时，1和5-shot的学习精度都很差。这表明提示向量位置的输出容易对语义特征进行过度拟合，而忽略了图像块中丰富的视觉特征。对所有输出特性采用平均值可以解决这个问题并获得更好的结果。

(projector的选择，以及输出序列的池策略“头”是指在提示向量的位置选择输出“补丁”是指对所有补丁的输出特征进行平均All’表示对输出序列中的所有特征向量求平均值。)

Image size and stem design

在表7中，我们用较小的输入大小84×84进行实验，以验证图像大小的影响。可以看出，直接将输入大小更改为84×84会导致所有数据集的性能明显下降。我们假设这是因为当输入图像变小时，主干的内核大小和步长太大，无法捕捉详细的视觉特征。为了解决这个问题，我们相应地减小了核的大小和茎的步长。在这一变化之后，84×84下的1-shot学习性能显著提高，并在所有数据集上获得了与224×224分辨率相当的结果。

（输入尺寸和阀杆设计的影响Ks’表示第一个卷积层（茎）的内核大小，“Stride”表示其步长。在具有95%置信区间的四个数据集上报告了5-shot精度。）

Visualization

在图4中，我们通过计算每个位置的输出特征和特征向量之间的点积来可视化注意力图。可以看出，预训练基线的视觉特征与背景信息混杂在一起，但我们的方法可以根据给定的文本提示关注语义级别的视觉特征。例如，给定harvest的文本提示，模型将关注收获的特征，而不是蛛网或背景混乱。

(当使用不同的类标签进行提示时，注意力图的可视化。)

Conclusion（总结）

在本文中，我们提出了一种新的 FSL 语义提示 (SP) 方法，该方法使用源自类名称的语义特征自适应地调整特征提取。所提出的方法在四个基准数据集上进行了评估，并比以前的方法取得了显着的改进。更深入的分析表明，SP 鼓励模型提取更多特定于类的特征，并且对不同的文本编码器和模型设计具有鲁棒性。