【论文阅读】Semantic Prompt for Few-Shot Image Recognition（已复现）

专注毕业20年

已于 2024-11-03 19:39:32 修改

阅读量1.9k

点赞数 14

分类专栏：小样本图像分类—多模态文章标签：论文阅读 prompt

于 2024-09-30 18:14:32 首次发布

本文链接：https://blog.csdn.net/cainiaomyf/article/details/142661032

版权

小样本图像分类—多模态专栏收录该内容

2 篇文章

订阅专栏

在这里插入图片描述
论文地址：https://arxiv.org/pdf/2303.14123.pdf
论文代码：https://github.com/WentaoChen0813/SemanticPrompt

Abstract

小样本学习是一个具有挑战性的问题，因为只提供了少量样本来识别新的类别。最近的一些研究利用了额外的语义信息，例如类别名称的文本嵌入，通过将语义原型与视觉原型相结合来解决稀缺样本的问题。然而，这些方法仍然受到从稀缺支持样本中学习到的虚假视觉特征的影响，导致收益有限。在本文中，我们提出了一种用于小样本学习的新颖语义提示（Semantic Prompt，SP）方法。我们并非简单地利用语义信息来修正分类器，而是探索将语义信息作为提示来自适应地调整视觉特征提取网络。具体来说，我们设计了两种互补的机制，将语义提示插入到特征提取器中：一种是通过自注意力机制在空间维度上实现语义提示与补丁嵌入的交互，另一种是在通道维度上用转换后的语义提示来补充视觉特征。通过结合这两种机制，特征提取器能够更好地关注类别特定的特征，并且仅使用少量支持样本就可以获得更具泛化性的图像表示。通过在四个数据集上的大量实验，所提出的方法取得了令人鼓舞的结果，平均将1-shot学习的准确率提高了3.67%。

1 Introduction

小样本学习（Few-shot learning, FSL）¹ 是一个基础且具有挑战性的任务，因为它旨在通过稀少的样本预测新的类别，并且仍然是一个尚未完全解决的问题。为了解决这一问题，大多数有效的FSL方法利用从一个大规模标注的基础数据集中学到的先验知识，并将这些先验知识编码为一组初始网络参数² ³ ⁴，或者作为所有类别共享的固定嵌入函数⁵ ⁶ ⁷ ⁸。

由于新类别的标注图像稀缺，一种直接的替代方案是使用来自其他模态的辅助信息，例如自然语言，以帮助学习新的概念，这已经在零样本学习（Zero-shot learning）中得到了广泛研究⁹ ¹⁰ ¹¹ ¹²。这些方法通常直接使用文本嵌入作为新类别的图像分类器。受此启发，一项最新的FSL研究¹³提出从类别名称中推断出文本原型，并将其与从稀少的支持图像中提取的视觉原型（即分类器）相结合。其他一些研究¹⁴ ¹⁵通过引入更复杂的文本原型预测器（例如图卷积网络）或利用大规模预训练的语言模型来生成更准确的文本原型，从而改进了这些方法。

尽管这些方法取得了一定的成功，但大多数直接从文本特征推断类别原型的方法忽略了文本特征与视觉特征之间的信息鸿沟。具体来说，文本特征可能包含了新类别与已知类别之间的语义关系。然而，由于缺乏与潜在视觉表示的交互，文本特征无法提供新类别的精确区分性视觉特征。因此，当直接将丰富的语义信息注入分类器时，对于识别新类别所带来的收益非常有限。此外，由于支持图像数量有限，学习到的视觉特征仍然会受到虚假特征的影响，例如背景杂波，难以产生准确的类别原型。例如，如图1所示，给定新类别“独轮车”的一张支持图像，特征提取器可能会捕捉到包含独轮车和其他干扰物（如骑车人和瓦屋顶）的图像特征，无法在其他环境中识别独轮车。实际上，人类感知系统有一种独特的视觉感知机制，称为认知可渗透性（Cognitive penetrability）¹⁶，它利用语言的先验知识来调整正在进行的视觉感知处理，以突出与类别相关的刺激特征，从而促进对新物体的学习。因此，有必要开发一种新的架构，以有效地利用文本信息来弥补稀少样本导致的缺陷表示。
在这里插入图片描述
图1。给定一个关于新类“独轮车”的图像，特征提取器很容易被虚假特征混淆，如独轮车上的骑手，无法获得关于新类的广义图像表示。在本文中，我们提出了语义提示，这是一种在丰富的语义先验知识上调节特征提取的新方法，使得特征提取器捕获了关于新类的内在类特定特征。

在本文中，我们提出了语义提示（Semantic Prompt），这是一种利用类别名称的文本信息显著提高小样本学习中视觉特征表示能力的新方法。与直接从文本特征推断原型的方法不同，我们探索了将文本特征作为语义提示来自适应地调整稀少支持样本的特征提取网络。如图1所示，在语义提示的指导下，特征提取器能够捕捉新类别的内在类别特定特征，而不是其他背景杂波。此外，随着大规模训练的出现，涌现出了一系列强大的自然语言处理（NLP）模型，例如BERT ¹⁷和GPT ¹⁸，它们可以从类别名称中提取丰富的文本信息。通过语义提示与视觉特征之间的交互，这种语义丰富的表示有很大的潜力为特征提取器提供有关新类别的额外区分性视觉特征，从而生成更具泛化性的类别原型。

为了将视觉特征提取与语义提示相结合，我们提出了两种互补的机制，将语义信息注入特征提取器中，从而在空间维度和通道维度上分别实现语义提示与视觉特征的交互。具体来说，为了在空间维度上促进交互，我们将语义提示扩展为图像补丁序列，并将其输入到Transformer编码器中。通过自注意力层，语义提示可以引导特征提取器关注类别特定特征，同时抑制其他干扰因素。对于通道维度上的交互，我们首先将语义提示与从所有补丁中提取的视觉上下文进行连接，然后将其输入MLP模块。提取的特征向量被添加到每个补丁标记上，以通道为单位对视觉特征进行调整和增强。通过结合这两种交互机制，所提出的**语义提示方法（Semantic Prompt, SP）**能够有效地利用类别名称中的文本信息来提升FSL。在四个基准数据集上进行的综合实验表明，所提出的SP在不同类型的文本编码器和架构设计中表现出一致的性能提升，展示了其在FSL问题上的强泛化性。

总之，我们的贡献有三方面：

我们提出了一种新颖的语义提示方法，通过利用类别名称中的文本信息来进行小样本图像识别，这一方法受到了人类认知渗透效应的启发，旨在根据语义提示自适应地调整特征提取以获得类别特定特征。
为了将视觉特征提取与语义提示结合，我们提出了两种互补的机制，将语义提示注入视觉特征提取器中，从而在空间和通道维度上分别实现交互。
所提出的方法在四个FSL基准数据集上取得了显著的性能，在具有挑战性的1-shot设置下平均提高了3.67%的准确率。

2 Related work

小样本学习
FSL旨在仅给定每个类别少量样本的情况下识别新类别。之前的研究通常采用元学习（meta-learning）范式，在该范式中，学习者在从大型基础数据集中抽取的一系列小样本训练任务（称为“episode”）上进行训练，以便能够快速适应未见过的测试任务。特别是，基于优化的方法² ³ ⁴的目标是学习一组可快速适应所有任务的最优初始参数。基于度量学习的方法⁵ ⁶ ⁷ ⁸则学习一个固定的嵌入函数，将输入图像映射到一个低维嵌入空间中，并根据与支持样本之间的特定距离来对未标注的查询样本进行分类，例如欧氏距离⁶、余弦相似度距离¹⁹和地球移动距离²⁰。

基于语言的小样本学习
为了利用来自其他模态（特别是语言）的附加信息来帮助识别新类别，近期的一系列研究²¹ ²² ¹⁴ ¹³提出将视觉特征和辅助文本特征结合起来以表示新类别。例如，Xing等人¹³提出了一种自适应融合机制，将视觉原型与由类别标签词嵌入生成的语义原型结合。Peng等人¹⁴采用图卷积网络（Graph Convolutional Network）²³作为预测器，以整合知识图谱中的附加知识。Yan等人²⁴提出了一种词向量引导的注意力机制，以获取多标签小样本学习问题的标签原型。与以往在分类器或类别原型级别利用语义信息的工作不同，我们将辅助信息作为一种语义提示（semantic prompt），以增强对有限支持样本的特征提取。

Transformer与基于提示的学习
Transformer是一种用于NLP任务²⁵ ¹⁷ ¹⁸ ²⁶的通用网络架构，并在计算机视觉任务²⁷ ²⁸ ²⁹ ³⁰中也展现出巨大潜力。尤其是，Dosovitskiy等人²⁷提出了一种简单的视觉Transformer（Vision Transformer, ViT）架构，将图像补丁视为一个序列并将其输入Transformer编码器以提取视觉特征。由于其架构设计中具有有限的归纳偏置（inductive bias），Transformer通常需要大量数据来学习新任务。为了解决这一问题，基于提示的方法²⁵ ³¹被提出，用以在数据高效的方式中调整预训练语言模型以适应下游任务。例如，Brown等人²⁵通过在输入句子中添加一些手工设计的提示词来向模型提供任务的先验知识，并将模型行为调整为所需的模式。其他研究³² ³³ ³⁴提出用连续的提示向量替换离散的提示词，因为它们比离散提示更易于优化。最近，Tsimpoukelli等人³⁵提出了一种跨模态提示方法，将图像特征视为语言输入的提示，以执行多模态小样本学习。在本文中，我们提出将文本特征视为图像输入的语义提示（semantic prompts），以调整正在进行的视觉特征提取，使其适应类别特定特征，从而有助于使用少量样本学习新类别。据我们所知，这是首次采用语义特征作为提示来调整视觉特征提取器以用于小样本学习。

3 Problem formulation

小样本学习（FSL）问题通常被定义为一个 $N$ -way $K$ -shot 分类任务，其中模型需要根据来自支持集 $S$ 的少量标注样本 $(x^s_i, y^s_i)_{i=1}^{N \times K}$ ，将查询集 $Q$ 中的查询样本 $x^q$ 分类到 $N$ 个新类别 $C_{novel}$ 中的一个。由于在较小的支持集 $S$ 上从头训练模型非常困难，通常会提供一个大型标注数据集 $D_{base}$ 来在执行小样本学习之前对模型进行预训练。以往的研究通常采用元训练（meta-training）策略 ⁸，将基础数据集分成多个 $N$ -way $K$ -shot 任务。每个任务也包含一个支持集和一个查询集，以模拟测试期间的小样本学习问题。需要注意的是，基础类别 $C_{base}$ 与新类别没有重叠关系，即 $C_{base} \cap C_{novel} = \varnothing$ 。因此，期望模型在元训练后能够获得对未见类别的泛化能力。

变体：在大多数以往的工作中，图像标签 $y$ 通常表示为一个独热向量（one-hot vector），例如 $\ldots]$ 。然而，这种表示方式抹去了对象概念之间的语义关系，并忽略了文本标签中包含的有价值的语言信息。在本文中，我们除了使用独热标签外，还保留了文本标签（例如“猫”、“狗”），以便从文本标签中提取语义信息。我们将文本标签记为 $y_{text}$ ，以便与独热标签 $y$ 进行区分。

4 Method

按照 ³⁶ 的方法，我们的方案包括两个训练阶段。在第一阶段，我们通过对基础集合 $D_{base}$ 中的所有图像进行分类来预训练特征提取器 $f$ 。在第二阶段，我们在元学习范式下利用语义提示（Semantic Prompt, SP）对 $f$ 进行微调，以便 $f$ 能够在数据稀缺的场景下提取通用且与类别相关的视觉特征。

4.1. Pre-training

学习通用的特征提取器是将知识转移到下游学习任务的关键 ³⁷ ³⁸ ³⁹，其中包括小样本学习 ⁴⁰。给定标注的基础数据集 $D_{base}$ ，我们采用一种简单的监督学习范式来学习特征提取器。在特征提取器的顶部添加一个线性分类头 $[W, b]$ ，将输入的特征向量 $f (x)$ 映射到基础类别中的一个。我们通过最小化标准交叉熵损失来联合训练特征提取器和分类头：
$L_{pre} = \frac{1}{|D_{base}|} \sum_{(x,y) \in D_{base}} - \log \frac{\exp(W_y^T f(x) + b_y)}{\sum_i \exp(W_i^T f(x) + b_i)},$
其中 $W_i, b_i$ 表示类别 $i$ 的分类器权重和偏差。

主干网络：为了促进视觉特征和语义提示之间的后续交互，我们采用了视觉Transformer（Vision Transformer）作为图像特征提取器 $f$ 。具体来说，输入图像 $\in \mathbb{R}^{H \times W \times C}$ 首先被划分为一系列 $M$ 个图像补丁 $X = \{x_1^p, x_2^p, ..., x_M^p\}$ ，其中 $x_i^p \in \mathbb{R}^{P \times P \times C}$ 是图像补丁， $P$ 是补丁大小。然后，每个补丁被映射为一个嵌入向量，并加上一个可学习的位置嵌入。Transformer输入的预处理图像补丁可以表示为：
$Z^0 = [z_1^0, z_2^0, ..., z_M^0],$
其中 $z_i^0 \in \mathbb{R}^{C_z}$ 是位置 $i$ 的补丁标记， $C_z$ 是每个标记的通道数。

补丁标记被输入到 $L$ 个Transformer层中以提取视觉特征，每层包含多头自注意力（MSA）、MLP块、Layernorm（LN）和残差连接（Residual connections）。在顶层 $L$ ，我们对序列中的所有嵌入向量取平均值作为提取的图像特征：
$\frac{1}{M} \sum_{i=1}^M z_i^L,$
其中 $z_i^L$ 是第 $L$ 层的第 $i$ 个嵌入向量。

需要注意的是，自注意力机制的计算成本与序列长度呈二次关系。为了降低计算成本，我们在实现中采用了 Visformer ⁴¹，它是原始 ViT ²⁷ 的一种变体，将前七个 Transformer 层替换为卷积块，并在各个阶段之间进行池化以减少序列长度。

4.2. Semantic Prompt

在基础数据集上预训练后，特征提取器 $f$ 可以从输入图像中提取大量视觉特征。然而，由于新类别与基础数据集之间存在语义偏移，特征提取器在仅有少量标注样本的情况下，难以将知识泛化到新概念，特别是当新类别图像中出现虚假的相关特征时²¹ ⁴²。例如，给定一张站在树上的未见过的鸟的图像，模型可能将鸟的特征和其他视觉特征（例如树叶、树枝）一起用于表示鸟的概念，从而难以在其他环境中识别鸟。

为了缓解这个问题，我们探索了附加的语义信息作为提示，以引导视觉特征网络在稀少支持样本下获得内在且区分性强的类别原型，以便可以根据查询图像与这些原型之间的距离轻松地进行分类。具体而言，出于其强大的语义描述能力，我们采用类别名称的文本数据作为新类别的先验知识。此外，我们利用了经过大规模预训练的NLP模型 ⁴³ ³⁹ ⁴⁴ 来提取文本特征。来自预训练的NLP模型的大型知识库可以促进从类别名称中提取文本特征。

为了使模型适应语义提示，我们采用了元训练策略 ⁸ 来在一系列训练任务中微调与语义提示相关联的特征提取器。我们的方法框架如图2所示。具体而言，给定一个训练任务中的支持图像 $x^s$ ，我们将其类别名称 $y_{text}$ 输入到一个预训练的语言模型 $g(\cdot)$ 中以提取语义特征，即 $g(y_{text})$ 。这些语义特征用于调节对稀少支持样本的特征提取。我们将 $f_g(x^s) = f(x^s|g(y_{text}))$ 表示为条件特征提取过程，其将在接下来的部分中进行描述。所获得的支持特征在每个类别内取平均值以计算类别原型。设 $p_i$ 表示类别 $i$ 的原型，则
$p_i = \frac{1}{K} \sum_{j=1}^K f_g(x_j^s),$
其中 $x_j^s$ 是类别 $i$ 的第 $j$ 个支持图像。

在元训练期间，我们冻结文本编码器 $g(\cdot)$ 并通过最大化查询样本与其原型之间的特征相似度来微调其他参数，使用的损失函数为交叉熵损失：
$L_{meta} = - \mathbb{E}_{S, Q} \mathbb{E}_{x^q} \log \frac{\exp(s(f(x^q), p_{y_q})/\tau)}{\sum_{i=1}^N \exp(s(f(x^q), p_i)/\tau)},$
其中 $s$ 表示余弦相似度， $p_{y_q}$ 是类别 $y_q$ 的原型， $\tau$ 是一个温度超参数。
在这里插入图片描述
图 2. 提出的语义提示方法的框架。支持图像被分成小块，送入变压器层提取视觉特征，但可能包含特定于类的特征和其他杂波。为了解决这个问题，我们利用从类名中提取的文本特征作为语义提示来自适应地调整视觉特征提取。语义提示可以沿着空间和通道维度与视觉特征交互，并引导特征提取器捕捉新类的内在判别特征。

4.2.1 Interaction on the spatial dimension

我们首先从NLP中的提示方法 ²⁵ ³¹ 中获得灵感，将提示向量与输入序列进行拼接，并将它们一起输入到Transformer层中。给定语义特征 $g(y_{text})$ 和第 $l$ 层的补丁嵌入输入序列 $Z^{l-1} = [z_1^{l-1}, z_2^{l-1}, ..., z_M^{l-1}] \in \mathbb{R}^{M \times C_z}$ ，我们通过扩展 $Z^{l-1}$ 并添加投影后的语义特征得到一个新的序列 $\hat{Z}^{l-1} \in \mathbb{R}^{(M + 1) \times C_z}$ ：
$\hat{Z}^{l-1} = [z_0, z_1^{l-1}, ..., z_M^{l-1}],$
其中 $z_0 = h_s(g(y_{text})) \in \mathbb{R}^{C_z}$ 是用于空间交互的投影语义嵌入， $h_s$ 是保持语义嵌入维度与补丁嵌入相同的投影器。

接下来，扩展后的序列 $\hat{Z}^{l-1}$ 被输入到剩余的Transformer层中，这些层包含多头自注意力模块（MSA），以实现语义提示与补丁标记之间沿空间维度的交互。具体来说，令 $\hat{Z}^{l-1}$ 为第 $l$ 层 MSA 模块的输入序列，MSA 首先将每个标记映射为三个向量 $\in \mathbb{R}^{N_h \times (M + 1) \times C_h}$ ，通过线性投影参数化为 $W_{qkv}$ ，即
$\hat{Z}^{l-1} W_{qkv},$
其中 $N_h$ 是头的数量， $C_h$ 是每个头的通道数。然后，MSA 通过对 $q$ 和 $k$ 进行内积并沿空间维度执行 softmax 计算注意力权重 $\in \mathbb{R}^{N_h \times (M + 1) \times (M + 1)}$ ：
$\text{softmax}\left(\frac{q k^T}{C_h^{\frac{1}{4}}}\right).$
注意力权重用于选择和聚合来自不同位置的信息。最终输出通过连接所有头的输出并执行线性投影得到，由 $W_{out}$ 参数化：

$\text{MSA}(\hat{Z}^{l-1}) = (A v) W_{out}.$

4.2.2 Interaction on the channel dimension

除了通过 MSA 进行空间交互之外，我们还提出了另一种交互机制，该机制允许根据输入的语义提示对视觉特征逐通道进行调制和增强。给定第 $l$ 层的补丁嵌入输入序列 $Z^{l-1} = [z_1^{l-1}, z_2^{l-1}, ..., z_M^{l-1}] \in \mathbb{R}^{M \times C_z}$ ，我们首先通过对所有补丁标记取平均值得到一个全局视觉上下文向量 $z_c^{l-1} \in \mathbb{R}^{C_z}$ ：
$z_c^{l-1} = \frac{1}{M} \sum_{i=1}^M z_i^{l-1}.$
接着，将视觉上下文 $z_c^{l-1}$ 与投影后的语义向量 $z_0 = h_c(g(y_{text})) \in \mathbb{R}^{C_z}$ 进行拼接，并输入到一个两层的 MLP 模块中以获得一个调制向量 $\beta^{l-1} \in \mathbb{R}^{C_z}$ ：
$\beta^{l-1} = \sigma(W_2 \sigma(W_1 [z_0; z_c^{l-1}] + b_1) + b_2),$
其中 $W_1, b_1, W_2, b_2$ 是 MLP 模块的参数， $\sigma$ 是 Sigmoid 激活函数， $h_c$ 是用于通道交互的投影器。

最后，我们将调制向量添加到所有补丁标记中，以便在每个通道上调整视觉特征。调制后的序列 $\tilde{Z}^{l-1} \in \mathbb{R}^{M \times C_z}$ 可以表示为：
$\tilde{Z}^{l-1} = [z_i^{l-1} + \beta^{l-1}], \quad i = 1, 2, ..., M.$

5 Experiments

5.1. Datasets and implementation details

miniImageNet 和 tieredImageNet。miniImageNet 数据集由 ⁸ 提出，用于对小样本学习问题进行基准测试。它包含 ImageNet ⁴⁵ 数据集中的 100 个类别的子集，其中 64 个类别用于预训练和元训练，16 个类别用于验证，20 个类别用于测试。tieredImageNet 数据集 ⁴⁶ 也是从 ImageNet 派生而来的，包含更多的类别：351 个类别用于训练，97 个类别用于验证，160 个类别用于测试。与 miniImageNet 相比，tieredImageNet 数据集中的基础类别和新类别之间的语义差异要大得多。

CIFAR-FS 和 FC100。这两个数据集是从 CIFAR-100 ⁴⁷ 数据集中通过不同的划分模式衍生而来的。CIFAR-FS ⁴⁸ 随机将 100 个类别划分为 64 个训练类别，16 个验证类别和 20 个测试类别。与之相对，FC100 ¹⁹ 则根据语义超类划分类别，其中 60 个来自 20 个超类的类别用于训练，20 个来自 4 个超类的类别用于验证，20 个来自 4 个超类的类别用于测试。较大的语义差距使得 FC100 比 CIFAR-FS 更具挑战性。

文本编码器。为了从类别名称中提取丰富的语义特征，我们采用了三种类型的文本编码器，即 CLIP ³⁹、SBERT ⁴⁴ 和 GloVe ⁴³，它们在大规模语料库上进行了预训练，并可供公众使用。对于 CLIP，我们仅使用其文本编码器，并将输入的类别名称扩展为一个文本模板：“A photo of a {class name}”。对于 SBERT 和 GloVe，我们直接将类别名称输入它们的编码器，并在名称中包含多个单词的情况下对输出的词向量进行平均。

实现细节。我们采用 Visformer-Tiny ⁴¹ 作为特征提取器，并将输入图像的默认尺寸调整为 $224 \times 224$ 。其他输入分辨率在第 5.3.5 节中进行了验证。图像通过 RandomResizedCrop、RandAug ⁴⁹ 和 RepeatAug ⁵⁰ 进行增强。在预训练期间，我们使用 AdamW 优化器 ⁵¹，学习率为 $\times 10^{-4}$ ，权重衰减为 $\times 10^{-2}$ 。我们在 miniImageNet、CIFAR-FS 和 FC100 数据集上对模型进行 800 轮预训练，在 tieredImageNet 上进行 300 轮预训练。在元训练期间，我们将特征提取器的学习率降低至 $10^{-6}$ ，并将投影器的学习率设为 $\times 10^{-4}$ 。模型在所有数据集上进行 100 轮元训练。超参数 $\tau$ 根据验证准确率设置为 0.2。我们在 TITAN Xp 服务器上进行实验，训练可以在一块 GPU 上完成。

评估。在评估期间，我们从新类别中随机抽取 2,000 个测试任务。对于 1-shot 学习，我们使用余弦分类器进行预测（如公式 4）。对于 5-shot 学习，我们采用带有随机裁剪增强的逻辑回归分类器。我们最终报告 95% 置信区间下的平均准确率。

5.2. Comparison with the state-of-the-art

为了评估我们方法的有效性，我们在四个数据集上进行了广泛的实验，并在表 1 和表 2 中将结果与之前的最新方法进行了比较。

表1。与之前关于miniimagenet和tieredimagenet的工作的比较。顶行的方法不使用语义信息，中间行的方法利用来自类名²² ¹⁴ ¹³或描述¹⁵的语义信息。准确度以 95% 的置信区间报告。

Method	Backbone	Params/FLOPS	mini 5-way 1-shot	mini 5-way 5-shot	tieredt 5-way 1-shot	tiered 5-way 5-shot
LEO ⁴	WRN-28-10	36.5M/3.7×10^10	61.76 ± 0.08	77.59 ± 0.12	66.33 ± 0.05	81.44 ± 0.09
CC+rot ⁵²	WRN-28-10	36.5M/3.7×10^10	62.93 ± 0.45	79.87 ± 0.33	70.53 ± 0.51	84.98 ± 0.36
Align ⁵³	WRN-28-10	36.5M/3.7×10^10	65.92 ± 0.60	82.85 ± 0.55	74.40 ± 0.68	86.61 ± 0.59
MetaOptNet ⁴⁸	ResNet-12	12.5M/3.5×10^9	62.64 ± 0.61	78.63 ± 0.46	65.99 ± 0.72	81.56 ± 0.53
Meta-Baseline ³⁶	ResNet-12	12.5M/3.5×10^9	63.17 ± 0.23	79.26 ± 0.17	68.62 ± 0.27	83.74 ± 0.18
DeepEMD ²⁰	ResNet-12	12.5M/3.5×10^9	65.91 ± 0.82	82.41 ± 0.56	71.16 ± 0.87	86.03 ± 0.58
RE-Net ⁵⁴	ResNet-12	12.5M/3.5×10^9	67.60 ± 0.44	82.51 ± 0.56	71.61 ± 0.51	85.28 ± 0.35
TPMM ⁵⁵	ResNet-12	12.5M/3.5×10^9	67.64 ± 0.63	83.44 ± 0.43	72.24 ± 0.70	86.55 ± 0.63
SetFeat ⁵⁶	ResNet-12	12.5M/3.5×10^9	68.32 ± 0.62	82.71 ± 0.46	73.63 ± 0.88	87.59 ± 0.57
SUN ⁵⁷	Visformer-S	12.4M/1.7×10^8	67.80 ± 0.45	83.25 ± 0.30	72.99 ± 0.50	86.74 ± 0.33
-------------------	--------------	-------------------	---------------------------	---------------------------	-----------------------------	-----------------------------
KTN ¹⁴	ResNet-12	12.5M/3.5×10^9	61.42 ± 0.72	74.16 ± 0.56	-	-
AM3 ¹³	ResNet-12	12.5M/3.5×10^9	65.30 ± 0.49	78.10 ± 0.36	69.08 ± 0.47	82.58 ± 0.31
TRAML ²²	ResNet-12	12.5M/3.5×10^9	67.10 ± 0.52	79.54 ± 0.60	73.76 ± 0.72	87.51 ± 0.75
DeepEMD-BERT ¹⁵	ResNet-12	12.5M/3.5×10^9	67.03 ± 0.79	83.68 ± 0.65	73.31 ± 0.50	87.51 ± 0.75
-------------------	--------------	-------------------	---------------------------	---------------------------	-----------------------------	-----------------------------
Pre-train (Ours)	Visformer-T	10.0M/1.3×10^9	65.16 ± 0.44	81.22 ± 0.32	72.38 ± 0.50	86.74 ± 0.34
SP-CLIP (Ours)	Visformer-T	10.0M/1.3×10^9	72.31 ± 0.40	83.42 ± 0.30	78.03 ± 0.46	88.55 ± 0.32
SP-SBERT (Ours)	Visformer-T	10.0M/1.3×10^9	70.70 ± 0.42	83.55 ± 0.30	73.31 ± 0.50	88.56 ± 0.32
SP-GloVe (Ours)	Visformer-T	10.0M/1.3×10^9	70.81 ± 0.42	83.31 ± 0.30	74.68 ± 0.50	88.64 ± 0.31

表 2. 与之前关于 cifar-fs ⁴⁸ 和 fc100 ¹⁹ 的工作的比较。

Method	Backbone	Params/FLOPs	CIFAR 5-way 1-shot	CIFAR 5-way 5-shot	FC100 5-way 1-shot	FC100 5-way 5-shot
PN+rot ⁵²	WRN-28-10	36.5M/3.7×10^10	69.55 ± 0.34	82.34 ± 0.24	-	-
Align ⁵³	WRN-28-10	36.5M/3.7×10^10	-	-	45.83 ± 0.48	59.74 ± 0.56
ProtoNet ⁶	ResNet-12	12.5M/3.5×10^9	72.2 ± 0.7	83.5 ± 0.5	37.5 ± 0.6	52.5 ± 0.6
MetaOptNet ⁴⁸	ResNet-12	12.5M/3.5×10^9	72.6 ± 0.7	84.3 ± 0.5	41.1 ± 0.6	55.5 ± 0.6
MABAS ⁵⁸	ResNet-12	12.5M/3.5×10^9	73.51 ± 0.92	85.49 ± 0.68	42.31 ± 0.75	57.56 ± 0.78
Distill ⁴⁰	ResNet-12	12.5M/3.5×10^9	73.9 ± 0.8	86.9 ± 0.5	44.6 ± 0.7	60.9 ± 0.6
RE-Net ⁵⁴	ResNet-12	12.5M/3.5×10^9	74.51 ± 0.46	86.60 ± 0.32	-	-
infoPatch ⁵⁹	ResNet-12	12.5M/3.5×10^9	-	-	43.8 ± 0.4	58.0 ± 0.4
SUN ⁵⁷	Visformer-S	12.4M/1.7×10^8	78.37 ± 0.46	88.84 ± 0.32	-	-
-------------------	--------------	-------------------	---------------------------	---------------------------	------------------------	---------------------------
Pre-train (Ours)	Visformer-T	10.0M/1.3×10^9	71.99 ± 0.47	85.98 ± 0.34	43.77 ± 0.39	59.48 ± 0.39
SP-CLIP (Ours)	Visformer-T	10.0M/1.3×10^9	82.18 ± 0.40	88.24 ± 0.32	48.53 ± 0.38	61.55 ± 0.41
SP-SBERT (Ours)	Visformer-T	10.0M/1.3×10^9	81.32 ± 0.40	88.31 ± 0.32	47.03 ± 0.40	61.03 ± 0.40
SP-GloVe (Ours)	Visformer-T	10.0M/1.3×10^9	81.62 ± 0.41	88.32 ± 0.32	46.69 ± 0.41	61.18 ± 0.41

与之前利用语义信息的方法（KTN ¹⁴，AM3 ¹³，TRAML ²²，DeepBERT ¹⁵）相比，我们的方法将 miniImageNet 上的 1-shot 准确率提高了 5.21%，将 tieredImageNet 上的 1-shot 准确率提高了 4.27%。虽然 DeepEMD-BERT 在 miniImageNet 上的 5-shot 准确率优于我们的方法，但它需要多次前向传播和额外的内循环优化步骤来获得可靠的局部特征相似性。需要注意的是，除了最近提出的方法 SUN ⁵⁷（也采用 Visformer 作为主干网络）以外，之前的方法通常采用 CNN 作为主干网络。然而，我们的方法在三个数据集上的平均性能仍比 SUN 高出 2.46%。

当使用不同的文本编码器来提取语义特征时，所提出的 SP 方法相较于预训练的基线模型表现出一致的改进。具体来说，我们可以看到，与 SBERT 和 GloVe 相比，SP 使用 CLIP 在 1-shot 学习中表现更好，这可能是因为 CLIP 的多模态预训练使语义嵌入与视觉概念之间更好地对齐。在 5-shot 学习中，性能差异减小，因为在支持图像充足的情况下，模型性能主要由视觉特征主导。在接下来的实验中，我们使用 CLIP 作为默认的文本编码器。

5.3. Model analysis

5.3.1 Ablation study

消融实验结果如表 3 所示。通过将标准的 RandomResizedCrop 扩展为 RandAug 和 RepeatAug，预训练特征提取器的 1-shot 准确率在四个数据集上的平均性能提升了 2.45%。为了验证 SP（语义提示）方法的有效性，我们使用三种不同的交互机制对特征提取器进行了微调，包括 SI（空间交互）、CI（通道交互）和 SI+CI。如表 3 所示，SI 和 CI 均表现出很高的有效性，分别使四个数据集上的平均 1-shot 准确率提升了 5.89% 和 5.43%。此外，通过将两者结合，1-shot 学习的准确率在所有四个数据集上进一步提高。这些结果表明，所提出的 SP 方法在利用语义信息进行小样本学习方面是非常有效的。

表 3. 在 1-shot 设置下对四个数据集的消融研究。SI 表示空间交互，CI表示通道交互。

Aug	SI	CI	Mini	Tiered	CIFAR-FS	FC100
✗	✗	✗	61.96	71.91	68.84	40.78
✓	✗	✗	65.15	72.38	71.99	43.77
✓	✓	✗	71.59	76.20	81.19	47.83
✓	✗	✓	70.48	77.62	79.80	47.10
✓	✓	✓	72.31	78.03	82.18	48.53

5.3.2 Layer selection

从理论上讲，本工作中的语义提示（semantic prompt）可以插入到特征提取器的任意层。然而，我们发现层的选择对性能有显著影响。在图 3 中，我们可以看到，将提示插入较高的层会提高准确率，而将提示插入较低的层会导致性能下降。考虑到提示向量是类别特定的，这些结果表明，类别特定的特征应在网络的较高层中提取，而较低层的特征应在类别之间共享。

在观察各层的性能时，我们可以看到，尽管最佳层选择在不同数据集之间略有变化，但在第三阶段的所有层插入 SP 都能稳定地提高准确率。为了简化架构设计，我们在实验中选择 layer3-2 作为默认设置。
在这里插入图片描述
图 3. 准确度与不同层的插图提示。我们在元训练过程的 miniimagenet 和 cifaf-fs 的验证集上报告了 5-way 1-shot 准确率 (%)。特征提取器在每个阶段有三个阶段和多个变压器层。

5.3.3 The backbone and classifier architectures

在表 4 中，我们使用与我们相同的 Visformer 主干网络重新实现了三种基线方法，并将结果与不同主干网络在 miniImageNet 1-shot 设置下进行了比较。可以看到，仅将 ResNet12 替换为 Visformer 并不能获得显著的性能提升。而是，当采用相同的 Visformer 主干网络时，使用语义提示（semantic prompt）能够提升这些基线模型的 1-shot 性能。

表4。与不同主干的比较。

Backbone	ProtoNet ⁶	MetaOptNet ⁴⁸	Meta-Baseline ³⁶	Ours
ResNet-12	63.28	63.29	64.36	-
Visformer-T	63.16	64.39	63.32	72.31

在表 5 中，我们对所有数据集上的 LR（逻辑回归）和 NN（最近邻）分类器进行了比较。简单的 NN 分类器在 1-shot 中的表现与 LR 分类器相当，而在 5-shot 中，由于 LR 分类器受益于更多的训练样本，其性能比 NN 分类器高出 0.53%。

表5。分类器的比较。nn：余弦距离最近邻原型分类器。lr：线性逻辑回归分类器。

Classifier	Mini 1-shot	Mini 5-shot	Tiered 1-shot	Tiered 5-shot	CIFAR 1-shot	CIFAR 5-shot	FC100 1-shot	FC100 5-shot
NN	72.31	82.86	78.03	87.74	82.18	88.04	48.53	61.10
LR	72.37	83.42	78.11	88.64	82.17	88.24	48.61	61.55

5.3.4 Projector structure and pooling strategy

如表 6 所示，投影器的设计对性能影响不大：线性和 MLP 投影器都能很好地工作，其中 MLP 略有优势。相比之下，池化策略对性能的影响更大。采用 ‘Head’ 策略时，1-shot 和 5-shot 学习的准确率都非常低。这表明提示向量位置的输出容易过拟合语义特征，并忽略图像补丁中的丰富视觉特征。对所有输出特征进行平均可以解决这个问题，并取得更好的结果。

表6。投影仪的选择和输出序列的池化策略。'head' 表示在提示向量的位置选择输出； 'patches' 表示平均所有补丁的输出特征； 'all' 表示平均输出序列中的所有特征向量。

	Projector		Pooling Strategy
	Linear	MLP	Head	Patches
1-shot	72.31	72.70	66.48	72.29
5-shot	83.42	83.56	72.70	83.39

5.3.5 Image size and stem design

在表 7 中，我们实验了更小的输入尺寸 84×84，以验证图像尺寸的影响。可以看出，直接将输入尺寸更改为 84×84 会导致所有数据集上的性能显著下降。我们认为，这是因为当输入图像变小时，stem 的核大小和步幅过大，无法捕捉到详细的视觉特征。为了解决这个问题，我们相应地减小了 stem 的核大小和步幅。此更改后，84×84 尺寸下的 1-shot 学习性能显著提升，并在所有数据集上获得了与 224×224 分辨率相当的结果。

表 7。输入大小和词干设计的影响。'ks' 表示第一个卷积层的内核大小（词干），'stride' 表示它的步幅。在四个数据集上报告了 5 路 1-shot 准确度，置信区间为 95%。

Input Size	Stem	MiniImageNet	TieredImageNet	CIFAR-FS	FC100
224×224	Ks=7, Stride=2	72.31 ± 0.40	78.03 ± 0.46	82.18 ± 0.40	48.53 ± 0.38
84×84	Ks=7, Stride=2	68.09 ± 0.38	72.14 ± 0.47	77.26 ± 0.42	46.44 ± 0.40
84×84	Ks=3, Stride=1	72.16 ± 0.40	77.28 ± 0.46	82.00 ± 0.41	48.52 ± 0.40

5.3.6 Visualization

在图 4 中，我们通过计算输出特征与每个位置的特征向量之间的点积来可视化注意力图。可以看到，预训练基线的视觉特征受背景信息干扰较多，而我们的方法能够根据给定的文本提示关注语义层面的视觉特征。

例如，给定 “harvestman”（收获者）的文本提示，模型将关注收获者的特征，而非蜘蛛网或背景杂乱信息。在这里插入图片描述
图4。不同类标签提示时注意图的可视化。

6. Conclusion

在本文中，我们提出了一种用于小样本学习（FSL）的新颖语义提示（Semantic Prompt, SP）方法，该方法利用从类别名称中提取的语义特征自适应地调整特征提取过程。我们在四个基准数据集上对所提出的方法进行了评估，并取得了相较于以往方法的显著改进。更深入的分析表明，SP 能够鼓励模型提取更多类别特定的特征，并且对不同的文本编码器和模型设计具有鲁棒性。

复现结果

***表 8 复现结果表 ***

Method	Backbone	mini 5-way 1-shot	mini 5-way 5-shot	tiered 5-way 1-shot	tiered 5-way 5-shot	CIFAR-FS 5-way 1-shot	CIFAR-FS 5-way 5-shot	FC100 5-way 1-shot	FC100 5-way 5-shot
Pre-train (Ours)	ViT	65.89±0.76	76.44±0.60	70.93±0.98	86.09±0.64	80.74±0.77	88.18±0.58	-	-
SP-CLIP (Ours)	ViT	65.89±0.76	76.44±0.60	-	-	-	-	-	-
SP-SBERT (Ours)	ViT		-	-	-	-	-	-	-
SP-GloVe (Ours)	ViT	-	-	-	-	-	-	-	-

Brenden Lake, Ruslan Salakhutdinov, Jason Gross, and Joshua Tenenbaum. “One shot learning of simple visual concepts.” In CogSci, 2011. ↩︎
Chelsea Finn, Pieter Abbeel, and Sergey Levine. “Model-agnostic meta-learning for fast adaptation of deep networks.” In ICML, 2017. ↩︎ ↩︎
Sachin Ravi and Hugo Larochelle. “Optimization as a model for few-shot learning.” In ICLR, 2017. ↩︎ ↩︎
Andrei A. Rusu, Dushyant Rao, Jakub Sygnowski, Oriol Vinyals, Razvan Pascanu, Simon Osindero, and Raia Hadsell. “Meta-learning with latent embedding optimization.” In ICLR, 2019. ↩︎ ↩︎ ↩︎
Hongwei Huang, Zhangkai Wu, Wenbin Li, Jing Huo, and Yang Gao. “Local descriptor-based multi-prototype network for few-shot learning.” Pattern Recognition, 116:107935, 2021. ↩︎ ↩︎
Jake Snell, Kevin Swersky, and Richard Zemel. “Prototypical networks for few-shot learning.” In NeurIPS, 2017. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Flood Sung, Yongxin Yang, Li Zhang, Tao Xiang, Philip H.S. Torr, and Timothy M. Hospedales. “Learning to compare: Relation network for few-shot learning.” In CVPR, 2018. ↩︎ ↩︎
Oriol Vinyals, Charles Blundell, Timothy Lillicrap, Daan Wierstra, et al. “Matching networks for one shot learning.” In NeurIPS, 2016. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Yanwei Fu, Tao Xiang, Yu-Gang Jiang, Xiangyang Xue, Leonid Sigal, and Shaogang Gong. “Recent advances in zero-shot recognition: Toward data-efficient understanding of visual content.” IEEE Signal Processing Magazine, 35(1):112–125, 2018. ↩︎
Yanan Li, Donghui Wang, Huanhang Hu, Yuetan Lin, and Yueting Zhuang. “Zero-shot recognition using dual visual-semantic mapping paths.” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3279–3287, 2017. ↩︎
Bernardino Romera-Paredes and Philip Torr. “An embarrassingly simple approach to zero-shot learning.” In International Conference on Machine Learning, pages 2152–2161. PMLR, 2015. ↩︎
Yutaro Shigeto, Ikumi Suzuki, Kazuo Hara, Masashi Shimbo, and Yuji Matsumoto. “Ridge regression, hubness, and zero-shot learning.” In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pages 135–151. Springer, 2015. ↩︎
Chen Xing, Negar Rostamzadeh, Boris Oreshkin, and Pedro O. O. Pinheiro. “Adaptive cross-modal few-shot learning.” Advances in Neural Information Processing Systems, 32, 2019. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Zhimao Peng, Zechao Li, Junge Zhang, Yan Li, Guo-Jun Qi, and Jinhui Tang. “Few-shot image recognition with knowledge transfer.” In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 441–449, 2019. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Kun Yan, Zied Bouraoui, Ping Wang, Shoaib Jameel, and Steven Schockaert. “Aligning visual prototypes with BERT embeddings for few-shot learning.” In Proceedings of the 2021 International Conference on Multimedia Retrieval, pages 367–375, 2021. ↩︎ ↩︎ ↩︎ ↩︎
Martin Maier and Rasha Abdel Rahman. “No matter how: Top-down effects of verbal and semantic category knowledge on early visual perception.” Cognitive, Affective, & Behavioral Neuroscience, 19(4):859–876, 2019. ↩︎
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. “BERT: Pre-training of deep bidirectional transformers for language understanding.” arXiv preprint arXiv:1810.04805, 2018. ↩︎ ↩︎
Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. “Improving language understanding by generative pre-training.” 2018. ↩︎ ↩︎
Boris Oreshkin, Pau Rodríguez López, and Alexandre Lacoste. “TADAM: Task dependent adaptive metric for improved few-shot learning.” Advances in Neural Information Processing Systems, 31, 2018. ↩︎ ↩︎ ↩︎
Chi Zhang, Yujun Cai, Guosheng Lin, and Chunhua Shen. “DeepEMD: Few-shot image classification with differentiable earth mover’s distance and structured classifiers.” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12203–12213, 2020. ↩︎ ↩︎
Afra Feyza Akyürek, Ekin Akyürek, Derry Wijaya, and Jacob Andreas. “Subspace regularizers for few-shot class incremental learning.” In International Conference on Learning Representations, 2022. ↩︎ ↩︎
Aoxue Li, Weiran Huang, Xu Lan, Jiashi Feng, Zhenguo Li, and Liwei Wang. “Boosting few-shot learning with adaptive margin loss.” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12576–12584, 2020. ↩︎ ↩︎ ↩︎ ↩︎
Si Zhang, Hanghang Tong, Jiejun Xu, and Ross Maciejewski. “Graph convolutional networks: A comprehensive review.” Computational Social Networks, 6(1):1–23, 2019. ↩︎
Kun Yan, Chenbin Zhang, Jun Hou, Ping Wang, Zied Bouraoui, Shoaib Jameel, and Steven Schockaert. “Inferring prototypes for multi-label few-shot image classification with word vector guided attention.” Proceedings of the AAAI Conference on Artificial Intelligence, 36(3):2991–2999, Jun. 2022. ↩︎
Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D. Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. “Language models are few-shot learners.” Advances in Neural Information Processing Systems, 33:1877–1901, 2020. ↩︎ ↩︎ ↩︎ ↩︎
Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Russ R. Salakhutdinov, and Quoc V. Le. “XLNet: Generalized autoregressive pretraining for language understanding.” Advances in Neural Information Processing Systems, 32, 2019. ↩︎
Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929, 2020. ↩︎ ↩︎ ↩︎
Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. “Swin transformer: Hierarchical vision transformer using shifted windows.” In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 10012–10022, 2021. ↩︎
Chenyang Si, Weihao Yu, Pan Zhou, Yichen Zhou, Xinchao Wang, and Shuicheng Yan. “Inception transformer.” In Advances in Neural Information Processing Systems, 2022. ↩︎
Zizhao Zhang, Han Zhang, Long Zhao, Ting Chen, Sercan Ö. Arik, and Tomas Pfister. “Nested hierarchical transformer: Towards accurate, data-efficient and interpretable visual understanding.” In Proceedings of the AAAI Conference on Artificial Intelligence, volume 36, pages 3417–3425, 2022. ↩︎
Fabio Petroni, Tim Rocktäschel, Patrick Lewis, Anton Bakhtin, Yuxiang Wu, Alexander H. Miller, and Sebastian Riedel. “Language models as knowledge bases?” arXiv preprint arXiv:1909.01066, 2019. ↩︎ ↩︎
Brian Lester, Rami Al-Rfou, and Noah Constant. “The power of scale for parameter-efficient prompt tuning.” arXiv preprint arXiv:2104.08691, 2021. ↩︎
Xiang Lisa Li and Percy Liang. “Prefix-tuning: Optimizing continuous prompts for generation.” arXiv preprint arXiv:2101.00190, 2021. ↩︎
Ningyu Zhang, Luoqiu Li, Xiang Chen, Shumin Deng, Zhen Bi, Chuanqi Tan, Fei Huang, and Huajun Chen. “Differentiable prompt makes pre-trained language models better few-shot learners.” arXiv preprint arXiv:2108.13161, 2021. ↩︎
Maria Tsimpoukelli, Jacob L. Menick, Serkan Cabi, S.M. Eslami, Oriol Vinyals, and Felix Hill. “Multimodal few-shot learning with frozen language models.” Advances in Neural Information Processing Systems, 34:200–212, 2021. ↩︎
Yinbo Chen, Zhuang Liu, Huijuan Xu, Trevor Darrell, and Xiaolong Wang. “Meta-baseline: exploring simple meta-learning for few-shot learning.” In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 9062–9071, 2021. ↩︎ ↩︎ ↩︎
Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. “Momentum contrast for unsupervised visual representation learning.” In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 9729–9738, 2020. ↩︎
Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Joan Puigcerver, Jessica Yung, Sylvain Gelly, and Neil Houlsby. “Big transfer (BiT): General visual representation learning.” In European Conference on Computer Vision, pages 491–507. Springer, 2020. ↩︎
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. “Learning transferable visual models from natural language supervision.” In International Conference on Machine Learning, pages 8748–8763. PMLR, 2021. ↩︎ ↩︎ ↩︎
Yonglong Tian, Yue Wang, Dilip Krishnan, Joshua B. Tenenbaum, and Phillip Isola. “Rethinking few-shot image classification: a good embedding is all you need?” In European Conference on Computer Vision, pages 266–282. Springer, 2020. ↩︎ ↩︎
Zhengsu Chen, Lingxi Xie, Jianwei Niu, Xuefeng Liu, Longhui Wei, and Qi Tian. “Visformer: The vision-friendly transformer.” In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 589–598, 2021. ↩︎ ↩︎
Zhenhailong Wang, Hang Yu, Manling Li, Han Zhao, and Heng Ji. “Model-agnostic multitask fine-tuning for few-shot vision-language transfer learning.” arXiv preprint arXiv:2203.04904, 2022. ↩︎
Jeffrey Pennington, Richard Socher, and Christopher D. Manning. “GloVe: Global vectors for word representation.” In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1532–1543, 2014. ↩︎ ↩︎
Nils Reimers and Iryna Gurevych. “Sentence-BERT: Sentence embeddings using siamese BERT-networks.” arXiv preprint arXiv:1908.10084, 2019. ↩︎ ↩︎
Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg, and Li Fei-Fei. “ImageNet Large Scale Visual Recognition Challenge.” International Journal of Computer Vision, 2015. ↩︎
Mengye Ren, Eleni Triantafillou, Sachin Ravi, Jake Snell, Kevin Swersky, Joshua B. Tenenbaum, Hugo Larochelle, and Richard S. Zemel. “Meta-learning for semi-supervised few-shot classification.” In ICLR, 2018. ↩︎
Alex Krizhevsky. “Learning multiple layers of features from tiny images.” Technical report, University of Toronto, 2019. ↩︎
Kwonjoon Lee, Subhransu Maji, A. Ravichandran, and Stefano Soatto. “Meta-learning with differentiable convex optimization.” In CVPR, 2019. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Ekin D. Cubuk, Barret Zoph, Jonathon Shlens, and Quoc V. Le. “Randaugment: Practical automated data augmentation with a reduced search space.” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, pages 702–703, 2020. ↩︎
Maxim Berman, Hervé Jégou, Andrea Vedaldi, Iasonas Kokkinos, and Matthijs Douze. “Multigrain: a unified image embedding for classes and instances.” arXiv preprint arXiv:1902.05509, 2019. ↩︎
Ilya Loshchilov and Frank Hutter. “Decoupled weight decay regularization.” arXiv preprint arXiv:1711.05101, 2017. ↩︎
Spyros Gidaris, Andrei Bursuc, Nikos Komodakis, Patrick Pérez, and Matthieu Cord. “Boosting few-shot visual learning with self-supervision.” In ICCV, 2019. ↩︎ ↩︎
Arman Afrasiyabi, Jean-Francois Lalonde, and Christian Gagne. “Associative alignment for few-shot image classification.” ECCV, 2020. ↩︎ ↩︎
Dahyun Kang, Heeseung Kwon, Juhong Min, and Minsu Cho. “Relational embedding for few-shot classification.” In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 8822–8833, 2021. ↩︎ ↩︎
Jiamin Wu, Tianzhu Zhang, Yongdong Zhang, and Feng Wu. “Task-aware part mining network for few-shot learning.” In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 8433–8442, 2021. ↩︎
Arman Afrasiyabi, Hugo Larochelle, Jean-Francois Lalonde, and Christian Gagne. “Matching feature sets for few-shot image classification.” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 9014–9024, 2022. ↩︎
Bowen Dong, Pan Zhou, Shuicheng Yan, and Wangmeng Zuo. “Self-promoted supervision for few-shot transformer.” arXiv preprint arXiv:2203.07057, 2022. ↩︎ ↩︎ ↩︎
Jaekyeom Kim, Hyoungseok Kim, and Gunhee Kim. “Model-agnostic boundary-adversarial sampling for test-time generalization in few-shot learning.” In ECCV, 2020. ↩︎
Chen Liu, Yanwei Fu, Chengming Xu, Siqian Yang, Jilin Li, Chengjie Wang, and Li Zhang. “Learning a few-shot embedding model with contrastive learning.” In AAAI, 2021. ↩︎