（2024，少样本微调自适应，泛化误差界限，减小泛化误差的措施）多模态基础模型的少样本自适应：综述

最新推荐文章于 2025-01-20 13:13:58 发布

EDPJ，公众号（EDPJ）

最新推荐文章于 2025-01-20 13:13:58 发布

阅读量2k

点赞数 24

分类专栏：论文笔记文章标签：机器学习人工智能计算机视觉

本文链接：https://blog.csdn.net/qq_44681809/article/details/135406613

版权

论文笔记专栏收录该内容

359 篇文章

订阅专栏

Few-shot Adaptation of Multi-modal Foundation Models: A Survey

公和众和号：EDPJ（添加 VX：CV_EDPJ 或直接进 Q 交流群：922230617 获取资料）

0. 摘要

多模态（视觉-语言）模型，如 CLIP，正在取代传统的监督式预训练模型（例如基于 ImageNet 的预训练）成为新一代的视觉基础模型。这些模型具有从数十亿互联网图像文本对中学到的稳健且对齐的语义表示，并可以以零样本的方式应用于各种下游任务。然而，在一些细粒度领域，如医学图像和遥感，多模态基础模型的性能常常令人不满意。因此，许多研究人员已经开始探索这些模型的少样本适应方法，逐渐演化出三种主要的技术方法：1）基于提示的方法，2）基于适配器的方法，和 3）基于外部知识的方法。然而，这个迅速发展的领域已经产生了许多结果，但没有全面的调查系统地组织研究进展。因此，在这个调查中，我们介绍并分析了多模态模型少样本适应方法的研究进展，总结了常用的数据集和实验设置，并比较了不同方法的结果。此外，由于现有方法缺乏可靠的理论支持，我们为多模态模型推导了少样本适应的泛化误差界限。该定理揭示了多模态基础模型的泛化误差受到三个因素的约束：领域差异、模型容量和样本大小。基于此，我们从以下几个方面提出了三种可能的解决方案：1）自适应领域泛化，2）自适应模型选择和 3）自适应知识利用。

1. 简介

人工智能越来越广泛地应用于多个关键行业，包括语音识别、图像识别、自动驾驶、智能制造、医学诊断、金融风险控制等。在将各个领域赋能于人工智能技术的过程中，经常面临着与碎片化和多样化需求相关的挑战。过去，模型通常具有较小的参数大小和有限的泛化能力。一个模型只能应对单一场景，导致成本高昂且泛化性能不佳。最近，越来越多的研究人员开始关注具有更强泛化能力的预训练基础模型。

自 2018 年以来，诸如 BERT [1]、Pangu [2]、PaLM [3]、GPT-4 [4] 等基础模型的训练数据和参数大小呈指数增长，显著提高了各种自然语言理解任务的性能。与此同时，基础模型的发展逐渐从单一模态，如文本、语音、视觉等，演变为多模态融合。越来越多的研究机构开始关注多模态预训练基础模型，如 ViLBERT [5]、CLIP [6]、DeCLIP [7]、FILIP [8]、PyramidCLIP [9]、OFA [10]、BEiT-3 [11]、ERNIE-ViL [12] 和 Data2vec [13]。

在 2021 年初，OpenAI 发布了 CLIP，这是一个大规模的多模态模型，用于对齐图像和文本。该模型通过对比学习使用数十亿互联网数据进行预训练，以获取丰富的视觉语言知识。虽然预训练的CLIP 模型可以通过在推断阶段使用文本特征作为分类权重来实现零样本预测，但这种方法通常只在通用领域（如 ImageNet）表现出色，并在处理来自某些细粒度领域的数据时往往表现不佳。其原因在于这些模型主要在预训练阶段利用通用领域的数据，而在面对特定的下游任务时，数据分布往往与预训练数据不同。因此，需要使用下游任务的特定数据对模型进行微调。为了通过微调提高模型的泛化性能，研究人员首次提出了基于提示的微调适应方法（例如 CoOp [14]），该方法将CLIP 文本侧的固定文本输入视为可学习向量，然后使用少量样本进行微调以适应下游任务。另一种常用于增强少样本适应能力的方法是基于适配器的微调，例如 CLIP-Adapter [15]。该方法涉及在预训练模型中添加简单的适配器结构，然后使用少量样本数据微调适配器参数，使基础模型能够适应下游任务。此外，引入基础语言模型或外部知识，如知识图谱（例如 CuPL [16]）的方法，可以帮助模型更好地处理未见样本，增强其语义理解和鲁棒性，从而提高其在少样本适应任务中的性能。上述三种方法已广泛用于各种下游适应任务，但缺乏一份系统整理这些方法的全面调查。因此，我们详细阐述和比较这些方法，并探讨它们未来的方向，以进一步提高预训练模型的性能和泛化能力。本文的贡献如下：

我们全面审查和整理多模态少样本适应方法，并将现有方法分类为基于提示的微调适应方法、基于适配器的微调适应方法、基于外部知识的适应方法以及其他方法。在基于提示的微调适应方法中，我们进一步将它们细分为文本提示微调、视觉提示微调、多模态提示和多任务提示方法。关于基于适配器的微调适应方法，我们将它们分类为单模态适配器微调和多模态适配器微调。至于使用外部知识的方法，我们区分了具有外部知识的预训练方法和利用外部知识的下游适应方法。
我们审查了评估多模态基础模型下游泛化性能的 11 个常用数据集。我们详细描述了四个实验设置，以验证多模态基础模型在少样本条件下的适应性能。呈现了四种不同设置的实验结果，并对这些结果进行了比较分析。我们强调了不同类型的方法能够有效增强多模态基础模型的泛化性能的原因。
我们讨论了现有多模态基础模型的少样本适应方法的常见缺点，并分析了领域适应问题。从统计机器学习理论中的跨领域泛化误差边界开始，我们推导了多模态基础模型的少样本适应误差边界，揭示了现有方法面临的主要挑战，包括上游和下游领域分布的无效适应、模型选择的缺乏适应性以及数据和知识的不充分利用。

2. 多模态基础模型的预训练

近年来，大规模预训练模型在学术界和工业界受到了广泛关注。最初，基础模型预训练的相关工作主要集中在自然语言处理领域，其中自监督语言模型如 BERT [1] 和 GPT [17] 在自然语言理解和生成方面展现出比传统方法更好的性能。在计算机视觉领域，范式也从监督式预训练转向了自监督预训练。自监督预训练的视觉模型性能显著提高，从最初基于数据增强的模型，如 SimCLR [18] 和MoCo [19]，发展到最近基于随机掩蔽方法的方法，如 MAE [20] 和 BEiT [21]。

然而，预训练的语言模型无法接收视觉输入，导致无法将其在语言理解方面的优势扩展到多模态下游任务，如视觉问答（VQA）。另一方面，用于视觉预训练的监督信号通常仅限于数据增强和随机掩蔽，这阻碍了它们在开放世界中学习更丰富语义表示的能力。因此，我们见证了大规模预训练的多模态模型的近期发展，这些模型结合了视觉和语言模态，如表 I 所示。

上述多模态预训练基础模型的显著特征在于能够通过大规模自然语言监督高效学习视觉概念，并将图像和文本特征嵌入到共享的语义空间中，从而获得零样本预测能力。然而，当下游任务的数据属于某些特定领域，如遥感、医疗保健、电子商务等，这些领域与预训练数据差异巨大时，多模态基础模型的零样本预测准确性将急剧下降。在这种情况下，有必要借助下游任务的数据对模型进行微调，例如使用线性探针或全局微调方法。然而，这些方法通常需要大量样本进行有效训练，而实际下游任务中可用的样本数量通常受到标注成本的限制。

为解决这个问题，学术界一些初步的探索尝试使用少量数据对多模态基础模型进行微调，以便它们能够高效推广到特定的下游应用。例如，有一些研究 [15] [33] 对 CLIP 进行微调，采用线性分类器、适配器层等方法。对 CLIP 的微调工作在少样本图像识别任务上取得了非常好的结果，甚至超过了一些专门设计用于少样本任务的算法。

3. 多模态基础模型的少样本适应方法

为了有效增强模型在特定领域的泛化性能，有必要使用有限的样本对多模态基础模型进行微调，使其能够具有更广泛的应用。这些方法可以定义为多模态基础模型的少样本适应方法。本章将分为四个部分，详细概述了多模态基础模型的现有方法，即：基于提示的微调适应方法、基于适配器的微调适应方法、基于外部知识的适应方法以及其他方法。

A. 基于提示的微调适应方法

1）基于文本提示的微调适应：在自然语言处理领域，基于提示的微调适应 [34]–[38] 是解决大型语言模型少样本泛化问题的经典方法。它涉及将文本输入的固定部分作为可学习向量，并使用下游任务数据微调其参数，使模型能够适应特定的下游任务。该方法的优势在于能够避免手动设计文本提示，通过只微调模型输入的特定部分，有效减轻过拟合的风险。受此启发，一些研究人员也开始为多模态基础模型设计基于提示的微调适应方法。CoOp [14] 首次将提示学习的思想引入到多模态预训练基础模型的下游任务适应中。它使用可学习的词嵌入自动构建上下文提示，而不是为每个任务手动设计提示模板。如图 1 所示，将个别类别标签 {object} 转换为全面的文本提示 ' [V]1, [V]2, ...., [V]m, {object}'。这里，[V]i 表示可适应的词向量。然后，通过计算分类损失，使用下游任务的数据微调这些词向量，使模型能够自主获取适应于下游任务的文本输入。

随后，Zhou 等人 [39] 引入条件上下文优化（Conditional Contextual Optimization，CoCoOp），构建了一个元网络（meta-network）从图像中学习特征。然后将这些特征与提示向量结合，以增强CoOp 在新类别数据上的泛化性能。为有效利用预训练模型的零样本能力，Huang 等人 [40] 提出了无监督提示学习（Unsupervised Prompt Learning，UPL）。它选择零样本预测结果中置信度较高的结果作为伪标签，用于监督提示向量的学习。类似地，基于提示的梯度（Prompt-aligned
Gradient，ProGrad）[41] 使用零样本预测结果来约束模型梯度更新的方向，从而避免少样本模型与泛化知识之间的冲突，并减轻过拟合问题。然而，由于视觉信息的丰富多样性，仅学习一个文本提示使得匹配复杂的视觉数据变得具有挑战性。为解决这个问题，Chen 等人 [42] 提出了使用最优输运的提示学习（Prompt Learning with Optimal Transport，PLOT）。它用于学习多个不同的文本提示，其中不同的文本提示被视为对图像位置的描述，采用最优输运理论来将文本提示与局部图像特征匹配。Lu 等人 [43] 引入了提示分布学习（Prompt Distribution Learning，ProDA），用于学习提示分布并从这些分布中采样不同的文本提示。此外，为充分利用多任务数据之间的相关性，Ding 等人 [44] 提出了用于提示微调的软上下文共享（Soft Context Sharing for Prompt Tuning，SoftCPT），该方法设计了一个任务共享的元网络，将预定义的任务名称和可学习的元提示拼接为输入，以在多任务数据的帮助下微调提示。

2）基于视觉提示的微调适应：上述所有方法仅微调了 CLIP 的文本侧，而 CLIP 作为一个多模态模型，视觉和文本两侧同等重要。仅微调文本提示无法改善视觉编码器提取特征的能力，提取的视觉特征可能与下游任务的目标特征不匹配。因此，受文本提示微调适应的启发，出现了一系列视觉提示微调适应方法。现有的视觉提示微调适应方法主要包括标记级微调适应和像素级微调适应。Visual Prompt Tuning（VPT）[45] 引入了以标记形式的可学习视觉提示。Class-Aware Visual Prompt Tuning（CAVPT）[46] 在此基础上进一步包含一个交叉注意力模块，使视觉提示更加专注于下游任务的目标。与基于标记的方法相比，Bahng 等人 [47] 建议以填充格式直接在图像周围添加像素级视觉提示，以增强视觉提示。Wu 等人 [48] 进一步提出了增强视觉提示（EVP），通过缩放和填充而不是直接在原始图像周围填充来实现。

3）基于多模态提示的微调适应：除了分别学习文本和视觉提示外，还可以同时学习多模态提示以更好地对齐文本和视觉特征。由于文本和视觉特征具有固有差异，为了在学习多模态提示时加强它们之间的联系，Multi-modal Prompt Learning（MAPLE）[49] 使用 copula 函数将文本提示转换为视觉提示。另一方面，Unified Prompt Tuning（UPT）[50] 首先学习一个通用提示，然后将其分解为文本和视觉提示。另一方面，Multi-task Visual Language Prompt Tuning（MVLPT）[51] 引入多任务学习的概念，使用跨任务知识微调文本和视觉提示。

B. 基于适配器的微调适应方法

1）基于单模态适配器的微调适应：在自然语言处理（NLP）领域，适配器的概念最早由 Google 团队在2019 年引入，用于对大型语言模型进行微调 [52]。在下游任务的训练中，该方法冻结原始语言模型的参数，仅更新作为适配器模块添加的少量参数。由于其参数效率、设计灵活性和高鲁棒性等优势，这种方法近年来在 NLP 领域受到了广泛关注 [53]。最近，适配器方法也被应用于计算机视觉领域的视觉 Transformers（ViTs）。Jie 等人 [54] 通过引入卷积旁路（Convpass）解决了 ViTs 适配器结构缺乏归纳偏差的问题。此外，他们提出了 Factor-Tuning（FacT，引用为 [55]），以进一步提高参数效率的迁移学习，以满足实际应用中的存储约束。

2）基于多模态适配器的微调适应：上述基于适配器的方法都适用于自然语言处理或计算机视觉中的单模态基础模型。近年来，适配器方法还被扩展到多模态基础模型，以增强下游泛化能力。Gao等人 [15] 引入了 CLIP-Adapter，它在冻结骨干网络后添加了一个全连接层适配器来学习额外的知识。然后，基于残差连接，将这些知识与零样本预测结果合并，如图 2 所示。

在这些发展基础上，Zhang 等人引入了 Tip-Adapter [56]。该方法基于下游少样本训练数据构建分类器，并以线性加权的方式将它们的预测与原始零样本分类器的结果结合起来，以增强模型的预测性能。而 SVL-Adapter [57] 则在适配器之前融合了一个预训练的自监督视觉编码器，以提取更强大的视觉特征。然而，上述方法仅使用跨模态对比损失，并未考虑对于少样本数据集的视觉特异对比损失。为解决这个问题，Peng 等人 [58] 提出了 Semantic-guided Visual Adapting（SgVA-CLIP），通过隐式知识蒸馏引导视觉适配器的参数更新，以确保图像和文本关系的一致性。为增强适配器的跨模态交互能力，CALIP [59] 利用注意力图融合文本和图像特征，并在融合之前和之后插入两个可微调的线性层。此外，Cross-Modal Adapter（CMA）[60] 和 Multi-modal Video Adapter（MV-Adapter）[61] 通过在两种模态之间共享适配器权重来实现跨模态交互。这些方法考虑了单模态和多模态场景，但未充分整合每种模态的优势。为解决这个问题，Lu 等人 [62] 提出了UniAdapter 来统一单模态和多模态适配器的优势。

C. 基于外部知识的适应方法

1）基于外部知识的预训练方法：预训练的基础模型能够通过挖掘互联网上的大量数据来学习一般性表示。然而，在这样的数据驱动模型中，知识通常是隐含的，而且没有明确与人类对世界的理解或常识知识相链接。近年来，以数据和知识为驱动的预训练方法逐渐出现，研究人员开始探索将更全面的外部知识，如知识图谱，整合到基础模型中。这种整合旨在使这些模型更加强大、可靠和可解释。ERNIE [63] 包含了一个用于实体知识提取和异构信息融合的知识编码器。K-BERT [64] 检索与模型输入相关的外部知识，并构建具有丰富上下文知识的句子树作为模型输入。近年来，一些工作也开始将知识注入到多模态基础模型的预训练中。例如，ERNIE-ViL [65] 整合了来自场景图的知识，KM-BART [66] 通过创建额外的预训练任务模型化通用的视觉知识，而 K-LITE [67] 则整合了各种外部知识源，包括 WordNet 和 Wikipedia 的定义。

2）基于外部知识的下游适应方法：上述方法在预训练阶段引入外部知识。然而，在具有有限数据样本的下游少样本适应场景中，还需要增强外部知识以确保模型的性能。最常见的方法之一是通过查询大型语言模型为每个类别生成更丰富的文本描述。该方法的示例如图 3 所示。Customized Prompts via Language models（CuPL）[16] 是第一种将外部知识整合到多模态基础模型下游泛化过程中的方法。CuPL 通过询问 GPT-3 问题生成每个类别的多个描述性语句，丰富了类别的语义，从而提高了零样本分类性能。然而，CuPL 使用 GPT-3 生成的句子可能存在描述不足和可靠性差的问题。为解决这些问题，Menon等人 [68] 进一步改进了基于 GPT-3 的知识增强过程。他们提示 GPT-3 以短语形式生成语义属性描述，增强了模型的可解释性。为在解释性和性能之间取得平衡，Language Guided Bottlenecks（LaBo）[69] 使用 GPT-3 生成大量候选特征描述符空间，考虑到特征相对于其他类别的可辨识性和当前类别的覆盖范围。它筛选出最佳的子描述符空间进行分类决策，从而揭示模型的决策原理。ELEVATER [70] 还整合了来自 GPT-3、WordNet 和 Wiktionary 等来源的定义。实验结果表明，外部知识可以提升多模态基础模型在下游泛化性能方面的表现。然而，不同来源的知识具有不同的强调和属性。例如，WordNet 具有相对丰富和准确的知识，但覆盖范围较小，而 GPT-3 具有更广泛的知识覆盖，但可靠性可能较低。此外，与上述使用外部知识增强文本语义的方法不同，SuS-X [71] 专注于增强多模态模型的视觉样本。通过从LAION-5B 数据集 [72] 中检索图像或基于 Stable Diffusion [73] 生成图像样本，它为下游任务的少样本训练集进行扩充，旨在更准确可靠地对下游数据的真实分布进行建模。

D. 其他方法

除了上述三类方法之外，还有一些从权重参数融合、模型重构和交叉注意力等角度进行多模态基础模型微调的方法。具体而言，Wise-FT [74] 通过线性插值融合原始和微调后的模型参数，使模型能够从下游数据中获取特定知识，同时尽量保留通用知识。MaskCLIP [75] 直接修改 CLIP 图像编码器的结构，去除查询嵌入层和键嵌入层，用 1×1 卷积层替换值嵌入层和最后的线性层，使模型能够提取更密集的图像特征。VT-Clip [76] 引入了一种视觉引导的注意力机制，增强了文本特征与下游任务的图像数据之间的语义相关性，从而有效提高了多模态基础模型的泛化性能。

4. 数据集和实验结果比较

用于评估多模态基础模型下游泛化性能的常用数据集有 11 个，分别是：2 个通用目标数据集（ImageNet [77] 和 Caltech101 [78]），5 个细粒度分类数据集（OxfordPets [79]、StanfordCars [80]、Flowers102 [81]、Food101 [82] 和 FGVCAircraft [83]），1 个场景识别数据集（SUN397 [84]），1 个动作识别数据集（UCF101 [85]），1 个纹理数据集（DTD [86]）和1 个卫星图像数据集（EuroSAT [87]）。这些数据集涵盖了各种不同的视觉任务，共同构成了一个更全面的基准，用于评估多模态基础模型在各种场景中的性能。

为了评估多模态基础模型在少样本条件下的泛化性能，通常使用四种实验设置，即：

少样本学习：在上述提到的 11 个数据集的基础上，将训练集和测试集进行划分。对于训练集中的每个类别，提取 1、2、4、8 和 16 个样本用于训练。随后，在测试集上评估模型的性能。这个实验的主要目的是评估有限样本对泛化性能的影响。

基础到新的泛化：为了评估适应方法对多模态基础模型在先前未见类别上的有效性，将 11 个数据集中的所有类别均匀分为两组。一组称为 “基础类别”，另一组称为 “新类别”。多模态基础模型仅在基础类别的数据上进行训练。随后，分别在基础类别和新类别数据上进行评估。基础类别的性能反映了模型学到的特征的可辨识性，而新类别的性能反映了模型的泛化能力。在基础类别和新类别数据上获得的结果的调和平均（harmonic mean）被采用为刻画可辨识性和泛化能力之间平衡的指标。

领域泛化：为了验证多模态基础模型适应方法在处理分布外（OOD）数据时的泛化和领域迁移能力，选择 ImageNet 作为源数据集，而其他四个数据集（ImageNetV2 [88]、ImageNet-Sketch [89]、ImageNet-A [90] 和 ImageNet-R [91]）作为目标数据集。目标数据集与源数据集具有相同的类别信息，但数据分布不同。模型仅在源数据集上进行训练，随后在目标数据集上进行评估。

跨数据集转移：为了验证在不同数据集上的泛化性能，选择 ImageNet 作为源数据集，其余 10 个数据集作为目标数据集。模型在 ImageNet 上进行训练，然后在目标数据集上进行测试。源数据集和目标数据集在类别上几乎没有重叠，这可以测试模型在不同类别数据集上的泛化能力。

我们在表 II 中汇总了来自各种来源的选择方法在 11 个数据集上进行的少样本学习实验结果，如下所示。主要使用的骨干网络是基于 CNN 的 ResNet50，以及基于 Transformer 的 ViT-B 和 ViT-L。所有方法均仅使用每类 16 个样本进行训练，然后在测试集上测试图像分类准确性。"Baseline" 是指 Linear-probe CLIP 的分类结果。

根据表 II，可以得出以下结论：1) 三种多模态基础模型的适应方法在少样本学习中有效地提高了基础模型对少样本下游任务的适应性。基于提示的方法（如 CoOp）、基于适配器的方法（如 SgVA-CLIP）和基于外部知识的方法（如 CuPL）在 ImageNet 数据集上分别取得了 1.7%（ViT-B/16）、3.1%（ViT-B/16）和 0.1%（ViT-L/14）的性能提升。2) 对于基于提示的微调方法，一些无监督训练方法的结果与监督训练方法相似。无监督方法 UPL 的准确性仅比使用 2 个样本训练的 CoOp 高出 0.4%，而 TPT 的准确性（69.0%）与使用 16 个样本训练的 CoOp（71.9%）没有显著差异。这是因为与仅使用少量样本进行监督训练相比，无监督训练方法可以有效利用未标记的数据，并且可以避免过拟合。

正如表 III 所示，我们还从各种来源收集了现有方法在基础到新类别泛化方面的实验结果。从表中可以得出以下结论：1) 在基础类别上表现良好的方法往往会牺牲在新类别上的泛化性能。这可能是因为模型过度拟合基础类别。同时，在预训练期间获得的潜在泛化知识的破坏或遗忘导致模型在泛化到未见类别时性能下降。2) LASP-V 和 CPL 在基础类别的区分性和新类别的泛化方面表现良好。在 11 个数据集中，相对于基础类别、新类别调和平均的三个度量标准，LASP-V 的性能分别超过 CLIP 13.76％、1.89％和 7.78％。在 ImageNet 数据集上，CPL 分别超过 CLIP 6.38％、5.03％和 5.67％。值得注意的是，这两种方法在未见类别上的表现明显优于 CLIP，后者具有强大的零样本能力。

我们从各种来源收集的现有方法在领域泛化方面的实验结果如表 IV 所示，可以发现：1) TPT 能够有效地与 CoOp 和 CoCoOp 结合，取得了最先进的性能。在使用 ViT-B/16 作为骨干网络时，TPT 和 CoOp 的组合在 ImageNet、-V2、-Sketch、-A 和 -R 数据集上分别超过零样本 CLIP 6.88％、6％、3.14％、10.18％和 3.31％。2) 与仅基于文本的提示微调适应方法（例如 CoOp、CoCoOp）和仅基于视觉的提示微调适应方法（例如 VPT）相比，多模态提示微调适应方法如 UPT 和 MAPLE 能够取得更大的改进。这表明同时对两种模态进行微调既足够又必要以获得更好的性能。

我们从各种来源收集的现有方法在跨数据集适应实验方面的结果如表 V 所示。此实验的目的是验证适应方法在不同数据集上的泛化性能。使用包含 1000 个类别的 ImageNet 数据集作为源数据集，这些方法最初使用源数据集的每个类别的 16 个样本进行训练。随后，这些方法在 10 个不同的目标数据集上进行测试。从表中的数据可以得出以下观察结果：1) 对于 ResNet50 作为骨干网络的 SubPT 和 TPT 以及其他使用 ViT 骨干的方法，在源数据集上实现了相似的结果，但在不同的目标数据集上性能存在显著差异。例如，它们在类别与 ImageNet 相似的数据集（如 Caltech101 和 Pets）上取得了更高的准确性。然而，在包含与 ImageNet 不同类别的细粒度数据的数据集（如 Aircraft 和 DTD）上，它们的性能要低得多。这些数据集与 ImageNet 的类别差异较大，因此在这些数据集上的准确性远低于 50％，表明将从 ImageNet 学到的特定知识传递到具有显著不同类别的下游任务是具有挑战性的。2) 无论是基于提示的微调方法还是基于适配器的微调方法，同时对两种模态进行微调往往比仅对其中一种模态进行微调产生更好的结果。例如，多模态提示学习方法 MAPLE 在 10 个目标数据集上的准确性均优于仅基于文本的提示学习方法 CoCoOp（ViT-B/16），UPT 在准确性上也优于仅基于视觉的提示学习方法 VPT（ViT-L/14）。这表明对于像 CLIP 这样的多模态基础模型，同时微调文本和视觉方面对于改进泛化性能至关重要。

5. 分析和讨论

当前对多模态基础模型的少样本适应性研究主要包括基于提示的微调适应方法、基于适配器的微调适应方法和基于外部知识的适应方法。基于当前少样本适应性研究现状，我们总结以下问题和挑战：

上游和下游领域分布的不高效适应：现有的多模态基础模型少样本适应方法主要关注下游任务数据中的类别信息，而忽略了领域分布信息。此外，在多模态基础模型的领域适应场景中，目标领域样本的稀缺性使建模变得具有挑战性，而源领域中样本的丰富性导致建模成本高昂。此外，当前的领域适应方法是为单一模态定制的，忽略了跨模态信息交互，这不符合多模态基础模型适应的要求。

模型选择的适应性不足：现有的适配器结构种类繁多，具有不同的微调特性、学习能力和模型容量。不同的下游任务通常需要不同的最佳适配器或多个适配器的组合，不同模态之间的特征提取过程差异显著。目前，适配器选择通常依赖于启发式方法或基于穷举搜索的方法，这些方法成本高昂且难以保证性能。

数据和知识利用不足：尽管现有的数据增强策略可以丰富下游训练集并在一定程度上降低模型过拟合的风险。然而，这种经验上手动设计的增强方法成本高昂，并不能保证所选的数据增强能够有效适应特定的下游任务。虽然通过引入外部知识可以生成新的文本描述，但不能保证描述类别属性的文本知识能够有效与图像数据协同工作。

为解决上述问题和挑战，我们总结和完善了与多模态基础模型交叉领域适应相关的现有理论，使少样本适应工作更为系统化，并引导少样本跨领域适应。

Maurer 等人在 2004 年关注了目标领域中均值误差和期望误差之间的关系：

ϵ_T (h_N) 表示目标域中的平均误差，

表示目标域中的期望误差，T 代表目标域数据集中的数据

表示可能存在于目标域的所有可能数据，h_0 表示原始模型，h_N 表示适应模型，N 表示从目标域数据集中使用的样本数量。Anthony Sicilia 等人在 [100] 中导出了从源域和目标域数据中计算领域差距的经验公式：

其中，~λ_S,T 表示在微调空间中在源域和目标域上模型误差总和的最小值，以表示上游和下游任务的适应性，E[d(S, T)] 表示作为两个不同领域之间的 H-散度的领域差距。

Crammer 等人在 [101] 中提出了误差三角不等式：

基于上述引理，Anthony Sicilia 等人提出了用于多类别分类器的 PAC-Bayesian 领域适应界理论：

然而，在该理论中，ϵ_S(h_N) 这一术语表示在源域数据上对微调模型的经验误差，它与对下游目标域的适应无关。相反，在目标域上的经验误差 ϵ_T(h_N) 影响适应，但未被捕捉。为了使理论更好地表示目标域数据对适应的影响，我们提出以下定理。

定理1：（证明见原论文）适应的微调模型在目标域中的期望误差

定义为在目标域中对微调模型的经验误差 ϵ_T(h_N)。上游和下游任务的适应性定义为 ~λ_S,T，其中 E[d(S, T)] 表示源域和目标域之间的差距，KL(h_N || h_0) 表示原始模型与微调模型之间的差异。这里，N 表示数据样本的数量。因此，对适应来说，微调模型在目标域中的期望误差界限

取决于其在目标域中的经验误差 ϵ_T(h_N)、源域和目标域之间的领域差异 E[d(S,T)]、模型容量 KL(h_N || h_0)、样本大小 N 以及上游和下游任务的适应性 ~λ_S,T：

上述定理中提到的上游和下游任务的适应性是由任务本身的性质确定的。一旦任务被固定，这个因素就保持不变。然而，通过调整领域差异、模型容量和样本大小，可以增强模型的泛化性能并减少经验误差。因此，源域和目标域之间的领域差异、模型容量和样本大小是影响多模态基础模型适应的三个基本因素。

受到少样本跨领域适应中的泛化误差界理论的启发，我们从自适应领域泛化、自适应模型选择和自适应知识利用这三个方面入手，如图 4 所示，研究多模态基础模型的少样本适应方法，并针对上述问题提出相应的解决方案：

1）自适应域泛化：为解决域适应中的建模成本高的问题，一个可能的方法是考虑针对多模态基础模型的无源领域适应方法。可以使用基于预训练自编码器的模型的重构误差作为领域分布差异的度量，并可以结合基于提示的微调适应方法的优势，获得更方便和高效的适应方法。此外，为了避免在领域对齐过程中的模态差异风险和跨模态语义相关性的丢失，可以在提示重构过程中引入多模态自编码器来约束数据的跨模态联合分布。这将有助于在领域适应过程中保持文本和视觉特征的语义一致性。

2）自适应模型选择：神经架构搜索（NAS）[102] 是解决多模态基础模型中自适应选择适配器结构问题的一种有前途的方法。它在搜索空间中自动探索不同的网络架构，以找到适用于给定任务的性能最佳的结构。然而，由于多模态基础模型结构的复杂性，基于NAS的方法需要同时搜索多种适配器类型，导致搜索空间大且计算成本高昂。在这种情况下，采用粗到细的搜索策略设计更高效的基于NAS 的搜索方法是必要的。

3）自适应知识利用：传统的图像增强技术可以生成大量的增强样本，但可能无法有效适应特定的下游任务。相反，连续可微分的图像增强范式可以通过导数和反向传播求解最优图像增强参数。因此，值得探索一种可微分的图像增强方法，实现下游任务的自适应图像增强。此外，引入外部知识可以为多模态基础模型提供更丰富的文本描述。然而，必须确保引入的知识与视觉语义高度相关。一种方法可以是利用大型语言模型生成可靠的视觉描述作为参考，然后通过对抗学习训练视觉滤波器，以确保经过滤波的文本描述包含有效的视觉语义。

由于现实世界中下游任务的多样性，它们在领域分布、任务属性、可用样本数量等方面存在差异。当前基础模型的适应方法无法有效地适应这些因素，导致模型性能有限。这种限制已经成为阻碍基础模型在各个行业进一步应用的瓶颈。因此，在下游少样本适应的背景下赋予多模态基础模型适应性至关重要。这可以通过自适应领域泛化、自适应模型选择和自适应知识利用来实现。这些适应性具有显著提高模型性能的潜力，并可能代表未来这个领域的重要研究方向。

S. 总结

S.1 主要贡献

本文介绍并分析了多模态模型少样本适应的三种主要技术：1）基于提示，2）基于适配器，和 3）基于外部知识。还推导了泛化误差界限，揭示了多模态基础模型的泛化误差受领域差异、模型容量和样本大小的约束。基于此，提出了三种可能的解决方案：1）自适应领域泛化，2）自适应模型选择和 3）自适应知识利用。

S.2 方法

基于提示的微调适应方法：

基于文本提示的微调适应：将文本输入的固定部分作为可学习向量，并使用下游任务数据微调其参数，使模型能够适应特定的下游任务。该方法的优势在于能够避免手动设计文本提示，通过只微调模型输入的特定部分，有效减轻过拟合的风险。
基于视觉提示的微调适应：仅微调文本提示无法改善视觉编码器提取特征的能力，提取的视觉特征可能与下游任务的目标特征不匹配。因此，受文本提示微调适应的启发，出现了一系列视觉提示微调适应方法。现有的视觉提示微调适应方法主要包括标记级微调适应和像素级微调适应。
基于多模态提示的微调适应：除了分别学习文本和视觉提示外，还可以同时学习多模态提示以更好地对齐文本和视觉特征。

基于适配器的微调适应方法：

基于单模态适配器的微调适应：在下游任务的训练中，冻结原始预训练语言模型的参数，仅更新作为适配器模块添加的少量参数。
基于多模态适配器的微调适应：将适配器方法扩展到多模态基础模型，以增强下游泛化能力。

基于外部知识的适应方法：

基于外部知识的预训练方法：近年来，以数据和知识为驱动的预训练方法逐渐出现，研究人员开始探索将更全面的外部知识，如知识图谱，整合到基础模型中。这种整合旨在使这些模型更加强大、可靠和可解释。
基于外部知识的下游适应方法：在具有有限数据样本的下游少样本适应场景中，需要增强外部知识以确保模型的性能。最常见的方法之一是通过查询大型语言模型为每个类别生成更丰富的文本描述。

其他方法：除了上述三类方法之外，还有一些从权重参数融合、模型重构和交叉注意力等角度进行多模态基础模型微调的方法。