IJCV 2025 | 基于对比特征重构的渐进式视觉提示学习

最新推荐文章于 2025-05-02 23:06:11 发布

小白学视觉

最新推荐文章于 2025-05-02 23:06:11 发布

阅读量35

点赞数

文章标签：重构学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247630286&idx=3&sn=971d3d967534311c45242f1257112e79&chksm=fa13ca0d4b79ed39b6bd69342d042e2d7ffe1ccffbbc3116e7628fd96edbe8f989ba90f1a588&scene=126&sessionid=0

版权

好消息！加入知识星球，详细阅读本文PDF完整版

论文信息

题目：Progressive Visual Prompt Learning with Contrastive Feature Re-formation

基于对比特征重构的渐进式视觉提示学习

作者：Chen Xu, Yuhan Zhu, Haocheng Shen, Boheng Chen, Yixuan Liao, Xiaoxin Chen, Limin Wang

论文创新点

提出ProVP结构：作者提出了渐进式视觉提示（ProVP）结构，该结构建立了相邻层提示之间的连接，每层提示嵌入是新插入提示和前一层提示嵌入输出的组合。
引入对比特征重构技术：为解决提示学习中泛化能力下降的问题，作者提出对比特征重构方法。通过该方法对提示后的视觉特征进行约束，使其与CLIP视觉特征分布不出现显著偏差，在特征空间保留预训练知识，让模型能从预训练特征分布中学习更具泛化性的表示，提高模型在不同任务中的适应性和泛化能力。
探索多模态提示学习：针对ProVP - Ref在部分数据集上受CLIP文本特征可区分性限制的问题，作者提出了扩展的多模态版本ProVP∗ - Ref 。用学习到的文本嵌入替换手工提示，显著提升了在ImageNet和SUN397数据集上的性能。

摘要

提示学习作为一种有吸引力的替代传统微调范式的方法，可使预训练的视觉语言（V-L）模型适应下游任务。受自然语言处理中提示学习成功的启发，早期研究主要集中在基于文本的提示策略上。相比之下，V-L模型中的视觉提示尚未得到充分利用。将现有的为视觉变换器（ViT）设计的视觉提示方法直接应用到V-L模型中，往往会导致性能不佳或训练不稳定。为了应对这些挑战，本文提出了一种名为渐进式视觉提示（ProVP）的新结构。该设计旨在加强相邻层提示之间的交互，从而以一种类似实例特定的方式，更有效地将图像嵌入传播到更深的层。此外，为了解决可学习提示在训练期间泛化能力下降的常见问题，作者进一步引入了一种用于视觉提示学习的对比特征重构技术。该方法可防止提示后的视觉特征与固定的CLIP视觉特征分布出现显著偏差，确保其具有更好的泛化能力。结合ProVP和对比特征重构技术，作者提出的方法ProVP-Ref显著稳定了训练过程，并增强了V-L模型中视觉提示学习的适应性和泛化能力。为了证明该方法的有效性，作者在11个图像数据集上对ProVP-Ref进行了评估，在少样本学习和基类到新类泛化设置下，在其中7个数据集上取得了最先进的结果。据作者所知，这是第一项展示视觉提示在V-L模型中比该领域以前的文本提示方法性能更优的研究。

3. 方法

3.1 回顾CLIP

CLIP（Radford等人，2021）由解耦的文本和图像编码器对组成。图像编码器旨在将图像编码为低维特征表示，可以是类似CNN的模型，如ResNet-50（He等人，2016），也可以是ViT（Dosovitskiy等人，2021）。文本编码器采用（Vaswani等人，2017）中设计的Transformer编码器架构，将原始输入文本转换为隐藏的文本表示。CLIP在大规模图像文本数据集上使用语言 - 图像对比学习策略进行训练。具体来说，给定一个小批量的文本图像对，模型最大化配对文本和图像特征的相似度，同时最小化未配对的特征相似度。在4亿个图像文本对的大规模高质量训练集的支持下，CLIP获得了强大的泛化能力，能够处理具有挑战性的开放词汇问题，如零样本图像识别。在预测图像标签时，CLIP通过将手工制作的模板（例如，“a photo of a [cls]”）输入文本编码器，为类别标签生成文本表示。这些句子用于获取每个类别的特定嵌入，然后用于计算分类分数，即与图像特征表示的余弦相似度。记为包含下游任务个类别的标签集，为相应的文本模板，令和分别为CLIP的文本和图像编码器，则CLIP的识别分数计算如下：

其中是CLIP学习的温度参数，表示余弦相似度。

3.1 视觉提示调整

视觉提示调整（Jia等人，2022）将可学习的标记嵌入（视觉提示）插入到ViT（Dosovitskiy等人，2021）的输入潜在空间中，并在冻结模型骨干的同时对其进行调整。VPT提出了两种类型的视觉提示：VPT - 浅层和VPT - 深层，后者在迁移学习任务中表现更好。形式上，用表示一组个可学习的维提示，用表示第层的原始输入嵌入，VPT - 深层在具有层的ViT（Dosovitskiy等人，2021）中显示提示插入为：

尽管VPT在ViT（Dosovitskiy等人，2021）等视觉骨干网络中被证明是有效的，但作者发现在V-L模型中训练VPT - 深层更具挑战性：每层提示的独立学习可能会混淆优化方向，增加训练难度，并使模型对超参数敏感。此外，VPT中每层随机初始化的提示可能会对模型输出造成显著扰动，增加灾难性遗忘和过拟合的风险。

3.2 渐进式视觉提示学习

观察VPT-Deep中的公式(2)，我们发现训练不稳定的一个潜在原因：提示策略不一致。在VPT-Deep中，每个提示仅对其所在层的传播有贡献，在第层之后，插入提示的输出会被丢弃。新插入的提示与输出没有关联且随机初始化，这给提示后的特征带来了显著干扰。相反，这些被丢弃的提示输出可能包含关于输入实例和预训练知识的丰富信息，对后续计算有益。然而，直接将这些输出与新插入的提示一起用于下一层，会使更深层可学习提示的长度不断增加，当长度过大时，会严重干扰学习到的特征表示，导致特征空间中相邻层的不对齐。在实践中，我们观察到这种简单的结构难以收敛，进一步损害了泛化能力。

为了更有效地利用这些被丢弃的提示，我们提出了一种新的提示学习结构——渐进式视觉提示（ProVP），它利用渐进连接将新插入的提示嵌入和前一个输出结合起来。形式上，在ProVP中，视觉编码器的提示策略重新表述为：对于第一层，有；对于后续层，有，，其中是渐进衰减系数。在不持续增加提示长度的情况下，我们的方法通过在的控制下，结合提示输出和新提示，保留前层学习到的信息。此外，在文献(Jia等人, 2022)中验证了提示的位置是等效的（例如，与效果相同），我们遵循文献(Jia等人, 2022)中的设置，在图像嵌入和‘[CLS]’标记之间插入视觉提示。

与公式(2)中描述的VPT-Deep学习策略相比，ProVP以实例特定的方式起作用：前一个块的提示输出与图像嵌入深度相关，并随输入而变化，而新插入的提示仍然与输入无关。因此，下一层的提示输入也会因不同图像而变化。与CoCoOp类似，我们发现这种架构优先考虑实例级信息，而不是专注于某类的子集，这有助于防止过拟合，并提高对域转移的鲁棒性。得益于上述优点，与VPT变体相比，ProVP在适应和泛化任务中都具有更好的能力。此外，ProVP中使用的渐进连接加强了模型中相邻层提示之间的交互，减少了性能振荡和对超参数的敏感性，从而使训练更加稳定（更多讨论见进一步研究部分）。

在ProVP调整过程中，设为带提示的图像编码器，为文本编码器。我们通过最小化负对数似然来优化模型：

其中表示one-hot真实标注，是CLIP学习的温度参数。

3.3 对比特征重构

当通过提示学习使预训练模型适应下游任务时，泛化能力下降的风险是一个普遍关注的问题，例如CoOp等模型在训练后对未见类别的测试性能与零样本CLIP相比显著下降。正如文献(Zhu等人, 2022)所指出的，一个可能的原因是提示学习不当。在学习过程中仅依赖交叉熵损失（公式(5)）可能会导致模型忘记预训练的通用知识，而过度关注特定的下游数据，从而损害了从预训练模型继承的泛化能力。

受文献(Zhu等人, 2022)的见解和知识蒸馏方法（Hinton等人, 2015; Phuong和Lampert, 2019）的启发，我们通过利用零样本CLIP的预训练信息来解决这个遗忘问题，并专门为视觉提示学习设计了一种新的训练策略——对比特征重构。与文献(Zhu等人, 2022)中保留零样本CLIP预测不同，我们在预训练图像特征分布的指导下，在特征空间中保持模型的泛化能力。由于视觉模态中随机初始化的提示会导致预训练特征发生显著偏移，训练后提示特征的多样性可能会降低，对文本编码器的可区分性也会降低。我们意识到克服这个问题可以更有效地缓解泛化能力下降，因此引入了一种新的训练策略——对比特征重构，将偏移的特征重新调整为与预训练CLIP相似的分布。

设、分别为预训练和带提示的图像编码器，表示一个包含张图像的小批量。对比特征重构约束同一图像的提示特征和预训练特征相近，不同图像的特征远离。因此，重构损失定义为：

结合公式(5)中的传统交叉熵损失，总训练损失可以表示为：

其中是一个超参数，用于在训练期间调整的权重。

通过使用使带提示的精炼特征与预训练分布对齐，经过调整的图像编码器编码的图像嵌入对文本编码器来说变得更易于识别。因此，我们的方法可以产生更接近零样本CLIP的预测结果，并且在预训练预测与下游真实情况发生冲突时，放宽对预测logits的严格约束，使对比特征重构能够更灵活地运行。受益于这种策略，我们的模型ProVP-Ref可以从预训练特征分布中学习到更具泛化性的表示。此外，我们的模型受预训练知识冲突的影响较小，在存在较大域转移的下游任务中仍然具有适应性。