CoOp（论文解读）:Learning to Prompt for Vision-Language Models

最新推荐文章于 2024-09-12 16:38:14 发布

日出_1127

最新推荐文章于 2024-09-12 16:38:14 发布

阅读量1.8k

点赞数 34

分类专栏：视觉小白论文解读文章标签： prompt 语言模型人工智能计算机视觉深度学习论文阅读

本文链接：https://blog.csdn.net/m0_54248968/article/details/141224898

版权

视觉小白论文解读专栏收录该内容

21 篇文章

订阅专栏

Comment: International Journal of Computer Vision (IJCV), 2022. Update: Adds results on the DOSCO (DOmain Shift in COntext) benchmark

CoOp

摘要

像CLIP这样大规模预训练的视觉语言模型在学习表征方面表现出巨大的潜力，并且这些表征可以迁移到广泛的下游任务中。与那些传统的基于离散标签的的表征学习不同，视觉语言预训练模型将图像和文本特征在一个共同的特征空间中对齐，这就允许了可以通过提示的方式将zero-shot迁移到下游任务中，即分类权重从类别的描述性语言中合成。

在这项工作中，本文发现部署这类模型最主要的挑战就是Prompt Engineering，其需要耗费大量的时间对单词进行调整，因为提示中极小的变化就会导致性能巨大的影响。

受到NLP领域中提示学习发展的启发，本文提出CoOp(Context Optimization)，专门适用于类似于CLIP的视觉语言模型进行下游任务图像识别。具体来说，CoOp使用可学习的向量对提示的上下文进行建模，同时保持整个预训练过程中参数保持稳定。为来处理不同的图像识别任务，提供了两种CoOp实现：统一上下文和类特定上下文。

通过对11个数据集的广泛实验，本文证明了CoOp仅需要1到2个shot就可以以较大的幅度击败手工设计的提示，并且能够通过更多的shots获得更大的改进，类如使用16shots，平均增益达到15%。尽管CoOp是一种基于学习的方法，但与使用手工制作的提示的zero-shot相比，CoOp实现了较好的领域泛化能力。

Introduction

构建最先进的视觉识别模型的一种最常用的方法就是训练视觉模型使用离散的标签预测一组固定的对象类别。从技术角度来看，这是通过将图像特征（由ResNet 或者ViT等视觉模型生成）与一组固定的权重（这些权重被看作视觉概念并随机初始化）进行匹配起来实现的。尽管训练类别通常有一个文本形式，例如金鱼、卫生纸，但是他们将被转换为离散标签，这是为了简化交叉熵损失的计算，而封装在文本中的语义在很大程度上未被开发。这种学习范式将视觉识别系统限制在封闭的视觉概念中，使他们无法处理新的类别，因为学习新的分类器需要额外的数据。

最近，CLIP、ALIGN等视觉语言预训练模型已经成为视觉表征学习中有前途的方案。其中主要思想就是使用两个独立的编码器对齐图像和原始文本，其中每个编码器对应一个模态。例如CLIP和ALIGN都将对比损失作为学习目标，它们将特征空间中的图像与对应文本之间的尽可能拉近，将不匹配的相似度尽可能的远。通过大规模的预训练，模型可以学习各种视觉概念，并且可以通过提示轻松地迁移到下游任务中。具体来说就是对于任何一个新的分类任务，可以先向文本编码器中提供任务相关类别的描述生成分类权重，然后与图像编码器生成的图像特征进行比较。

我们观察到，在预训练的视觉语言模型中，文本输入（作为提示）在下游数据集中起着关键作用。如论如何，确认正确的提示是一项艰巨的任务，调整单词通常需要占据大量的时间，因为措施的微小变化可能会对性能造成巨大的改变。

解释图1（a）:对于 Caltech101(第 2 个与第 3 个提示），在类标记前添加“a”可使准确度提高 5% 以上。此外，提示工程还需要有关任务的先验知识，理想情况下还需要了解语言模型的底层机制。(b-d）所示，添加与任务相关的上下文可以带来显著的改进，即Flowers102的“花”，DTD的“纹理”和EuroSAT的“卫星”。调整句子结构可以带来进一步的改进，例如，在Flowers102的类标记之后加上“一种花”，在DTD的上下文中只保留“texture”，在EuroSAT的“satellite photo”之前添加“centered”。但是，即使进行了广泛的调整，也不能保证生成的提示对于这些下游任务是最佳的。

受到NLP领域中最近的提示学习研究的启发，本文提出了一种CoOp自动化提示工程，特别是对于预训练的视觉语言模型。具体来说，CoOp 使用可学习向量对提示的上下文单词进行建模，这些向量可以使用随机值或预训练单词嵌入进行初始化。

本文针对不同任务提供了两种的实现方式：第一种是基于统一上下文，它为所有的类别共享相同的上下文，并在大多数类别上表现良好；另一种是基于类特定上下文，它为每个类别学习一组特定的上下文token，这种方式更适合一些细粒度的类别。

在训练过程中，我们使可学习的上下文向量的交叉熵损失最小化，同时保持整个预训练参数的稳定。梯度可以一直通过文本编码器进行反向传播，从而提炼出参数中编码的丰富知识，用于学习与任务相关的上下文。

为了证明 CoOp 的有效性，我们对 11 个数据集进行了基准测试，这些数据集涵盖了各种视觉识别任务，包括对通用对象、场景、动作和细粒度类别的分类，以及识别纹理和卫星图像等专业任务。结果表明，CoOp 有效地将预训练的视觉语言模型转化为数据高效的视觉学习器，只需一两个样本学习的情况下就可以击败手工制作的提示。使用更多的样本学习可以进一步提高性能，例如，使用 16 个样本时，与手工制作的提示的差距平均约为 15%，最高时达到 45% 以上。CoOp 的性能也优于线性探针模型，线性探针模型被称为强大的少样本学习基线。此外，尽管 CoOp 是一种基于学习的方法，但它比零样本模型（使用手动提示）对领域转移的鲁棒性要强得多。

本文贡献：

（1）本文研究了最近提出的视觉语言模型在下游应用中的适应性问题，并确定了与部署效率相关的一个关键问题，即提示工程。

（2）为了针对预训练的视觉语言模型自动执行提示工程，本文提出了一种基于连续的提示学习的方法，并提供了两种可以处理不同识别任务的实现方式。

（3）本文首次表明，所提出的基于提示学习的方法在下游迁移学习性能和大型视觉语言模型的域偏移下的鲁棒性方面都优于手工制作的提示和线性探针模型。

Methodology

3.1 Vision-Language Pre-training

Models

CLIP 由两个编码器组成，图像编码器和文本编码器。图像编码器将高维图像映射到低维嵌入空间中。图像编码器的架构可以采用 CNN 的形式，如 ResNet-50 或 ViT 。另一方面，文本编码器建立在 Transformer 之上，旨在从自然语言生成文本表示。

具体来说，给定一系列单词（token），例如“A photo of dog ”，CLIP首先将每个标记（包括标点符号）转换为小写的字节对编码（BPE）表示，该字母本质上是唯一的数字ID。CLIP 中的词汇量为 49,152。为了便于小批量处理，每个文本序列都包含[SOS]和[EOS]token并限制77的固定长度。之后，ID 被映射到 512-D 字嵌入向量，然后这些向量被传递给 Transformer。最后，将 [EOS] 令牌位置的特征进行层归一化，并通过线性投影层进一步处理。

Training

CLIP 经过训练，可以分别对齐为图像和文本学习的两个嵌入空间。具体来说，学习目标被表述为对比损失。给定一组图像-文本对，CLIP 最大化匹配对的余弦相似度，同时最小化所有其他不匹配对的余弦相似度。为了学习更易于转移到下游任务的各种视觉概念，CLIP 收集了一个由 4 亿个图像文本对组成的大型训练数据集。