《Learning to Prompt for Vision-Language Models》CoOp论文解读

最新推荐文章于 2024-10-13 18:14:54 发布

醒了就刷牙

最新推荐文章于 2024-10-13 18:14:54 发布

阅读量1.6k

点赞数 61

分类专栏：论文文章标签： prompt 语言模型人工智能

本文链接：https://blog.csdn.net/buyaotutou/article/details/142173251

版权

论文专栏收录该内容

74 篇文章 1 订阅

订阅专栏

系列文章目录

文章目录

论文细节理解

“具体地，对于任何新的分类任务，可以首先通过将描述任务相关类别的句子给予文本编码器来合成分类权重，然后与由图像编码器产生的图像特征进行比较。”具体解释一下。
（1）文本编码器的使用：对于一个新的分类任务，首先需要定义与该任务相关的类别。这通常通过编写描述每个类别的句子来完成。例如，如果任务是识别动物类别，可以使用“这是一只狗”、“这是一只猫”等句子。
（2）合成分类权重：将这些描述性句子输入到文本编码器中，模型会将这些文本转换为向量表示。这些向量实际上就是每个类别的“特征”，可以被视为分类权重。
（3）图像编码器的使用：然后，图像编码器会处理输入的图像，将其转换为特征向量。
（4）比较特征：最后，将从图像编码器获得的图像特征向量与文本编码器生成的类别特征向量进行比较。这个比较通常使用余弦相似度等方法来评估图像与各个类别的匹配程度。
（5）分类决策：通过比较结果，模型可以确定图像最可能属于哪个类别，从而完成分类任务。
这种方法的优点在于，它不需要为每个新任务重新训练模型，而是利用预训练模型的能力，通过简单的文本描述来适应新的分类任务。
对于文本特征提取，早期的工作主要利用预先训练的词向量（Socher等人，2013年;弗罗姆等人，2013）或手工制作的TF-IDF特征（Elhoseiny等人，2013年; Lei Ba等人，2015年）的报告。其中TF-IDF特征具体什么意思。

1、研究背景

最近在视觉-语言模型（如CLIP）方面的进展显示出跨不同下游任务的迁移学习能力。与传统的基于离散标签的视觉表示学习不同，视觉-语言预训练将图像和文本对齐在一个共同的特征空间中，从而使模型能够在几乎不需微调的情况下泛化到新任务。然而，提示工程是一个挑战，找到适合任务类别的自然语言描述非常耗时，并且需要领域专家的参与。受到自然语言处理领域的启发，本文提出了一种新的方法——上下文优化（CoOp），以简化预训练的视觉-语言模型的适配过程。

2、论文贡献

本文通过引入CoOp解决了提示工程的问题，CoOp通过学习提示上下文的连续向量，减少了手动操作的工作量。
研究表明，即使在仅有一两张训练样本的情况下，CoOp也能显著优于手工设计的提示。
本研究在11个数据集上进行了CoOp的基准测试，展现了它在不同图像识别任务中的强大性能以及跨域的泛化能力。

3、方法框架

核心方法是上下文优化（CoOp）。CoOp通过可学习的向量来建模提示中的上下文字，而保持预训练视觉-语言模型的参数不变。CoOp有两种实现方式：
（1）统一上下文：为所有类别共享相同的上下文，适用于大多数常规任务。
（2）类别特定上下文：为每个类别学习特定的上下文向量，适用于细粒度的分类任务。
通过梯度反向传播，CoOp能够为每个任务学习到最佳的上下文，而无需修改预训练的大模型参数。

4、研究思路

研究主要围绕将CoOp与传统的手工设计提示方法进行比较，并在11个数据集上评估其性能。研究探讨了CoOp在处理各种任务（如对象识别、场景分类和纹理识别）中的能力。通过与线性探针模型和零样本CLIP方法的对比，验证了CoOp在少样本学习和领域泛化中的有效性。

5、实验

实验分为以下几个部分：
少样本学习：在ImageNet、Caltech101、EuroSAT等数据集上进行基准测试，分别使用1、2、4、8和16张样本进行训练。结果显示，CoOp在使用更少样本时比手工设计的提示取得更好效果。
领域泛化：在分布外的数据集（如ImageNetV2和ImageNet-Sketch）上测试CoOp。结果表明，CoOp在应对分布变化时的表现优于零样本CLIP和线性探针模型，具有更强的鲁棒性。