CoOp: Learning to Prompt for Vision-Language Models

最新推荐文章于 2024-05-29 14:23:25 发布

ACuliflower

最新推荐文章于 2024-05-29 14:23:25 发布

阅读量2.2k

点赞数 4

分类专栏：深度学习文章标签：语言模型人工智能

本文链接：https://blog.csdn.net/qq_45821275/article/details/127700414

版权

深度学习专栏收录该内容

6 篇文章 2 订阅

订阅专栏

CoOp: Learning to Prompt for Vision-Language Models

在这里插入图片描述

论文地址：https://arxiv.org/pdf/2109.01134.pdf

CoOp的全称为Context Optimization，即上下文优化，其将CLIP中人工设置的Prompt，变为一个可学习的（learnable）prompt，并经过在11个下游任务上验证发现，CoOp+CLIP极大的提升了原CLIP的性能。

1.CoOp模型

有两种方法，分别为unified context和class-specific context，其中unified context指同一个数据集训练一个固定的context，而class-specific context是针对同一个数据集中的不同类别训练不同的context。并且作者把预测标签class放的位置有中间位置和末尾位置两种。

对于Unified Context，输入text encoder的prompt可表示为：
$t=[V]_{1}[V]_{2}...[V]_{M}[CLASS]\quad 或\quad t=[V]_{1}...[V]_{\frac{M}{2}}[CLASS][V]_{\frac{M+1}{2}}...[V]_{M}$
对于一个数据集，需要训练得到M个context token。其中[CLASS]在预测时更换成各个类的名称。在执行预测时，对类别i的预测概率为：
$p(y=i|x)=\frac{exp(<g(t_{i}),f>)/\tau )}{\sum_{j=1}^{K}exp(<g(t_{j}),f>)/\tau )}$
其中f为image feature，t_i表示把[CLASS]换成第i类的名称。最终得到的结果就是计算当前image feature属于第i类的概率。

对于Class-Specific Context（CSC），输入的text encoder的prompt可表示为：
$t=[V]_{1}^i[V]_{2}^i...[V]_{M}^i[CLASS] \neq t=[V]_{1}^j[V]_{2}^j...[V]_{M}^j[CLASS]\\ 或t=[V]_{1}^i...[V]_{\frac{M}{2}}^i[CLASS][V]_{\frac{M+1}{2}^i}...[V]_{M}^i\neq t=[V]_{1}^j...[V]_{\frac{M}{2}}^j[CLASS][V]_{\frac{M+1}{2}}^j...[V]_{M}^j\\i\neq j \ and\ i,j\ \epsilon {1,2...K}$
在训练时就是使交叉熵损失函数最小。

2.实验部分

在这里插入图片描述

CLIP+CoOp模型在11个数据集上的平均分数，M=16代表训练的context token的长度为16，mid和end分别代表把CLASS放在中间位置和末尾位置，CSC代表使用的是Class-Specific Context方法。从图中可看出，CLIP+CoOp均比微调的CLIP效果好，并且使用unified context在one-shot时的性能就与Zero-shot CLIP的性能相匹配。

并且我们可在图中看出unified context要比CSC的效果好很多，作者推测，由于是few-shot，可以学到的东西有限，所以性能提升不明显。并且class token放在句子中间还是放在句子末尾位置对性能的影响不大。