目录
一、论文信息
论文标题:Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification
论文刊物:ECCV, 2022
论文地址:https://arxiv.org/pdf/2207.09519.pdf
论文代码:https://github.com/gaopengcuhk/Tip-Adapter
二、Introduction
1、动机
现有基于CLIP的小样本图像分类方法需要引入额外的训练参数。
2、本文工作
(1) Tip-Adapter。利用key-value cache model,不需要训练,取得了与之前方法相当的性能。
(2) Tip-Adapter-F。更新key-value cache model中的key,需要少量训练,取得了SOTA的结果。
三、相关工作
1、CLIP
CLIP的模型结构包括两个部分,即文本编码器和图像编码器。文本数据和图像数据 两者分别通过各自编码器编码后,使用对比学习的思想,将匹配的文本-图像对的Embedding之间的距离拉近,将不匹配的Embedding之间的距离拉远。通过在大量数据集上的预训练,CLIP获得了较强的零样本推理能力。
2、CLIP + FSC
- CoOP:在CLIP文本提示处做改动,增强其零样本推理能力。
- CLIP-Adapter:对通过CLIP编码后的文本特征和图像特征进行微调,来更好地适用于下游任务。
四、Methods
1、Tip-Adapter
(1) key-value cache model
-
Key:
-
Value:
-
Query:
其中,VisualEncoder 表示 CLIP 中的图像编码器,N 表示类别数,K 表示 shot 数。
(2) query和key之间的相似度计算
(3) 模型预测得分
2、Tip-Adapter-F
在 Tip-Adapter 基础上,可训练。
五、实验结果
1、在ImageNet上的对比实验
2、在其他数据集上的对比实验
注:随着训练样本数量的增加,不用训练的方法(如Tip-Adapter)与需要训练的方法(如Tip-Adapter-F)之间的差距越来越大。
3、选用不同的CLIP视觉编码器对实验结果的影响
注:为什么这会成为一个单独的实验?视觉编码器对结果影响很大?能否有更好的视觉编码器?
4、消融实验
注:alpha=1 取得了最佳实验结果,说明在ImageNet数据集上,CLIP的zero-shot能力也很重要。
六、未来工作
Our future work will focus on exploring new training-free methods for CLIP to fully unleash its power for visual representation.