目录
一、论文信息
论文标题:Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification
论文刊物:ECCV, 2022
论文地址:https://arxiv.org/pdf/2207.09519.pdf
论文代码:https://github.com/gaopengcuhk/Tip-Adapter
二、Introduction
1、动机
现有基于CLIP的小样本图像分类方法需要引入额外的训练参数。
2、本文工作
(1) Tip-Adapter。利用key-value cache model,不需要训练,取得了与之前方法相当的性能。
(2) Tip-Adapter-F。更新key-value cache model中的key,需要少量训练,取得了SOTA的结果。
三、相关工作
1、CLIP
CLIP的模型结构包括两个部分,即文本编码器和图像编码器。文本数据和图像数据 两者分别通过各自编码器编码后,使用对比学习的思想,将匹配的文本-图像对的Embedding之间的距离拉近,将不匹配的Embedding之间的距离拉远。通过在大量数据集上的预训练,CLIP获得了较强的零样本推理能力。