论文阅读笔记:小样本图像分类,Tip-Adapter

目录

一、论文信息

二、Introduction

1、动机

2、本文工作

三、相关工作

1、CLIP

2、CLIP + FSC

四、Methods

1、Tip-Adapter

2、Tip-Adapter-F

五、实验结果

1、在ImageNet上的对比实验

2、在其他数据集上的对比实验

3、选用不同的CLIP视觉编码器对实验结果的影响

4、消融实验

六、未来工作


一、论文信息

论文标题:Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification

论文刊物:ECCV, 2022

论文地址:https://arxiv.org/pdf/2207.09519.pdf

论文代码:https://github.com/gaopengcuhk/Tip-Adapter

二、Introduction

1、动机

现有基于CLIP的小样本图像分类方法需要引入额外的训练参数。

2、本文工作

(1) Tip-Adapter。利用key-value cache model,不需要训练,取得了与之前方法相当的性能。

(2) Tip-Adapter-F。更新key-value cache model中的key,需要少量训练,取得了SOTA的结果。

三、相关工作

1、CLIP

CLIP的模型结构包括两个部分,即文本编码器和图像编码器。文本数据和图像数据 两者分别通过各自编码器编码后,使用对比学习的思想,将匹配的文本-图像对的Embedding之间的距离拉近,将不匹配的Embedding之间的距离拉远。通过在大量数据集上的预训练,CLIP获得了较强的零样本推理能力。

2、CLIP + FSC

- CoOP:在CLIP文本提示处做改动,增强其零样本推理能力。

- CLIP-Adapter:对通过CLIP编码后的文本特征和图像特征进行微调,来更好地适用于下游任务。

四、Methods

1、Tip-Adapter

(1) key-value cache model

  • Key:F_{train} = VisualEncoder(I_{K}) \in \mathbb{R}^{NK \times C}

  • Value:L_{train} = OneHot(L_{N}) \in \mathbb{R}^{NK \times N}

  • Query:f_{test} \in \mathbb{R}^{1 \times C}

其中,VisualEncoder 表示 CLIP 中的图像编码器,N 表示类别数,K 表示 shot 数。

(2) query和key之间的相似度计算

A = exp(-\beta(1-f_{test}F^{T}_{train})) \in \mathbb{R}^{1 \times NK}

(3) 模型预测得分

logits = \alpha A L_{train} + f_{test}W_c^T

2、Tip-Adapter-F

在 Tip-Adapter 基础上,F_{train}可训练。

五、实验结果

1、在ImageNet上的对比实验

2、在其他数据集上的对比实验

注:随着训练样本数量的增加,不用训练的方法(如Tip-Adapter)与需要训练的方法(如Tip-Adapter-F)之间的差距越来越大。

3、选用不同的CLIP视觉编码器对实验结果的影响

注:为什么这会成为一个单独的实验?视觉编码器对结果影响很大?能否有更好的视觉编码器?

4、消融实验

注:alpha=1 取得了最佳实验结果,说明在ImageNet数据集上,CLIP的zero-shot能力也很重要。

六、未来工作

Our future work will focus on exploring new training-free methods for CLIP to fully unleash its power for visual representation.

  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值