[ECCV 2022] VL-LTR: Learning Class-wise Visual-Linguistic Representation for LTR

Introduction

  • 作者将大规模预训练多模态模型 (i.e., CLIP) 用在了长尾分类任务上,提出了 VL-LTR. 作者指出,文本通常可以描述类别的一些高层级的语义信息,当类别缺少足够样本时,文本可以作为类别的先验知识,让模型学得泛化性更好的类别特征。通过在长尾数据集上继续微调模型 (CVLP) 以及使用新的多模态分类头 (LGF Head),VL-LTR 在 3 个长尾数据集上的性能都达到了 SOTA
    在这里插入图片描述

Methodology

在这里插入图片描述

Class-wise Visual-Linguistic Pre-training (CVLP)

  • 不同于 CLIP 使用 instance-wise image-text pairs 进行对比学习,CVLP 主要目标是预训练图像和文本 encoder,从而在 class level 上对齐图像和文本表征只要是描述同一类别的图像和文本都可以组成正样本对 (不过 CVLP 的初始化参数仍然来自于 CLIP)
  • Class-wise Contrastive Learning (CCL) loss. 随机采样一个 batch 的 images I = { I i } i = 1 N \mathcal I=\{I_i\}_{i=1}^N I={Ii}i=1N 和 text sentences T = { T i } i = 1 N \mathcal T=\{T_i\}_{i=1}^N T={Ti}i=1N,分别送入 visual encoder E vis \mathcal E_{\text{vis}} Evis 和 linguistic encoder E lin \mathcal E_{\text{lin}} Elin 得到图像和文本 embed
    在这里插入图片描述CCL loss 为
    在这里插入图片描述其中, S i , j S_{i,j} Si,j E i I E_i^I EiI E j T E_j^T EjT 之间的余弦相似度, L vis \mathcal L_{\text{vis}} Lvis L lin \mathcal L_{\text{lin}} Llin 为图像和文本分别作为 anchor 时的对比损失, T i + \mathcal T_i^+ Ti+ 为 image I i I_i Ii 的文本正样本集合 (i.e., 描述同一类别的文本), I i + \mathcal I_i^+ Ii+ 为 text T i T_i Ti 的图像正样本集合 (i.e., 描述同一类别的图像), τ \tau τ 为可学习的温度参数,初始化为 0.07
  • distillation loss. 为了避免文本语料库不足导致的过拟合,作者还从 CLIP 进行了蒸馏 (看实验结果的话,zero-shot CLIP 的 few-shot 性能好于 VL-LTR,这说明在训练的时候模型还是对尾部类别过拟合了,而蒸馏可以在一定程度上缓解过拟合)
    在这里插入图片描述其中, S ′ S' S 为 CLIP 计算的余弦相似度 (CLIP 参数冻结,不进行训练)
  • 总的损失函数
    在这里插入图片描述其中, λ ∈ [ 0 , 1 ] \lambda\in[0,1] λ[0,1]

Language-Guided Recognition

  • 预训练结束后 text encoder 的参数就冻结了,下面只微调 image encoder 和 LGR Head
  • Anchor Sentence Selection (AnSS). 语料库中的大多数文本描述都是从网络爬取的 (mainly come fromWikipedia),可能有比较多的噪声,因此有必要为每个类别找到 the most discriminative sentences 用于后续的分类. 具体来说,作者先采样一个 image batch I ′ I' I,其中每个类别包含最多 50 张图像,然后对每个文本 T i T_i Ti,计算该文本和 I ′ I' I 之间的 L lin \mathcal L_{\text{lin}} Llin,选择 L lin \mathcal L_{\text{lin}} Llin 最小的 M M M 个文本作为该类别后续分类使用的 anchor sentences
  • Language-Guided Recognition (LGR) Head.
    在这里插入图片描述其中, E I ∈ R D E^I\in\R^D EIRD 为 image embedding, E T ∈ R C × M × D E^T\in\R^{C\times M\times D} ETRC×M×D C C C 个类别的 anchor sentences, Q ∈ R D Q\in\R^D QRD K , V ∈ R C × M × D K,V\in\R^{C\times M\times D} K,VRC×M×D G ∈ R C × D G\in\R^{C\times D} GRC×D 为 gather of the M M M anchor sentence embeddings of each class,整个注意力机制就是用 image embed 作为 query 对每个类别的 M M M 个 anchor sentence embeddings 做了一个加权平均得到 C C C 个 class embed, σ \sigma σ 为 softmax,MLP 为 FC + ReLU + FC, P I , P T P^I,P^T PI,PT 分别为预测的两个分类概率. 损失函数
    在这里插入图片描述在这里插入图片描述

Experiments

  • ImageNet-LT
    在这里插入图片描述在这里插入图片描述

baseline is only based on visual modality while keeping other settings exactly the same as our proposed method

  • Places-LT
    在这里插入图片描述
  • iNaturalist 2018
    在这里插入图片描述
  • Ablation Study.
    在这里插入图片描述在这里插入图片描述

References

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值