《Prototypical Contrastive Learning-based CLIP Fine-tuning for Object Re-identification》

本文探讨了CLIP在行人重识别中的应用,提出了使用原型对比学习(PCL)损失直接微调CLIP图像编码器的方法,替代prompt learning。研究显示,这种方法在有监督和无监督的重识别任务中提高了CLIP的表现。PCL损失通过使实例靠近其类质心并远离其他质心,促进了区分不同类别的学习。文章还介绍了包含记忆库的模型框架,用于存储每个ID的视觉特征质心。
摘要由CSDN通过智能技术生成

简介这也是关于CLIP的一篇用于目标重识别的文章,是以前面写过的一篇CLIP-ReID文章为基础进行的工作,主要是替换掉了text encoder,用一个Memory机制来代替了,只有一阶段。包含了行人重识别,也是基于图像的,个人认为作为拓展还是可以学学
预备知识:CLIP-ReID、prompt learning、prototypical contrastive learning(PCL)

CVPR 2023
论文作者:Jiachen Li,Xiaojin Gong
作者单位:College of Information Science and Electronic Engineering, Zhejiang University
paper:https://arxiv.org/abs/2310.17218v1
code:https://github.com/RikoLi/PCL-CLIP

ps:这边建议先熟悉一下这个博客:《CLIP-ReID Exploiting Vision-Language Model for Image Re-identification without Concrete Text Label》之后再来看这篇文章。咳咳,进入正题

一、Motivation

  • CLIP模型展现的优越性能,能够学习多种视觉和语言语义概念,并获得显著的迁移能力; 提示学习因其优越的性能和较低的计算成本而受到广泛的关注。
  • 在人员/车辆再识别中,类名不存在,因为类标签是ID的索引,缺乏语义信息。
  • CLIP-ReID中的提示学习本质上是为每个ID学习一个文本特征质心(如下图a);并且CLIP-ReID中引入的图像到文本的交叉熵损失作为一种基于质心的损失,将相同ID的图像吸引到各自的文本质心上。
  • 建议利用原型对比学习(PCL)损失直接微调CLIP的图像编码器,而无需prompt学习。
    请添加图片描述
  • 尽管CLIP的训练鼓励文本特征和视觉特征在联合嵌入空
  • 17
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

反卷三明治

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值