《Prototypical Contrastive Learning-based CLIP Fine-tuning for Object Re-identification》

反卷三明治

已于 2024-03-11 09:08:06 修改

阅读量985

点赞数 17

分类专栏：视频行人重识别文章标签：人工智能行人重识别计算机视觉 CLIP 原型对比损失 cv 论文阅读

于 2024-03-10 18:12:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jacompol/article/details/136603928

版权

本文探讨了CLIP在行人重识别中的应用，提出了使用原型对比学习（PCL）损失直接微调CLIP图像编码器的方法，替代prompt learning。研究显示，这种方法在有监督和无监督的重识别任务中提高了CLIP的表现。PCL损失通过使实例靠近其类质心并远离其他质心，促进了区分不同类别的学习。文章还介绍了包含记忆库的模型框架，用于存储每个ID的视觉特征质心。

摘要由CSDN通过智能技术生成

简介这也是关于CLIP的一篇用于目标重识别的文章，是以前面写过的一篇CLIP-ReID文章为基础进行的工作，主要是替换掉了text encoder，用一个Memory机制来代替了，只有一阶段。包含了行人重识别，也是基于图像的，个人认为作为拓展还是可以学学
预备知识：CLIP-ReID、prompt learning、prototypical contrastive learning(PCL)

CVPR 2023
论文作者：Jiachen Li,Xiaojin Gong
作者单位：College of Information Science and Electronic Engineering, Zhejiang University
paper：https://arxiv.org/abs/2310.17218v1
code：https://github.com/RikoLi/PCL-CLIP

ps：这边建议先熟悉一下这个博客：《CLIP-ReID Exploiting Vision-Language Model for Image Re-identification without Concrete Text Label》之后再来看这篇文章。咳咳，进入正题

一、Motivation

CLIP模型展现的优越性能，能够学习多种视觉和语言语义概念，并获得显著的迁移能力； 提示学习因其优越的性能和较低的计算成本而受到广泛的关注。
在人员/车辆再识别中，类名不存在，因为类标签是ID的索引，缺乏语义信息。
CLIP-ReID中的提示学习本质上是为每个ID学习一个文本特征质心（如下图a）；并且CLIP-ReID中引入的图像到文本的交叉熵损失作为一种基于质心的损失，将相同ID的图像吸引到各自的文本质心上。
建议利用原型对比学习(PCL)损失直接微调CLIP的图像编码器，而无需prompt学习。
尽管CLIP的训练鼓励文本特征和视觉特征在联合嵌入空

最低0.47元/天解锁文章

反卷三明治

关注

17
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
0
评论
《Prototypical Contrastive Learning-based CLIP Fine-tuning for Object Re-identification》

在这项工作中，我们首先分析了提示学习在CLIP-ReID中的作用，并确定了其局限性。基于我们的研究，我们提出了一种简单而有效的方法来适应被监督对象的Re-ID。我们的方法使用典型的对比学习(PCL)损失直接微调CLIP的图像编码器，消除了对快速学习的需要。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

反卷三明治 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。