《CLIP-ReID Exploiting Vision-Language Model for Image Re-identification without Concrete Text Label》

简介:近年来用于图像文本对处理的CLIP模型受到的关注度挺高的,但由于reid任务的性质,缺少文本描述,并不适合直接将该模型用于reid任务。但是CLIP模型又天然地适应该任务,该文章也是第一个利用CLIP模型架构的reid工作,只不过是基于图像的reid,但并不影响我们学习。
如果对于CLIP模型不清楚的话,建议提前学习之后再来学习这篇工作
预备知识:CLIP、CoOp

AAAI 2023
paper:https://arxiv.org/pdf/2211.13977v4.pdf
code:https://github.com/Syliz517/CLIP-ReID

一、motivation

作者指出,大多数最新的ReID模型依赖于构建和训练卷积神经网络(CNN),以便在分类器之前将每个图像映射到embedding空间中。同一id的图像在这个空间中趋于接近,而不同id的图像在这个空间中的距离会变得相对远一些。然后在交叉熵损失的引导下,再结合典型的度量学习损失,比如中心损失或三元组损失,就可以有效地学习CNN的参数了。尽管基于cnn的ReID模型在一些知名数据集上取得了很好的表现,但是想要真正地投入使用还是有很长的路要走的。

  • CNN经常有个很明显的缺陷就是,只能关注图像中一个局部的不相关区域,这说明它的特征鲁棒性和判别性不够。
  • 基于CNN的方法和基于ViT的方法都严重依赖于预训练。几乎所有ReID方法都需要一个在ImageNet上训练的初始模型,该模型包含从预定义集合中手动给定one-hot标签的图像。
  • CLIP这样的预训练视觉语言模型 在图像分类和分割等各种下游任务上已经显示出优越的性能。然而,在细粒度图像再识别(ReID)中,标签是索引,缺乏具体的文本描述。因此,如何将这些模型应用于这些任务还有待确定
  • CLIP的图像编码器可以从文本中感知各种高级语义,并学习可转移的特征,可以适应许多不同的任务

二、contribution

  • 第一个将CLIP模型用于行人/车辆识别的工作
  • 提出一个两阶段模型CLIP-ReID

三、Method

算法描述
请添加图片描述

框架
图(a)是CLIP原本的模型;
图(b)是CoOp模型,其实就是提出了一个可学习的prompt机制,来更好地适应下游任务的文本描述;
图(c)是本篇文章所提出来的方法。
请添加图片描述
总体来说,会通过预训练一组可学习的文本标记来补充reid任务所缺乏的的文本信息,然后就相当于有了图像文本对,然后再训练图像编码器。(一个batch里面有B个样本)

3.1 stage1:学习文本tokens

该阶段会冻结文本编码器和图像编码器。
这里其实学到的是抽象的文本token,我们也不知道长啥样,模型能认识就好。其实就是框架中的 [ X ] 1 [ X ] 2 . . . [ X ] M [X]_1[X]_2...[X]_M [X

  • 29
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
Transformer REID是指在人物重识别(Person Re-Identification,简称ReID)领域中使用Transformer模型进行特征提取和匹配的方法。Transformer是一种基于自注意力机制的神经网络模型,它在自然语言处理领域取得了巨大成功,近年来也被应用于计算机视觉任务中,包括人物重识别。 在Transformer REID中,通过将图像输入Transformer模型,将图像的特征嵌入到一个高维向量空间中。这个向量表示了图像中的人物特征,例如外貌、姿态等。通过计算不同图像之间的向量距离,可以进行人物的匹配和检索。 Transformer REID的优势在于能够捕捉到图像中的全局关系和上下文信息,从而提高人物重识别的准确性和鲁棒性。通过利用Transformer模型的自注意力机制,可以有效地建模图像中的长距离依赖关系,并且能够自适应地学习不同特征之间的关联。 参考文献: TransReID Transformer在ReID领域的第一次全面探索!为更好的利用ReID的数据特性与Transformer的信息嵌入特征,本文提出了两种模块改进SIE与JPM,将ReID的提升到了新的高度。 后台回复:Transformer综述,即可下载两个最新的视觉Transformer综述PDF,肝起来!<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Transformer再下一城!ReID各项任务全面领先,阿里&浙大提出TransReID](https://blog.csdn.net/amusi1994/article/details/113787801)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

反卷三明治

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值