Unveiling the Power of CLIP in Unsupervised Visible-Infrared Person Re-Identification

本文提出了一种结合CLIP的无监督跨模态行人重识别方法,通过Cluster-AwarePromptLearning生成文本描述作为监督,Modal-SpecificContrastiveLearning进行模态对比学习,并利用memory-swapping消除模态差异。实验结果显示此方法有效提高了识别精度,克服了伪标签的不准确性问题。
摘要由CSDN通过智能技术生成

一、研究背景
1.大规模的视觉语言预训练模型在生成图像的文本描述方面存在固有优势。
2.对于跨模态行人重识别任务,利用生成对抗网络进行模态风格转换需要大量跨模态标签,利用无监督度量学习方法进行模态无关特征学习不需要标签。
3.无监督聚类方法的得到的伪标签不准确

二、研究目标
1.利用CLIP为无监督聚类学习提供文本描述作为补充知识。

三、研究动机
1.伪标签存在不准确且不灵活的问题。
2.利用CLIP进行提示学习可以获得比伪标签更好的语义监督。

四、技术路线
通过利用了CLIP的视觉-文本表示能力,为无监督跨模态行人重识别构建新的提示学习模式。
在这里插入图片描述

1.Cluster-Aware Prompt Learning(优化可学习文本提示):为行人图片建立可学习的聚类感知提示,并得到文本描述作为后续无监督训练的监督信息。

  • 聚类分配伪标签。
  • 为每个聚类初始化文本描述作为后续模块监督信息
  • 令图像特征靠近自身簇的文本特征(一个)远离其他文本特征进行提示优化。
    在这里插入图片描述
  • 令文本特征靠近自身簇的图像特征(多个)远离其他图像特征进行提示优化。
    在这里插入图片描述

2.Modal-Specific Contrastive Learning:存储跨模态原型,进行对比学习

  • 存储聚类中心作为类原型
    在这里插入图片描述
    在这里插入图片描述
  • 依据伪标签计算Multimodal-ClusterNce loss
    在这里插入图片描述
  • 动量更新memory
    在这里插入图片描述
  • 令图像特征靠近文本提示(利用可学习文本提示)
    在这里插入图片描述
    对损失做标签平滑(正确时不完全=1,错误时不完全=0)
    在这里插入图片描述
    总损失
    在这里插入图片描述

3.memory-swapping:利用Hungarian matching在memory中交换类原型,以消除模态差异,将对比学习和跨模态信息联系起来。

  • 计算余弦相似度
  • 利用Hungarian matching进行原型匹配
    在这里插入图片描述
  • 类原型交换
    在这里插入图片描述

五、实验结果
在这里插入图片描述

  • 6
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二苏旧局吖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值