Unveiling the Power of CLIP in Unsupervised Visible-Infrared Person Re-Identification

二苏旧局吖

已于 2024-01-13 11:32:31 修改

阅读量694

点赞数 6

文章标签：人工智能计算机视觉

于 2024-01-13 11:31:44 首次发布

本文链接：https://blog.csdn.net/qq_37246721/article/details/135546842

版权

本文提出了一种结合CLIP的无监督跨模态行人重识别方法，通过Cluster-AwarePromptLearning生成文本描述作为监督，Modal-SpecificContrastiveLearning进行模态对比学习，并利用memory-swapping消除模态差异。实验结果显示此方法有效提高了识别精度，克服了伪标签的不准确性问题。

摘要由CSDN通过智能技术生成

一、研究背景
1.大规模的视觉语言预训练模型在生成图像的文本描述方面存在固有优势。
2.对于跨模态行人重识别任务，利用生成对抗网络进行模态风格转换需要大量跨模态标签，利用无监督度量学习方法进行模态无关特征学习不需要标签。
3.无监督聚类方法的得到的伪标签不准确

二、研究目标
1.利用CLIP为无监督聚类学习提供文本描述作为补充知识。

三、研究动机
1.伪标签存在不准确且不灵活的问题。
2.利用CLIP进行提示学习可以获得比伪标签更好的语义监督。

四、技术路线
通过利用了CLIP的视觉-文本表示能力，为无监督跨模态行人重识别构建新的提示学习模式。
在这里插入图片描述

1.Cluster-Aware Prompt Learning（优化可学习文本提示）：为行人图片建立可学习的聚类感知提示，并得到文本描述作为后续无监督训练的监督信息。

聚类分配伪标签。
为每个聚类初始化文本描述作为后续模块监督信息
令图像特征靠近自身簇的文本特征（一个）远离其他文本特征进行提示优化。
令文本特征靠近自身簇的图像特征（多个）远离其他图像特征进行提示优化。

2.Modal-Specific Contrastive Learning：存储跨模态原型，进行对比学习

存储聚类中心作为类原型
依据伪标签计算Multimodal-ClusterNce loss
动量更新memory
令图像特征靠近文本提示（利用可学习文本提示）

对损失做标签平滑（正确时不完全=1，错误时不完全=0）

总损失

3.memory-swapping：利用Hungarian matching在memory中交换类原型，以消除模态差异，将对比学习和跨模态信息联系起来。

计算余弦相似度
利用Hungarian matching进行原型匹配
类原型交换

五、实验结果
在这里插入图片描述

二苏旧局吖

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
Unveiling the Power of CLIP in Unsupervised Visible-Infrared Person Re-Identification

1.Cluster-Aware Prompt Learning（优化可学习文本提示）：为行人图片建立可学习的聚类感知提示，并得到文本描述作为后续无监督训练的监督信息。2.对于跨模态行人重识别任务，利用生成对抗网络进行模态风格转换需要大量跨模态标签，利用无监督度量学习方法进行模态无关特征学习不需要标签。通过利用了CLIP的视觉-文本表示能力，为无监督跨模态行人重识别构建新的提示学习模式。2.利用CLIP进行提示学习可以获得比伪标签更好的语义监督。1.利用CLIP为无监督聚类学习提供文本描述作为补充知识。
复制链接

扫一扫