一、研究背景
1.大规模的视觉语言预训练模型在生成图像的文本描述方面存在固有优势。
2.对于跨模态行人重识别任务,利用生成对抗网络进行模态风格转换需要大量跨模态标签,利用无监督度量学习方法进行模态无关特征学习不需要标签。
3.无监督聚类方法的得到的伪标签不准确
二、研究目标
1.利用CLIP为无监督聚类学习提供文本描述作为补充知识。
三、研究动机
1.伪标签存在不准确且不灵活的问题。
2.利用CLIP进行提示学习可以获得比伪标签更好的语义监督。
四、技术路线
通过利用了CLIP的视觉-文本表示能力,为无监督跨模态行人重识别构建新的提示学习模式。
1.Cluster-Aware Prompt Learning(优化可学习文本提示):为行人图片建立可学习的聚类感知提示,并得到文本描述作为后续无监督训练的监督信息。
- 聚类分配伪标签。
- 为每个聚类初始化文本描述作为后续模块监督信息
- 令图像特征靠近自身簇的文本特征(一个)远离其他文本特征进行提示优化。
- 令文本特征靠近自身簇的图像特征(多个)远离其他图像特征进行提示优化。
2.Modal-Specific Contrastive Learning:存储跨模态原型,进行对比学习
- 存储聚类中心作为类原型
- 依据伪标签计算Multimodal-ClusterNce loss
- 动量更新memory
- 令图像特征靠近文本提示(利用可学习文本提示)
对损失做标签平滑(正确时不完全=1,错误时不完全=0)
总损失
3.memory-swapping:利用Hungarian matching在memory中交换类原型,以消除模态差异,将对比学习和跨模态信息联系起来。
- 计算余弦相似度
- 利用Hungarian matching进行原型匹配
- 类原型交换
五、实验结果