论文作者:Guiwei Zhang,Yongfei Zhang,Zichang Tan
作者单位:Beihang Univerisity;Baidu Inc.
论文链接:http://arxiv.org/abs/2310.07552v1
内容简介:
1)方向:可见光-红外人员重识别
2)应用:人员重识别
3)背景:可见光-红外人员重识别面临着模态差异大的挑战。现有研究大多依赖于可见光-红外整体人物图像的相关性,但在严重的分布偏移下可能表现不佳。相比之下,研究发现一些跨模态相关的高频成分包含有辨别性的视觉模式,并且受到波长、姿势和背景干扰等变化的影响较小。因此,受此启发,希望基于这些高频成分来弥合模态差异,并提出了ProtoHPE方法。
4)方法:ProtoHPE方法有两个核心设计。首先,为了增强跨模态相关的高频成分的表示能力,通过小波变换和指数移动平均Vision Transformer (ViT)将具有这些成分的补丁进行分割,并使ViT将分割后的补丁作为辅助输入。其次,为了获得语义紧凑且具有辨别性的同一身份的高频表示,提出了多模态原型对比方法。具体而言,它分层地捕捉不同模态实例的综合语义,促进了属于同一身份的高频表示的聚合。通过这种方法,ViT可以在推理过程中捕捉到关键的高频成分,而无需依赖ProtoHPE,因此不会增加额外的复杂性。
5)结果:大量实验证实了ProtoHPE方法的有效性。