1.一些概念
跨模态行人重识别研究同一身份行人的可见光图像和红外图像的匹配检索问题。由于相机的波长范围、光照、场景等成像因素不一致,跨模态行人重识别面临较大的跨模态差异和类内变化的挑战。因此,本文提出基于语义耦合和身份一致性的跨模态行人重识别方法。在语义层面,通过双向地耦合不同模态的语义特征,实现不同模态间语义交互融合,有效缓解跨模态差异;在行人身份层面,通过优化跨模态三元组损失和身份损失,实现类内身份信息一致性,有效缓解类内变化问题。实验结果表明,本文所提算法能够有效提升跨模态行人重识别精度,与基线方法相比,Top-1和mAP指标精度提升10%以上。
2.non_local
non_local模块关注于长距离建模关系。一系列应用non-local模块或者各种变体(CCNet、efficient attention、A2-Nets等)工作的模式是,CNN整体上已经非常好了,但是缺乏一些长距建模的能力,所以我们在里面稀疏地插入一些注意力模块,帮助CNN做这件事,而其他部分还是由CNN负责。
从工作的定位来讲,二者还是有很大差别的。VIT是整个框架,nonlocal只是一个可以插入任何深度网络的模块。VIT的主要创新点在于数据输入阶段的分patch,然后将每个patch经过线性映射与位置编码后通过transformer,其亮点在于利用分patch操作将图像问题转化为序列问题,完全脱离了CNN结构,可以认为是一个和CNN并列的工作。而nonlocal并没有跳出CNN的框架,只是在CNN的框架中利用self attention的思想进行一定处理的一个模块,该模块可以插入到常见的网络结构中去,比如resnet等等。所以二者最大的不同在于数据的初始处理方式上,vit是将图像转化成了序列建模,而nonlocal的对象仍然是图像。
2.两个数据集