Enhancing the Discriminative Feature Learning for Visible-Thermal Cross-Modality Person
当前的问题及概述:
为了解决模式间和模式内的差异这两个问题,本文从两个方面入手,采用三种简单的方法来增强鉴别特征学习(EDFL)
(1)skip-connection:我们从下图的灰度CAM可以看到,以backbone是ResNet-50为例。我们可以发现深度CNN的不同层次确实是针对不同的位置来预测的。因此,我们尝试将CNN模型中中间层的特征通过跳连接的方式融合进来,增强person特征的识别性和鲁棒性。
(2)dual-modality triplet loss:同时考虑到模态内部差异模态间变化。
(3)Two-stream:利用两个独立的CNNs来学习模态相关的信息,从而解决跨模态差异问题,然后利用一些共享层将这些特定于模态的信息嵌入到一个公共空间中。同时考虑模态的共同性和差异性,Two-stream CNN结构可以生成多模态的可共享特征。
模型及loss:
本文提出的EDFL框架如上图,该模型采用two-stream CNN结构提取人的特征,一流提取RGB图像,另一流提取热图像,分别以两个ResNet50模型作为每个流中的backbone,它们彼此独立&