论文阅读:Discover Cross-Modality Nuances for Visible-Infrared Person Re-Identification(CVPR2021)
任务:可见光-红外人ReID
论文地址:https://openaccess.thecvf.com/content/CVPR2021/papers/Wu_Discover_Cross-Modality_Nuances_for_Visible-Infrared_Person_Re-Identification_CVPR_2021_paper.pdf
核心思路
文章提出了一种联合模态和模式对齐网络(MPANet)来发现可见红外人 Re-ID 不同模式中的跨模态细微差别,该网络引入了模态缓解模块(Modality Alleviation Module, MAM)和模式对齐模块(Patttern Alignment Module, PAM)来联合提取判别特征。
1.模态缓和模块MAM
Instance Normalization(IN)可以有效减少模态差异, 但直接使用会破坏身份信息(identify information),文章对IN的输入输出使用了带权重残差式的融合方式来保护这一部分信息;
m C m_C mC为SE-Net生成的特征, Z Z Z为IN输入, Z ^ \hat{Z} Z^为IN输出,处理后的特征 F F F可以被描述为:
F = m C ⊙ Z + ( 1 − m C ) ⊙ Z ^ F = m_C\odot Z+(1-m_C)\odot \hat{Z} F=mC⊙Z+(1−mC)⊙Z^
2.模式对齐模块PAM
现在有的方案大多数都关注于全局特征对齐,文章提出细粒度,区分性特征对齐模块PAM,旨在发现不同身份模式中的细微差别;
将特征 F F F输入到带sigmoid的1 × \times × 1的卷积模块(light-weight generator)得到模式图(pattern maps) M M M,再将 M M M与特征 F F F做逐元素乘积得到模式(patterns) P P P,最后做全局平均池化GAP得到PAM的输出;
为了保证模式图(pattern maps) 所捕获到的特征是不同的,文章引入了分离损失(separation loss),将特征做了一个正交运算,当损失趋于0时,两者差异也就越大,作者应该是想让不同的pattern map关注不同的部位,比如头,脚,如果是这样的话就不应该叫pattern,应该叫part
3.模态学习
文章加入特定模态分类器用于对来自不同模态的特征分类,旨在对齐前面所得到不同模式的特征
为了弥合不同模态间的间隙,当可见光(红外)输入红外(可见光)分类器中,文章采用KL散度对其进行约束,如果分类器对来自不同模态的同一个身份特征能够正确预测,那么就是对齐了。个人觉得这个模块的加入是想让特征的提取既带有可见光的特征又带有红外的特征或者说是两者的共同特征;
为了防止两个分类器参数趋于一致导致输出,文章提出两个mean classifier,对其并不直接更新参数,使用权重插值方式替代原始权重对分类模块更新
4.中心簇损失center cluster loss
应该是想让每个pattern maps关注的部位是一致的,即每个特征到簇中心也就是每个batch的平均特征的距离尽可能小,使每个簇中心的距离尽可能大于 ρ \rho ρ