paper
IV-REID关注的是来自频谱照相机不同成像过程的额外模态差异,从而导致跨模态行人重识别更难。
先前的方法试图使用特征水平的约束降低外观差异和模态差异,然而仅仅使用特征水平的约束消除混合的差异有些困难,因此本论文提出了一种双水平差异减少学习方法来分别处理两种差异。对于模态差异,一个图像水平的子网络通过迁移红外图像到可见光下以及可见光到红外图像下。此外,一个特征水平的子网络被用于降低外观差异。
研究动机
在光线较暗的时候,监控系统会自动从可见光模式转入红外模式,因此产生了一个新的问题:给定一张可见光图像,寻找相应的红外图像,或者相反。作者将这种跨模态的行人重识别叫做IV-REID。
思路
论文试图通过将一种模态转为另一种模态,从而消除模态间的差异。
贡献
- 提出了一种双水平差异减少学习方法,分开处理模态差异和外观差异。
- 端到端的方法强迫两个子网络有利于对方。
- 大量的实验展示了方法的有效性。
具体方法
图像水平的降低差异
为了降低模态差异,Ti利用两个变分自动编码器后面跟着两个GAN进行风格的分离来生成特定模态下的图像。
风格分离
由两个编码-解码对组成:NAEv和VAEi,相应的表示可见光模态和红外模态。
图像生成
两个GAN来生成特定模态下的图像。
循环一致性
利用循环一致性进一步规范了不适定无监督图像到图像的转换问题。
模态统一
模态间的统一有三种方式:统一为可见光模态、统一为红外模态或者多光谱模态,这里选择了第三种方式。
总的损失
结合了VAE损失、GAN损失和CC损失。
特征水平的降低差异
使用ResNet-50作为主干网络,进行多损失训练。