作者:
1、问题
跨模态行人重识别中可见光和红外的模态差异是一项巨大的挑战,传统的使用GAN网络的方法生成假的红外图像或者可见光图像来减小模态差异,但是训练和测试中都要使用GAN,耗费了巨大的资源。本文提出了一种新的Teacher-Student GAN model (TS-GAN)方法来解决模态差异问题。
2、思想
TS-GAN的方法不同于此前的GAN方法不同,它通过预训练一个教师模型来指导学生模型提取可鉴别特征。首先,用真实的RGB图像通过GAN生假的红外图像,然后将假的红外图像和真的红外图像作为教师模型的输入来产生一个特征映射,这个映射指导backbone中的学生模型也生成一个特征映射,在经过高级嵌入层提取高级语义信息即可得到鉴别特征。
3、方法
本文结构如图3所示,包含假红外生成模块、教师模型和backbone三部分,假红外生成模块通过GAN将可见光图像转换为红外图像,教师模型是预训练好多复杂模型,指导学生模型生成特征映射;backbone提取跨模态的可见别特征。下面一一讲解这三个模块。
3.1、RGB-IR Image Generation Module
由于红外图像生成可见光图像的效果不好,所以本文利用可见光生成红外图像,本文实验得到红外图像单模态行人重识别的性能比可见光稍差一些(实验得到rank1为98%,我认为没那么高,这也可能是这篇文章没有发表的原因)。这个模块包含一个红外生成器和一个判别器,生成对抗损失为:
为了增生成图像的效果,本文采用CycleGAN的思想,由生成的假的红外图像再生成可见光图像,与真可见光图像对比,这样保证生成的假红外图像与可见光图像具有一致性。一致性约束为:
最后得到这个模块的loss为:
3.2、ReID Backbone Module
backbone设计成两个编码器——former encoder(FES)和latter encoder(LES),FES的输入为真红外图像、假红外图像和真可见光图像,输出得到一个特征图,然后传入LES得到行人的识别特征,再经过全局平均池化和全连接层得到一维特征向量。使用ID loss和triplet loss和生成对抗loss进行约束:
这里值得注意的是,本文使用了标签平滑:
3.3、RGB-IR Teacher-Student Module
教师模型是预训练好的的模型,同样使用两个编码器提取特征——former encoder(FET)和latter encoder(LET),来指导backbone中学生模型的特征提取。loss为:
4、实验
最终的实验结果如下: