Facial Feature Embedded CycleGAN for VIS-NIR Translation
论文地址:Facial Feature Embedded CycleGAN for VIS-NIR Translation
这是来自武汉大学的一篇VIS 转NIR的论文
通常在可见光图像和红外图像存在两种情况转换:
IR2RGB: 这在异质人脸识别中使用较多,由于主动红外IR相机图像不受环境光线的影响,且在人脸反欺诈方面的优异性能,得到了广泛使用,但是当今大部分的开源数据集及模型在RGB上表现良好,因此有做法是将IR数据转换到RGB
RGB2IR: 这种应用主要是针对大量开源数据集均为彩色图像,因此对于IR的应用有必要将彩色图像转换到IR域,实现数据集共用。
可见光-红外跨模态人脸识别一直是一个具有挑战性的任务。
本文提出了一种基于CycleGAN,使用一个通用的人脸特征提取器(facial feature extractor FFE)来替代CycleGAN中的encode,实现图像转换。
本文中两点创新:
(1)、人脸特征提取器FFE替代encode
(2)、Pixel consistency Loss
1、人脸特征提取 FFE
流程图如上图所示,将人脸特征提取器FFE(encode) 和反卷积模块(decode) 嵌入到CycleGAN的G 和F生成器中。
生成器网络架构如上图。使用在人脸识别数据集上预训练过的FFE用于VIS->NIR 图片的特征提取Fv, Fv使用了6层 residual block 到FN,最后通过反卷积Decode生成NIR图片。
经验表明,CycleGAN在人脸图像转换方面效果欠佳(见文后效果),作者认为一个可能的解释是:**CycleGAN的特征网络及学习到的特征不是针对人脸图像的。**因此想到了替换为人脸识别较好的网络。
笔者这样理解:CycleGAN主要针对非paired image风格转换,侧重的是对整体风格特征的提取,如油画、斑马纹理转换等,而对纹理细节的控制不够理想,比如在斑马转马图中明显感觉转换后的斑马还有斑格线;图像模糊度增加等。一定程度上与CycleGAN的模型结构相关。 同时,我们也未告诉模型图像中斑马在哪,导致转换不够精准,导致骑马的人和马都被转成斑马了。笔者在思考是否需要在大图的风格转换中加入mask提高模型的专注力,这样就能实现对特定物体的转换,而不是全部,当然这是后话了。
作者列出了可选的FFE:
(1) FaceNet,使用对齐面部patch的三联深度网络训练,将人脸图像直接映射到一个紧凑的欧几里得空间来测量人脸相似性。它形成了大量的人脸特征提取网络,在LFW数据集上的识别精度达到99.63%。
(2) DeepID3,重建VGG16和googleNet的卷积层和inception layers,在训练阶段,在中间和最终的特征提取层中加入了联合人脸识别-验证监督信号,提高了人脸识别的性能,这两种方法在LFW数据集上实现了99.53%的人脸验证精度。
(3) MobileFaceNet,是一个非常高效的CNN,数据量远低于现有方法的数据量,使用全局深度卷积(GDConv)[26]作为全局算子,而不是平均池,目的是在训练后学习不同空间位置的重要性。在LFW数据集上的人脸验证精度可达99.55%。
本文选择了MobileFaceNet结构,但是由于红外图和RGB图像数量的不均衡问题,本文利用数量更多的RGB图像对FFE模块进行预训练,使得模型可以精确地提取到人脸特征,学习两个模态的映射函数,生成更加真实的伪红外图像。
训练过程:在容易获取的VIS图像上(MS-Celeb-1M)训练FFE模块。作者认为在VIS图像上训练后的特征提取器在NIR域也能很好地工作,这点笔者有点怀疑,进一步的做法可以在IR图像上再fineture。
2、Pixel Consistency Loss
参考CycleGAN中两个基本损失函数
(1)生成器对抗损失+ 鉴别器判别损失
G最小化损失,实现与真值相近;D最大化区别,实现生成结果与真值区分
(2)cycle consistency loss
转换过去的图还得再恢复回来,实现闭环转换,防止单向操作可能造成的结果发散。
作者提出的pixel consistency loss(pc) 如公式(3):
pc loss 其实就是像素匹配loss,理论上只对paired 数据有效,作者使用了自己收集的数据集WHU VIS-NIR ,作者称大致配对,但是不严格配对。笔者认为只要位置关系差不不太离谱,pc loss 应该是有发挥空间的。
总的loss:
3、数据集
WHU VIS-NIR 数据集
作者使用双目相机同步采集了80个人 VIS-NIR paired 图片。包含面部转动和不同表情。
70组 20VIS+20NIR作为训练集,其余10组测试。使用TAR@FAR=1%,TAR@FAR=0.1% 以及Rank-1 识别率作为评估指标。
Oulu-CASIA NIR-VIS表情数据集
该数据集包含80个人6种表情,每种表情在三种光照条件下得到NIR 与VIS 图像。随机从每种表情中选取8张图且只使用室内正常光照图。每组取48张图,train和test各取20组,供960张VIS 和960张NIR图片。使用TAR@FAR=1%,TAR@FAR=0.1% 以及Rank-1 识别率作为评估指标。
4、实验
设置
MobileFaceNet 在MS-Celeb-1M softmax loss 预训练, 使用Arcface loss Fine-tuned。
FFE-CycleGAN在WHU VIS-NIR paired database 训练,然后再Oulu-CASIA NIR-VIS fine-tune 几个epoch。使用MTCNN 提取人脸框facial landmarks,然后对齐并resize到256x256.
结果
(1)WHU VIS-NIR test
可见CycleGAN 无法很好地学到NIR风格特征,像是仅仅做了光谱纹理转换,而没有考虑人脸特征的变化。如鼻子处的暗斑和脸部轮廓。缺乏光滑性,artificial严重。这可能跟CycleGAN缺少Lpc约束有关。更重要的是,FFE-CycleGAN直接转换人脸特征,而不是整张图的特征,因此其fake NIR 图片更加真实。
从表中可以看出,本文中增加的Lpc提高了基础CycleGAN的识别性能。而FFE-CycleGAN+Lpc显著地提高了NIR人脸准确度。
(2)Oulu-CASIA NIR-VIS 测试
从Fig6可看出,本文生成的结果更加真实和更平滑。作者认为:对于使用验证准确度和Rank-1 score计算的人脸验证来说,提取VIS 和NIR 图片共同的特征是匹配成功的关键。FFE-CycleGAN不仅仅是学习NIR光谱特点,也同时学习脸部的变化,比如由于NIR低光照导致的黑且模糊的轮廓,或者是NIR图片独有的噪声分布。
与其他方法比较结果达到了最佳。
5 总结展望
未来方向:
更大数据集提升网络
其他人脸特征提取网络替代MobileFaceNet
未来聚焦进一步提升图像质量,如高保真度,更深层次的转换不变性。