Facial Feature Embedded CycleGAN for VIS-NIR Translation 论文解读

Facial Feature Embedded CycleGAN for VIS-NIR Translation

论文地址:Facial Feature Embedded CycleGAN for VIS-NIR Translation

这是来自武汉大学的一篇VIS 转NIR的论文
通常在可见光图像和红外图像存在两种情况转换:
IR2RGB: 这在异质人脸识别中使用较多,由于主动红外IR相机图像不受环境光线的影响,且在人脸反欺诈方面的优异性能,得到了广泛使用,但是当今大部分的开源数据集及模型在RGB上表现良好,因此有做法是将IR数据转换到RGB
RGB2IR: 这种应用主要是针对大量开源数据集均为彩色图像,因此对于IR的应用有必要将彩色图像转换到IR域,实现数据集共用。
可见光-红外跨模态人脸识别一直是一个具有挑战性的任务。
本文提出了一种基于CycleGAN,使用一个通用的人脸特征提取器(facial feature extractor FFE)来替代CycleGAN中的encode,实现图像转换。
在这里插入图片描述

本文中两点创新:
(1)、人脸特征提取器FFE替代encode
(2)、Pixel consistency Loss

1、人脸特征提取 FFE

流程图如上图所示,将人脸特征提取器FFE(encode) 和反卷积模块(decode) 嵌入到CycleGAN的G 和F生成器中。
在这里插入图片描述
生成器网络架构如上图。使用在人脸识别数据集上预训练过的FFE用于VIS->NIR 图片的特征提取Fv, Fv使用了6层 residual block 到FN,最后通过反卷积Decode生成NIR图片。

经验表明,CycleGAN在人脸图像转换方面效果欠佳(见文后效果),作者认为一个可能的解释是:**CycleGAN的特征网络及学习到的特征不是针对人脸图像的。**因此想到了替换为人脸识别较好的网络。
笔者这样理解:CycleGAN主要针对非paired image风格转换,侧重的是对整体风格特征的提取,如油画、斑马纹理转换等,而对纹理细节的控制不够理想,比如在斑马转马图中明显感觉转换后的斑马还有斑格线;图像模糊度增加等。一定程度上与CycleGAN的模型结构相关。 同时,我们也未告诉模型图像中斑马在哪,导致转换不够精准,导致骑马的人和马都被转成斑马了。笔者在思考是否需要在大图的风格转换中加入mask提高模型的专注力,这样就能实现对特定物体的转换,而不是全部,当然这是后话了。
在这里插入图片描述
在这里插入图片描述

作者列出了可选的FFE:
(1) FaceNet,使用对齐面部patch的三联深度网络训练,将人脸图像直接映射到一个紧凑的欧几里得空间来测量人脸相似性。它形成了大量的人脸特征提取网络,在LFW数据集上的识别精度达到99.63%。
(2) DeepID3,重建VGG16和googleNet的卷积层和inception layers,在训练阶段,在中间和最终的特征提取层中加入了联合人脸识别-验证监督信号,提高了人脸识别的性能,这两种方法在LFW数据集上实现了99.53%的人脸验证精度。
(3) MobileFaceNet,是一个非常高效的CNN,数据量远低于现有方法的数据量,使用全局深度卷积(GDConv)[26]作为全局算子,而不是平均池,目的是在训练后学习不同空间位置的重要性。在LFW数据集上的人脸验证精度可达99.55%。

本文选择了MobileFaceNet结构,但是由于红外图和RGB图像数量的不均衡问题,本文利用数量更多的RGB图像对FFE模块进行预训练,使得模型可以精确地提取到人脸特征,学习两个模态的映射函数,生成更加真实的伪红外图像。
训练过程:在容易获取的VIS图像上(MS-Celeb-1M)训练FFE模块。作者认为在VIS图像上训练后的特征提取器在NIR域也能很好地工作,这点笔者有点怀疑,进一步的做法可以在IR图像上再fineture。

2、Pixel Consistency Loss

参考CycleGAN中两个基本损失函数
(1)生成器对抗损失+ 鉴别器判别损失
在这里插入图片描述
G最小化损失,实现与真值相近;D最大化区别,实现生成结果与真值区分

(2)cycle consistency loss
在这里插入图片描述
转换过去的图还得再恢复回来,实现闭环转换,防止单向操作可能造成的结果发散。

作者提出的pixel consistency loss(pc) 如公式(3):
在这里插入图片描述
pc loss 其实就是像素匹配loss,理论上只对paired 数据有效,作者使用了自己收集的数据集WHU VIS-NIR ,作者称大致配对,但是不严格配对。笔者认为只要位置关系差不不太离谱,pc loss 应该是有发挥空间的。
在这里插入图片描述
总的loss:
在这里插入图片描述

3、数据集

WHU VIS-NIR 数据集

作者使用双目相机同步采集了80个人 VIS-NIR paired 图片。包含面部转动和不同表情。
70组 20VIS+20NIR作为训练集,其余10组测试。使用TAR@FAR=1%,TAR@FAR=0.1% 以及Rank-1 识别率作为评估指标。

Oulu-CASIA NIR-VIS表情数据集

该数据集包含80个人6种表情,每种表情在三种光照条件下得到NIR 与VIS 图像。随机从每种表情中选取8张图且只使用室内正常光照图。每组取48张图,train和test各取20组,供960张VIS 和960张NIR图片。使用TAR@FAR=1%,TAR@FAR=0.1% 以及Rank-1 识别率作为评估指标。

4、实验

设置

MobileFaceNet 在MS-Celeb-1M softmax loss 预训练, 使用Arcface loss Fine-tuned。
FFE-CycleGAN在WHU VIS-NIR paired database 训练,然后再Oulu-CASIA NIR-VIS fine-tune 几个epoch。使用MTCNN 提取人脸框facial landmarks,然后对齐并resize到256x256.

结果

(1)WHU VIS-NIR test
在这里插入图片描述
可见CycleGAN 无法很好地学到NIR风格特征,像是仅仅做了光谱纹理转换,而没有考虑人脸特征的变化。如鼻子处的暗斑和脸部轮廓。缺乏光滑性,artificial严重。这可能跟CycleGAN缺少Lpc约束有关。更重要的是,FFE-CycleGAN直接转换人脸特征,而不是整张图的特征,因此其fake NIR 图片更加真实。
从表中可以看出,本文中增加的Lpc提高了基础CycleGAN的识别性能。而FFE-CycleGAN+Lpc显著地提高了NIR人脸准确度。

(2)Oulu-CASIA NIR-VIS 测试
在这里插入图片描述
从Fig6可看出,本文生成的结果更加真实和更平滑。作者认为:对于使用验证准确度和Rank-1 score计算的人脸验证来说,提取VIS 和NIR 图片共同的特征是匹配成功的关键。FFE-CycleGAN不仅仅是学习NIR光谱特点,也同时学习脸部的变化,比如由于NIR低光照导致的黑且模糊的轮廓,或者是NIR图片独有的噪声分布。
在这里插入图片描述
与其他方法比较结果达到了最佳。

5 总结展望

未来方向:
更大数据集提升网络
其他人脸特征提取网络替代MobileFaceNet
未来聚焦进一步提升图像质量,如高保真度,更深层次的转换不变性。

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值