Fangyu Wu, Weihang You, Jeremy S. Smith, Wenjin Lu, Bailing Zhang
IEEE-2019
一、简介
由于近红外图像和可见光图像之间的区域偏差,我们创建了室外近红外人脸数据库和室内近红外人脸数据库,以增加近红外人脸图像的数量。
本文提出了一种高效的近红外人脸识别方法,该方法包括人脸检测和对齐、近红外-可见光图像转换和人脸嵌入。
近红外-可见光图像转换模型能够将近红外面部图像转换成相应的可见光图像,同时保持足够的身份信息,使现有的可见光面部识别模型能够执行识别。
二、模型
2.1 人脸检测和对齐
应用MTCNN网络在ONVF数据集和CSIST上实现了一个人脸检测模型。
它基本上包括三个阶段:
(1)我们利用由所提出的网络生成的候选窗口列表来分类人脸和非人脸,并估计包围盒回归向量作为人脸位置。
(2)通过将所有候选人馈送到精炼网络(R-Net),将拒绝大量错误的候选人。
(3)另一个CNN,叫O-Net,输出五个面部界标。
2.2 NIR-VIS图像转换
旨在学习两个域之间的映射函数。
应用CycleGAN框架将近红外图像转换为可见光图像。
对抗损失用来转换图像。判别器用来判别真图和假真图。
由于缺乏成对的训练数据,存在多个可选的映射函数。为了在转换和反向转换后恢复原始图像,引入了循环一致性损失。
如果m为0,那就负样本对没有反向传播。如果m大于0,系统将考虑正负样本对的损失。较大的m意味着负样本对的损失对反向传播占主导。
相似性保持是从一些基于遗传神经网络的图像-图像翻译方案中开发合成图像生成的重要原则。我们在循环一致性损失函数中加入对比损失,以学习约束映射函数学习的潜在空间。
整体损失:
2.3 特征嵌入模型
高性能的人脸嵌入模块对整个人脸识别系统至关重要。
在本文中使用的模块是FaceNet,使用Inception-ResNet-v1模型。
图片经过Inception-ResNet-v1模型提取人脸特征嵌入,然后L2标准化人脸特征嵌入,最后通过三元损失进行训练。
三、数据集
本文的一大贡献就是创建了ONVF和INF数据集。
ONVF数据集:
我们捕获了1000名受试者的面部图像,没有对光照和姿势的限制,每个受试者提供大约30幅近红外和30幅可见光面部图像。样本图像中有各种各样的变化,如姿势、表情和焦点等。
INF数据集:
由该大学的94名学生组成,包括57名男性和37名女性。在记录过程中,一名受试者被要求坐在摄像机前,并收集他们正常的正面图像。相机与面部的距离在80-120厘米之间,这对用户来说是一个方便的范围。每个受试者有5张分辨率为640⇥480像素的NIR人脸图像。
四、实验
首先,使用MTCNN实现了人脸检测和对齐。然后,使用大型ONVF数据库在Tensorflow 中训练近红外-可见光图像转换模型。
转换后,生成的VIS人脸被输入到现有的预先训练的VIS深度神经网络人脸识别模型中。
对于人脸嵌入模块,在MSCeleb-1M数据集上进行预训练。