目录
摘要
这篇文章主要阐述了适用于监控设备的轻量级人脸识别模型。
在轻量级模型的基础上,本文还研究了使用HR下采样合成数据,以及不同模型的组合对LR图像人脸识别的影响。最终得出结论:本文提出的轻量级模型在LR图像超分上得到了最先进的结果,并且将使用不同退化程度的HR图像训练出来的模型相混合(??),得到的混合模型提高了低分辨率监视图像的识别精度。
一、介绍
虽然当前基于HR图像的人脸识别已经可以获得非常优越的性能,但这些性能优异的网络架构往往体量过大,不适用于移动设备,因此本文提出了一种基于低分辨率人脸识别的轻量级人脸架构。
具体来说,文章对Mobile-FaceNet和ShuffleFaceNet对于LR-HR及LR-LR人脸图像的匹配问题进行了系统评估;利用下采样的HR图像合成数据,并且采用不同模型的组合,然后对训练模型的效果进行分析以用于真实的LR图像人脸识别;最后展示了所提出方法对于state-of-art LR图像人脸识别方法的计算性能优势。
本文的主要贡献有:
- 测试了两个具有代表性的轻量级深度人脸模型在LR-HR及LR-LR图像匹配上的高精度。
- 研究了采用下采样合成数据训练的轻量级网络在真实低分辨率图像人脸识别中的有效性,以更好地理解真实监控图像问题的难点以及使用下采样方法生成合成LR图像的相关问题。
- 探究了在下采样合成数据下轻量级模型的不同组合,以提高真实LR图像上LR人脸的识别性能。
- 通过跟最先进的方法进行计算性能的对比,展示了选中的轻量级模型在资源有限的实际应用(eg:监控)上的优势。
- 在几个基准数据集上对选定的轻量级模型进行了实验评估,为监控LR人脸识别问题的解决提供了研究基准。
二、相关工作
2.1 轻量级人脸识别模型
以往方法中提出了一种空间卷积的替代方法——shift算子
,这种计算只需0 FLOPs (指浮点运算数,理解为计算量。可以用来衡量算法/模型的复杂度。) 及0参数。为了验证这种算子在人脸识别任务的有效性,作者提出了ShiftFaceNet模型
并将参数量减少了35x(?参数量?参数大小?),但在三种基准集上准确率最多仅下降2%。
2.2 低分辨率人脸识别
三、研究方法
3.1 轻量级深度人脸模型baseline
文章使用了两个轻量级的深度CNN模型:MobileFaceNet
和ShuffleFaceNet
,他们都被用于高精度实时人脸识别。这两个模型的主要贡献在于:
-
使用了全局深度卷积层(GDC)代替了全局平均池化层(GAP),以获得更可分的人脸识别。
注: Global Depth-wise Convolution(GDC)可以看成是全局加权池化,与 Global Average Pooling(GAP) 的不同之处在于,GDC 给每个位置赋予了可学习的权重(对于已对齐的图像这很有效,比如人脸,中心位置和边界位置的权重自然应该不同),而GAP每个位置的权重相同,全局取平均。
-
使用PReLU代替ReLU作为非线性激活函数
-
两个网络都在头部使用了快速降采样策略(
fast down-sampling
)(?看一下结构),在尾部几个卷积层采用early降维
策略(?看一下网络结构),并且在线性GDC层后采用线性1x1卷积层作为输出层。
MobileFaceNet
使用了residual bottlenecks
作为其block结构,而ShuffleFaceNet
采用DenseNet
作为其block结构,在本文的实验中采用的是ShuffleNet 1.5x(即每个block中channel的缩放比例)。
3.2 实现细节
训练集:MS1M,然后在LR人脸识别的数据集上进行fine-tune
优化 | batch size | GPU | lr | iter | momentum | weight decay |
---|---|---|---|---|---|---|
SGD | 256 | 2 x 1080Ti | 0.1 | 200k | 0.9 | 5e-4 |
卷积的参数初始化是正态分布随机采样的Xavier方法
四、实验评估
4.1 对SCface进行实验
SCface包含130名受试者的4160张图像,这些图像是在不受控制的室内环境中使用不同质量的监控摄像机获得的。
在所有未在SCface上进行fine-tune的方法中,MobileFaceNet实现了最好的性能。虽然ShuffleFaceNet获得的结果较低,但它的性能优于现流行的模型,如VGG-Face和ResNet50-ArcFace。在对SCface进行fine-tune后,MobileFaceNet和ShuffleFaceNet都达到了最先进的水
平,优于DCR-FT、TCN-ResNet-FT和FAN-FT等深度人脸模型。
4.2 对TinyFace进行实验
TinyFace数据集是最大的LR网络人脸识别基准,旨在训练和测试极端LR人脸识别任务上的深度学习模型。
文章在TinyFace数据库的训练集上对ShuffleFaceNet和MobileFaceNet进行微调。表II中展示了这些轻量级网络与最先进的深度人脸模型相比获得的性能。可以看出,ShuffleFaceNet和MobileFaceNet都比其他方法取得了更好的结果,MobileFaceNet是性能最好的方法。
4.3 对QMUL-SurvFace进行实验
QMUL-SurvFace是真实世界的本机监控图像,它包含15573个独特受试者的463,507张低分辨率人脸图像,在姿态、照明、运动模糊、遮挡和背景噪声方面存在不受控制的外观变化。
在较低的FAR(例如0.1%)下,MobileFaceNet的表现远远超过所有型号。虽然ShuffleFaceNet得到的结果较差,但它比VGG-Face、DeepID2和SphereFace等深度模型在这个数据库上的性能要好。