【CVPR2018】MobileFaceNets Efficient CNNs for Accurate RealTime Face Verification on Mobile Devices

最新推荐文章于 2024-04-06 09:34:33 发布

-circle-

最新推荐文章于 2024-04-06 09:34:33 发布

阅读量377

点赞数

本文链接：https://blog.csdn.net/u011447369/article/details/103636908

版权

深度学习专栏收录该内容

20 篇文章 0 订阅

订阅专栏

【CVPR2018】MobileFaceNets Efficient CNNs for Accurate RealTime Face Verification on Mobile Devices

作者

摘要

本文提出一类高效CNN模型MobileFaceNets，参数量小于100w，识别适合手机和嵌入式设备，进行实时准确的人脸验证。首先简单分析通用mobile网络对人人脸验证的缺陷，并且MobileFaceNets能够克服该缺陷。同样实验条件下，MobileFaceNets获得优秀性能，速度为MobileNetV2的两倍。用ArcFace loss在refined MS-Celeb-1M训练后，单个4M的 MobileFaceNet在LFW上99.55%，比肩sota百兆CNN模型。最快的MobileFaceNet模型在手机上推理时间为18ms。

介绍

人脸验证有重要应用价值，现有大的CNN模型不适用于手机，通用mobile模型又不适用于人脸验证。本文贡献：

在人脸特征embedding的最后一个CNN层（非全局），使用一个全局的depthwise卷积层，替代全局平均持化层，或者全连接层，输出特征向量；
设计一类人脸特征embedding CNNs，命名为MobileFaceNets；
性能获取SOTA；

方法详情

我们使用ArcFace loss训练所有人脸验证模型，在公开数据集上获得实验结果。

通用Mobile网络缺陷

在MobileNetV1、ShuffleNet、MobileNetV2等通用小网络，都用到全局平均池化层。对于人脸识别和验证，有实验表明该层造成准确率更低。但没有理论推理验证，再次我们根据感受野进行简单分析。

一个标准的人脸验证流程包括：人脸图像预处理、训模型提特征、计算两幅人脸的特征距离。我们使用MTCNN(Zhang, K., Zhang, Z., Li, Z., Qiao, Y.: Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks. IEEE Signal Proc. Let., 23(10):1499–1503, 2016. )检测人脸，然后对齐人脸，然后resize到112*112，RGB图像归一化（逐像素减127.6，在除以128），如下图。

除去loss，我们使用MobileNetV2作为人脸embedding CNN，为了保持原始的224*224输入，第一个卷积层的stride从1变2，定义最后一个卷积层的7*7输出为FMap-end。理论上FMap-end的中心单元和角落单元的感受野相同，但他们在输入图像的不同位置。[24]提出感受野中心的像素对输出影响更大，影响符合高斯分布，因此有效的感受野实际上更小。当输入图像已经对齐，角落单元携带更少的信息。因此不同单元对于特征向量的重要性不同。

MobileNetV2的FMap-end是62720，维度太高，然后使用全局平均池化层降维生成特征向量。Table2显示性能降低。因为他对每个单元都相同对待。

用全连接层替换全局平均池化层，会增加大量参数。即使特征向量为128维，全连接层会带来8million参数。

Global Depthwise Convolution

为了区别对待FMap-end的不同单元，我们提出全局深度卷积层GDConv，kernel size与输入相同，pad为0，stride为1。

F是输入特征图W*H*M，K是深度卷积核W*H*M，G是输出1*1*M，G的第m个通道只有一个元素。计算复杂度W*H*M。MobileNetV2用GDConv将7*7*1280转为1280维，需要62720个参数。实验表明性能有提升。

MobileFaceNet Architectures

我们用了MobileNetV2的residual bottlenecks，具体结构如下表。Expansion factors比MobileNetV2小得多。使用PReLU，有轻微优势。此外，在网络开头使用快速降采样，在最后几个卷积层使用一个较早的降维策略，一个线性1*1卷积层接在一个线性GDconv后。训练使用BN。

MobileNetV2如下图

我们进一步缩小输入到96*96，并移除最后一个1*1卷积层，当做MobileFaceNet-M。再移除GDConv前的1*1卷积层，当做MobileFaceNet-S。

实验结果

训练设置和准确率

weight decay为4e-5，SGD，momentum为0.9，batchsize为512，学习率从0.1开始，分别在3.6w、5.2w、5.8w降10倍。6w训完。

MegaFace挑战1 的评价

略

-circle-

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【CVPR2018】MobileFaceNets Efficient CNNs for Accurate RealTime Face Verification on Mobile Devices

【CVPR2018】MobileFaceNets Efficient CNNs for Accurate RealTime Face Verification on Mobile Devices作者摘要本文提出一类高效CNN模型MobileFaceNets，参数量小于100w，识别适合手机和嵌入式设备，进行实时准确的人脸验证。首先简单分析通用mobile网络对人人脸验证的缺陷，并且Mo...
复制链接

扫一扫