论文下载地址:https://arxiv.org/pdf/1905.00641v2.pdf
目录
提出目的和方法
提出目的
尽管在无控制环境下的人脸检测方面取得了巨大进展,但在实际场景中进行准确而高效的人脸定位仍然是一个开放的挑战。
提出方法
本文提出了一种稳定的单阶段人脸检测器,名为 RetinaFace,利用联合的额外监督和自监督多任务学习,在不同尺度的人脸上进行逐像素的人脸定位。
(1) 手动标注了 WIDER FACE 数据集中的五个面部特征,并观察到在该额外监督信号的辅助下,困难人脸检测显著改善。
(2) 进一步添加了一个自监督网格解码器分支,用于预测与现有监督分支并行的逐像素 3D 形状面部信息。
(3) 在 WIDER FACE 的困难测试集上,RetinaFace 的平均精度(AP)超越了当前最先进的水平,提升了 1.1%(达到了 91.4% 的 AP)。
(4) 在 IJB-C 测试集中,RetinaFace 使得当前最先进的方法(如 ArcFace)能够改善其人脸验证结果(TAR=89.59%,FAR=1e-6)。
(5) 通过采用轻量级的主干网络,RetinaFace 可以在单个 CPU 核心上以 VGA 分辨率实时运行。。
所提出的单阶段逐像素人脸定位方法采用额外监督和自监督多任务学习,并与现有的框分类和回归分支并行进行。每个正锚点输出
(1) 一个面孔分数,
(2) 一个面框,
(3) 五个面部特征点,
(4) 投影到图像平面的密集 3D 面部顶点。
整体网络模型架构
由于数据限制,JDA 、MTCNN 和 STN 并未验证小面孔检测是否能受益于五个面部特征点的额外监督。在本文中要回答的一个问题是,通过使用五个面部特征构建的额外监督信号,是否能够推动当前最佳性能(90.3% )在 WIDER FACE 困难测试集 上的提升。
在 Mask R-CNN 中,通过增加一个并行预测对象遮罩的分支来显著改善检测性能,该分支与现有的边界框识别和回归分支并行。这证实了逐像素注释对于提高检测效果也是有益的。然而,对于 WIDER FACE 的具有挑战性的面孔,无法进行密集的人脸标注(无论是以更多的特征点或语义分割的形式)。由于无法轻易获得监督信号,问题是否可以采用无监督的方法进一步改善人脸检测。
Multi-task Loss
Mesh Decoder
Differentiable Renderer.
Dense Regression Loss
GT Box和Anchor box之间的最佳匹配过程
难例挖掘(Hard Negative Mining)
论文Receptive Field Block Net for Accurate and Fast Object Detection详解(+代码详解)
实验部分
在 WIDER FACE 验证集上评估了几种不同的设置,并重点观察了 Hard 子集上的 AP 和 mAP。通过应用先进的技术(即 FPN、上下文模块和可变形卷积),建立了一个强大的基线(91.286%),略优于 ISRN [67](90.9%)。添加五个面部特征回归分支显著提高了 Hard 子集上的人脸框 AP(0.408%)和 mAP(0.775%),这表明面部特征定位对提高人脸检测准确性至关重要。相反,在 Easy 和 Medium 子集上添加密集回归分支虽然提高了人脸框 AP,但在 Hard 子集上稍微恶化了结果,表明在具有挑战性的场景下,密集回归的难度较大。尽管如此,同时学习面部特征和密集回归可以实现更好的性能,与仅添加面部特征回归的方法相比。这表明面部特征回归确实有助于密集回归,从而进一步提升人脸检测性能。
注:本文方法在平均精度(AP)方面超越了这些最先进的方法。具体而言,RetinaFace 在所有子集上都产生了最佳的 AP,即验证集上的 96.9%(简单的),96.1%(中等的),91.8%(困难的)和测试集上的 96.3%(简单的),95.6%(中等的)和 91.4%(困难的)。
注:展示了在密集人脸自拍上的定性结果。RetinaFace 成功识别出约 900 张人脸(阈值为 0.5),而报告的 1,151 张人脸中。除了准确的边界框外,RetinaFace 预测的五个面部特征点在姿态、遮挡和分辨率变化下也非常稳健。尽管在重度遮挡下会出现一些稠密人脸定位失败的情况,但在一些清晰和较大的人脸上,密集回归结果依然良好,甚至表现出表情变化。
注:利用 TVM 加速模型推理,实验在 NVIDIA Tesla P40 GPU、Intel i7-6700K CPU 和 ARM-RK3399 上进行。RetinaFace-ResNet-152 旨在实现高精度的人脸定位,对于 VGA 图像(640 × 480)运行速度为 13 FPS。相比之下,RetinaFace-MobileNet-0.25 旨在实现高效的人脸定位,展现出在 GPU 上对 4K 图像(4096 × 2160)可达到 40 FPS 的实时速度,对于 HD 图像(1920 × 1080)为 20 FPS,而对于 VGA 图像(640 × 480)在单线程 CPU 上可达到 60 FPS。更令人惊讶的是,在 ARM 设备上,VGA 图像(640 × 480)的速度为 16 FPS,使其能够在移动设备上实现快速系统。
训练和测试
通过百度网盘分享的文件:Retinaface
链接:模型下载:https://pan.baidu.com/s/1y-Gsf58RBPAKW28O2o6D5Q
提取码:coek