人脸检测技术综述-CSDN博客

本文链接：https://blog.csdn.net/liuheng0111/article/details/52348805

摘要：人脸检测研究在近几十年的时间内取得了长足的进步，在生活中的各个方面得到了广泛的应用。本文首先对人脸检测进行了简单的介绍，然后介绍了人脸检测的两个比较大的评测网站，人脸检测的评价指标，在后续介绍了最近人脸检测的一些综述性文章以及近几年人脸检测的发展情况。

关键字：人脸检测评价指标综述发展

Recent Advances in FaceDetection

LIU Heng

(University of the ChineseAcademy of Sciences)

Abstract: the research of face detection has made great progress in recentdecades, and it has been widely used in all aspects of life. Firstly the facedetection were introduced, and then introduces the face detection of tworelatively large web site evaluation, evaluation indexes for the facedetection, in the subsequent introduced recent face detection of a series ofreview articles and in recent years, the development of face detection.

Key words: face detection evaluation index development

1 引言

人脸检测问题最初来源于人脸识别（Face Recognition）。人脸识别的研究可以追溯到上个世纪六、七十年代，经过几十年的曲折发展已日趋成熟。人脸检测是自动人脸识别系统中的一个关键环节。早期的人脸识别研究主要针对具有较强约束条件的人脸图象（如无背景的图象），往往假设人脸位置一直或者容易获得，因此人脸检测问题并未受到重视。随着电子商务等应用的发展，人脸识别成为最有潜力的生物身份验证手段，这种应用背景要求自动人脸识别系统能够对一般图象具有一定的识别能力，由此所面临的一系列问题使得人脸检测开始作为一个独立的课题受到研究者的重视。今天，人脸检测的应用背景已经远远超出了人脸识别系统的范畴，在基于内容的检索、数字视频处理、视频检测等方面有着重要的应用价值。

2 人脸测评网站

1：Face Detection Data Set and Benchmark（FDDB）

FDDB是由马萨诸塞大学计算机系维护的一套公开数据库，为来自全世界的研究者提供一个标准的人脸检测评测平台，其中涵盖在自然环境下的各种姿态的人脸；该校还维护了LFW等知名人脸数据库供研究者做人脸识别的研究。作为全世界最具权威的人脸检测评测平台之一，FDDB使用Faces in the Wild数据库中的包含5171张人脸的2845张图片作为测试集，而其公布的评测集也代表了人脸检测的世界最高水平。FDDB更新更及时一些。

2：Fine-grained evaluation of face detection in the wild

该测试网站是由李子青老师的研究组创立和维护的，其性能评估更细致，分析不同分辨率、角度、性别、年龄等条件下的算法准确率。该测试集更新没有FDDB及时。

3人脸检测指标

	正类	无关类
被检测到	True Positives	False Positives
未被检测到	False Negatives	True Negatives

True Positives: TP 正类判定为正类

False Positives: FP 负类判定为正类

False Negatives： FN 正类判定为负类

True Negatives： TN 负类判定为负类

精确率(precision)

它计算的是所有被检索到的个数（TP+FP）中”应该被检索到的个数（TP）”占的比例。

召回率(recall)

它计算的是正样本正确判断正样本的结果数 / 正样本实际数。

F-Measure

定义为P和 R 的调和平均数。

可得:

F-Measure又称为F-Score，是信息检索领域的常用的一个评价标准，计算公式为：其中β 是参数，P是精确率(Precision)，R是召回率(Recall)。

当参数β=1时，就是最常见的F1-Measure了：

“召回率”与“准确率”虽然没有必然的关系（从上面公式中可以看到），然而在大规模数据集合中，这两个指标却是相互制约的。

由于“检索策略”并不完美，希望更多相关的文档被检索到时，放宽“检索策略”时，往往也会伴随出现一些不相关的结果，从而使准确率受到影响。

而希望去除检索结果中的不相关文档时，务必要将“检索策略”定的更加严格，这样也会使有一些相关的文档不再能被检索到，从而使召回率受到影响。

凡是涉及到大规模数据集合的检索和选取，都涉及到“召回率”和“准确率”这两个指标。而由于两个指标相互制约，我们通常也会根据需要为“检索策略”选择一个合适的度，不能太严格也不能太松，寻求在召回率和准确率中间的一个平衡点。

4近几年人脸检测的survey

1）2010年微软zhang cha和张正友撰写的人脸检测的综述报告。

这篇报告调查了在2010年以前的几十年中，人脸检测的一些重要算法的发展过程。首先介绍了seminal Viola-Jones人脸检测器，然后介绍了采取不同的特征提取和学习算法而得来的人脸检测方法。这边文章希望通过审查许多现有的算法，来研究更好的算法来解决这个问题。在这篇文章中给出了提琴-琼斯的人脸检测的概述，这也促使许多人脸检测中的研究进展，对人脸检测的两个关键问题的解决方案：什么样的特征，并学习算法的应用。然后总结了各种人脸检测特征^[1]。

Feature Type	RepresentativeWorks
Haar-like features and its variations	Haar-like features，Rotated Haar-like features，Rectangular features with structure，Haar-like features on motion filtered image
Pixel-based features	Pixel pairs，Control point set
Binarized features	Modified census transform，LBP features，Locally assembled binary feature
Generic linear features	Anisotropic Gaussian filters，LNMF，Generic linear features with KL boosting
Statistics-based features	Edge orientation histograms，Spectral histogram，Spatial histogram (LBP-based)，HoG and LBP，Region covariance
Composite features	Joint Haar-like features，Sparse feature set
Shape features	Boundary/contour fragments，Edgelet，Shapelet

在这篇调查中，总结了各种人脸检测的机器学习算法：

General Approach	Representative Works
Template matching	Antiface
Bayesian	Bayesian discriminating features
SVM – speed up	Reduced set vectors and approximation
SVM – multiview face detection	SVR based pose estimator，SVR fusion of multiple SVMs，Cascade and bagging，Local and global kernels
Neural networks	Constrained generative model ，Convolutional neural network
Part-based approaches	Wavelet localized parts，SVM component detectors adaptively trained，Overlapping part detectors

这篇文章还提出了2010年之后人脸检测的未来发展，最简单的未来方向是进一步提高学习算法和功能。Haar特征用于Viola和琼斯工作的人脸检测非常简单有效的，但不理想的任意姿态的人脸。复杂的功能可能会增加计算的复杂性，虽然它们可以被使用在一个后过滤器的形式，仍然是有效的，这可能会显着提高检测器的性能。关于学习，如果所有的功能可以预先指定，提高学习计划是很重要的。然而，其他的学习算法，如支持向量机或卷积神经网络可以经常执行同样出色，内置的机制，新的功能生成。现代的人脸检测器大多是基于外观的方法，这意味着他们需要训练数据来学习的分类。收集大量的地面真实数据仍然是一个非常昂贵的任务，这肯定需要更多的研究。无监督的或半监督的学习计划将是非常理想的，可以减少所需的数据收集的工作。

2）Stefanos Zafeiriou, Cha Zhang和张正友撰写了最新的人脸检测的综述paper。

最新性能总结如下^[2]：

可以看出：

1）在过去的10年人脸检测的性能已经有了激动人心的提升。
2）这些引人注目的性能提升，主要还是得益于将Viala-Jones的boosting和鲁棒性的特征相组合。

3）始终有15~20%的性能Gap，即使允许一个相对较大的FP(大约1000）,始终有15~10%的人脸无法被检测到。需要特别指出的是这些Gap主要是由于是失焦的人脸（比如模糊的人脸）。
4）在这个Benchmark中，最好的基于boosting技术和最好的基于DPM的技术是比较接近的。当然最好的技术还是boosting和DPM组合在一起的性能。

5人脸检测的进展（按时间顺序）

（1） JointCascade Face Detection and Alignment. ECCV 2014. D. Chen, S. Ren, Y. Wei, X.Cao, J. Sun.^[3]

这篇文章提出了一个人脸检测的新方法，该方法达到了人脸检测的精度和速度方面的艺术新境界。它遵循“升压级联结构+简单的功能”的原则。使用简单的像素差异的功能，带来的效率上的优势。检测器检测VGA图像仅需28.6毫秒，超过一般的检测器1000倍的速度。在具有挑战性的数据集上也能达到最佳的精度，明显优于现有的所有学术界的解决方案。我们的工作表明，准确的人脸对齐（面部点的位置），在区分面孔/非面孔是有帮助的。级联结构已被证明是有效的检测和校准算法，这篇文章提出了一个一般的级联框架，统一了这两个任务。

（2）The fastest deformable part model for objectdetection J. Yan, Z. Lei, L. Wen, S. Z. Li, ^[4]

这篇文章解决了变形模型的速度瓶颈，具有挑战性的数据集保持检测的准确性。采用近端梯度算法逐步学习低阶滤波器的方式，梯级部分修剪，neighborhood知道级联提出捕获攻击修剪附近地区的依赖。对于特征提取，查找表构造，以取代昂贵的计算的方向分区和大小与简单的矩阵索引操作。这篇文章所提出的方法（在PASCAL VOC类似精度的方法）比目前最快的DPM快4倍。该方法实现了对行人和人脸检测任务与帧速率的最高的精度。

（3）Face detection without bells and whistles. ECCV 2014.M. Mathias, R. Benenson, M. Pedersoli and L. Van Gool.^[5]

这篇文章发现了一个训练有素的DPM达到最高的性能，大大提高商业和研究系统，并证明了一个基于刚性模板在结构上类似于Viola&Jones detector可以在这个任务上达到类似的性能。这篇文章讨论现有的评价基准存在的问题，并提出了一种改进的程序，取得了相当好的结果。

（4）A Method for Object Detection Based on Pixel IntensityComparisons Organized in Decision Trees. CoRR 2014. N. Markus, M. Frljak, I. S.Pandzic, J. Ahlberg and R. Forchheimer.^[6]

这篇文章描述了一个基于在级联的功能组织优化的决策树集成视觉目标检测方法。树木在他们的内部节点使用像素强度的比较，这使得他们能够处理图像区域非常快。通过一个人脸检测问题的实验分析。所得到的结果是令人鼓舞的，并表明该方法具有实用价值。此外，这篇文章分析了其对噪声的敏感性，并显示如何执行快速旋转不变的目标检测。

（5）Aggregate channel features for multi-view face detection.. B.Yang, J. Yan, Z. Lei and S. Z. Li.^[7]

目前许多的子序列，提高了效率与更强大的学习算法用于人脸检测，但仍然不能满足需求，不能有效和高效地处理面临野生大外观方差的特征表示。为了解决这个瓶颈，这篇文章借用的概念的信道特征的人脸检测域，它扩展了图像通道，以不同的类型，如梯度幅值和面向梯度直方图，因此编码丰富的信息，在一个简单的形式。采用一种新的变种，称为总的信道特征，使得特征设计的全面探索，具有良好的性能和发现一个多尺度版特点。为了解决在野外的面孔的姿势，提出了一个多视角的检测方法，具有得分重新排名和检测调整。在学习viola-jones框架管道，使用聚合信道的特点，多视角人脸检测使用总的信道特征，在AFW和FDDB测试数据集上和state-of-the-art算法进行比较，取得了很好的效果。

（6）A Convolutional Neural Network Cascade for FaceDetection. H. Li , Z. Lin , X. Shen, J. Brandt and G. Hua. ^[8]

在现实世界中的人脸检测，大的视觉变化，如那些由于姿势，表情和灯光，这使得需要一个先进的歧视性模型，以准确区分不同的背景。因此，有效的模型的十分重要。为了解决这个问题，这篇文章提出了一种级联架构基于卷积神经网络（CNN），具有非常强大的判别能力，同时保持高性能。为了提高定位的有效性，并减少在后期阶段的候选人的数量，每个校准阶段的输出用于调整输入到后续阶段的检测窗口位置。该方法在14帧上的VGA分辨率图像和100 FPS使用GPU的单CPU核心运行，并实现搞笑的检测性能。

（7）Multi-view Face Detection Using Deep ConvolutionalNeural Networks. S. S. Farfade, Md. Saberian and Li-Jia Li

这是yahoo提出的人脸检测方法。这篇文章考虑的多视角人脸检测问题。提出了深密的人脸检测器（ddfd），这种方法，不需要姿势/地标标注，使用一个基于深度卷积神经网络模型。所提出的方法具有最小的复杂性，不像其他最近的深度学习对象检测方法，它不需要额外的组件，如分割，包围盒回归，或支持向量机分类器。通过使用更好的采样策略和更复杂的数据增强技术可以进一步提高方法的性能。流行的人脸检测基准数据集的评价表明，与以前的方法相比，该方法有更好的性能。

（8）Face Detection with a 3D Model. A. Barbu,N. Lay, G. Gramajo.^[9]

这篇文章提出了一种基于部分的人脸检测方法，其中的人脸部分之间的空间关系表示的一个隐藏的三维模型与六个参数。使用一个参数敏感的分类，基于局部二进制特征，得到一个兼容的候选子集，然后通过非最大抑制。在两个标准的人脸检测数据集上测试，所提出的基于3D模型的方法获得的结果相当好^[10]。

6 总结与展望

用于人脸检测的早期算法很多且完全不同的^[11][12]。现在，人脸检测方法的主要研究围绕三大家族：（a）基于boosting的方法，（b）应用深度卷积神经网络（DCNNs）（C）基于变形零件（DPM）方法。以往的人脸检测算法分为他们是否对光照变化、面部表情，面部姿势等鲁棒。基于DPMS的人脸检测方法，具有较好的泛化性能，因为他们没有模型的变形。一个直接的好处是，DPM方法可以有效地使用较小的数据训练。

人脸检测技术，目前的成功无疑是归因于强大的功能，以及这些特征的结合^[13]。我认为人脸检测未来可以从以下几个方面发展：（1）进一步研究对象的检测线，在一般情况下，特别是人脸检测，是如何结合部分为基础的方法与升压为基础的方法。一个有效的方法是在相同的级联框架下，通过共同学习人脸对齐和检测^[15]。（2）结合现成的预训练的DCNN结构产生的特征和DPMs进行人脸检测^[16][17]。（3）考虑上下文信息以提高人脸检测性能。人脸是最有可能与其他身体部位连接，这些其他身体部位可以提供面孔强有力的线索。

现代的人脸检测器大多是基于外观的方法，这意味着他们需要的数据来训练分类器。收集大量的真实数据仍然是一个非常昂贵的任务，这肯定需要更多的研究。无监督或半监督的学习将是相当重要的，以减少所需的数据收集的工作量。另一个问题是从目前的人脸检测方法训练的图像，转移到从标准相机拍摄的人脸检测器的特殊相机拍摄的图像，如全方位摄像机^[18]。

人脸检测仍然是一个悬而未决的问题，是否一个人脸检测器可以检测任意集合中的人脸。例如当一个新的集合，而不是重新培训的检测器，它可以适应一个新的图像数据集，而无需访问原始训练数据^[19]。这样的相机和环境的特定的人脸检测器具有非常高的性能。与其他领域，如语音识别和手写识别，适应性已是不可缺少的。一些早期的工作已经进行了在这方面进行了研究^[20][21]，我坚信，这是一个未来工作研究的重要方向。

参考文献：

[1] A Survey ofRecent Advances in Face Detection Cha Zhang and Zhengyou Zhang June 2010 TechnicalReport MSR-TR-2010-66 Microsoft Research

[2] A Survey onFace Detection in the wild: past, present and future Stefanos Zafeiriou, ChaZhang, Zhengyou Zhang

[3] Joint CascadeFace Detection and Alignment. ECCV 2014. D. Chen, S. Ren, Y. Wei, X. Cao, J.Sun.

[4] The fastestdeformable part model for object detection J. Yan, Z. Lei, L. Wen, S. Z.Li,

[5] Face detectionwithout bells and whistles. ECCV 2014. M. Mathias, R. Benenson, M. Pedersoliand L. Van Gool.

[6] A Method forObject Detection Based on Pixel Intensity Comparisons Organized in DecisionTrees. CoRR 2014. N. Markus, M. Frljak, I. S. Pandzic, J. Ahlberg and R.Forchheimer.

[7] Aggregatechannel features for multi-view face detection.. B. Yang, J. Yan, Z. Leiand S. Z. Li.

[8] AConvolutional Neural Network Cascade for Face Detection. H. Li , Z. Lin ,X. Shen, J. Brandt and G. Hua.

[9] Multi-viewFace Detection Using Deep Convolutional Neural Networks. S. S. Farfade,Md. Saberian and Li-Jia Li

[10] FaceDetection with a 3D Model. A. Barbu, N. Lay, G. Gramajo.

[11] M.-H. Yang,D. J. Kriegman, N. Ahuja, Detecting faces in images: A survey, IEEE Trans. onPAMI 24 (1) (2002) 34–58.

[12] E. Hjelmas,B. K. Low, Face detection: A survey, Computer Vision and Image Understanding 83(2001) 236–274.

[13] N. Dalal, B.Triggs, Histogram of oriented gradients for human detection, in: Proc. of CVPR,2005.

[14] M. Mathias,R. Benenson, M. Pedersoli, L. V. Gool, Face detection without bells andwhistles, in: ECCV, 2014.

[15] D. Chen, S.Ren, Y. Wei, X. Cao, J. Sun, Joint cascade face detection and alignment, in:European Conference on Computer Vision (ECCV) 2014, 2014.

[16] P.-A.Savalle, S. Tsogkas, G. Papandreou, I. Kokkinos, Deformable part models withcnn features, in: 3rd Parts and Attributes Workshop, ECCV, Vol. 8.

[17] R. Girshick,F. Iandola, T. Darrell, J. Malik, Deformable part models are convolutionalneural networks, arXiv preprint arXiv:1409.5403.

[18] Y. Dupuis, X.Savatier, J.-Y. Ertaud, P. Vasseur, Robust radial face detection foromnidirectional vision, Image Processing, IEEE Transactions on 22 (5) (2013)1808–1821.

[19] V. Jain, E.Learned-Miller, Online domain adaptation of a pre-trained cascade ofclassifiers, in: Computer Vision and Pattern Recognition (CVPR), 2011 IEEEConference on, IEEE, 2011, pp. 577–584.

[20] C. Huang, H.Ai, T. Yamashita, S. Lao, M. Kawade, Incremental learning of boosted facedetector, in: Proc. of ICCV, 2007.

[21] C. Zhang, R.Hamid, Z. Zhang, Taylor expansion based classifier adaptation: Application toperson detection, in: Proc. of CVPR, 2008.