人脸检测算法综述

SIGAI_csdn

于 2018-06-20 19:41:32 发布

阅读量1.4w

点赞数 18

文章标签：机器学习深度学习算法

本文链接：https://blog.csdn.net/SIGAI_CSDN/article/details/80751476

版权

这篇博客概述了人脸检测算法的演化，从早期的模板匹配和机器学习算法，如AdaBoost框架下的Viola-Jones方法，到深度学习时代的DPM模型和基于CNN的Cascade CNN、DenseBox、MTCNN等方法。博客讨论了各种算法的优缺点，强调了深度学习在提升检测精度和处理小目标人脸方面的进步。最后，提到了如SSH和PyramidBox等最新进展，这些方法通过结合上下文信息和多尺度检测进一步优化了人脸检测的性能。

摘要由CSDN通过智能技术生成

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》，清华大学出版社，雷明著，由SIGAI公众号作者倾力打造。

导言
人脸检测是目前所有目标检测子方向中被研究的最充分的问题之一，它在安防监控，人证比对，人机交
互，社交和娱乐等方面有很强的应用价值，也是整个人脸识别算法的第一步。在本文中，SIGAI将和大
家一起回顾人脸检测算法的整个发展历史。

问题描述

人脸检测的目标是找出图像中所有的人脸对应的位置，算法的输出是人脸外接矩形在图像中的坐标，可能还包括姿态如倾斜角度等信息。下面是一张图像的人脸检测结果：

虽然人脸的结构是确定的，由眉毛、眼睛、鼻子和嘴等部位组成，近似是一个刚体，但由于姿态和表情的变化，不同人的外观差异，光照，遮挡的影响，准确的检测处于各种条件下的人脸是一件相对困难的事情。

人脸检测算法要解决以下几个核心问题：

 人脸可能出现在图像中的任何一个位置
 人脸可能有不同的大小
 人脸在图像中可能有不同的视角和姿态
 人脸可能部分被遮挡

评价一个人脸检测算法好坏的指标是检测率和误报率。我们将检测率定义为：

算法要在检测率和误报率之间做平衡，理想的情况是有高检测率，低误报率。

经典的人脸检测算法流程是这样的：用大量的人脸和非人脸样本图像进行训练，得到一个解决2类分类问题的分类器，也称为人脸检测模板。这个分类器接受固定大小的输入图片，判断这个输入图片是否为人脸，即解决是和否的问题。人脸二分类器的原理如下图所示：

由于人脸可能出现在图像的任何位置，在检测时用固定大小的窗口对图像从上到下、从左到右扫描，判断窗口里的子图像是否为人脸，这称为滑动窗口技术（sliding window）。为了检测不同大小的人脸，还需要对图像进行放大或者缩小构造图像金字塔，对每张缩放后的图像都用上面的方法进行扫描。由于采用了滑动窗口扫描技术，并且要对图像进行反复缩放然后扫描，因此整个检测过程会非常耗时。

由于一个人脸附件可能会检测出多个候选位置框，还需要将检测结果进行合并去重，这称为非极大值抑制（NMS）。多尺度滑动窗口技术的原理如下图所示：

典型应用

人脸检测是机器视觉领域被深入研究的经典问题，在安防监控、人证比对、人机交互、社交等领域都有重要的应用价值。数码相机、智能手机等端上的设备已经大量使用人脸检测技术实现成像时对人脸的对焦、图集整理分类等功能，各种虚拟美颜相机也需要人脸检测技术定位人脸，然后才能根据人脸对齐的技术确定人脸皮肤、五官的范围然后进行美颜。在人脸识别的流程中，人脸检测是整个人脸识别算法的第一步。

早期算法

我们将整个人脸检测算法分为3个阶段，分别是早期算法，AdaBoost框架，以及深度学习时代，在接下来将分这几部分进行介绍。

早期的人脸检测算法使用了模板匹配技术，即用一个人脸模板图像与被检测图像中的各个位置进行匹配，确定这个位置处是否有人脸；此后机器学习算法被用于该问题，包括神经网络，支持向量机等。以上都是针对图像中某个区域进行人脸-非人脸二分类的判别。

早期有代表性的成果是Rowley等人提出的方法[1][2]。他们用神经网络进行人脸检测，用20x20的人脸和非人脸图像训练了一个多层感知器模型。文献[1]的方法用于解决近似正面的人脸检测问题，原理如下图所示：

文献[2]的方法解决多角度人脸检测问题，整个系统由两个神经网络构成，第一个网络用于估计人脸的角度，第二个用于判断是否为人脸。角度估计器输出一个旋转角度，然后用整个角度对检测窗进行旋转，然后用第二个网络对旋转后的图像进行判断，确定是否为人脸。系统结构如下图所示：

Rowley的方法有不错的精度，由于分类器的设计相对复杂而且采用的是密集滑动窗口进行采样分类导致其速度太慢。

AdaBoost框架

接下来介绍AdaBoost框架之后的方法，boost算法是基于PAC学习理论（probably approximately correct）而建立的一套集成学习算法(ensemble learning)。其根本思想在于通过多个简单的弱分类器，构建出准确率很高的强分类器，PAC学习理论证实了这一方法的可行性，感谢大神Leslie-Valiant！！我们首先来看FDDB上各种检测算法的ROC曲线，接下来的介绍将按照这些ROC曲线上的算法进行展开。

在2001年Viola和Jones设计了一种人脸检测算法[10]。它使用简单的Haar-like特征和级联的AdaBoost分类器构造检测器，检测速度较之前的方法有2个数量级的提高，并且保持了很好的精度，我们称这种方法为VJ框架。VJ框架是人脸检测历史上第一个最具有里程碑意义的一个成果，奠定了基于AdaBoost目标检测框架的基础，所以作为重点和大家唠唠。

用级联AdaBoost分类器进行目标检测的思想是：用多个AdaBoost分类器合作完成对候选框的分类，这些分类器组成一个流水线，对滑动窗口中的候选框图像进行判定，确定它是人脸还是非人脸。

在这一系列AdaBoost分类器中，前面的强分类器设计很简单，包含的弱分类器很少，可以快速排除掉大量的不是人脸的窗口，但也可能会把一些不是人脸的图像判定为人脸。如果一个候选框通过了第一级分类器的筛选即被判定为人脸，则送入下一级分类器中进行判定，以此类推。如果一个待检测窗口通过了所有的强分类器，则认为是人脸，否则是非人脸。下图是分类器级联进行判断的示意图：