实时人脸检测 (Real-Time Face Detection)

最新推荐文章于 2024-04-20 10:04:13 发布

mydear_11000

最新推荐文章于 2024-04-20 10:04:13 发布

阅读量4k

点赞数 1

最近需要用到人脸检测，于是找了篇引用广泛的论文实现了一下：Robust Real-TimeFace Detection。实现的过程主要有三个步骤：人脸数据准备，算法实现，算法调试。

人脸数据集的准备：网上有很多免费的和付费的。比如这里有个网页介绍了一些常用的人脸数据库。我这里只是人脸检测（不是人脸识别），只要有人脸就可以了，所以我下载了几个数据集，然后把它们混在一起用（后面也因此产生了一些问题）。

算法大意很简单：可以把它看作是一个二分类的问题。给定一张图片后，程序会用一个矩形框扫描整张图片，然后每次判断当前矩形框是不是人脸。

方法的核心在于扫描框的分类。这里采用了AdaBoost的学习方法。AdaBoost的思想是，把一些简单的弱分类器组合起来得到一个强大的分类器。学习过程中，每个弱分类器会根据数据学到一个权重，一般由它的分类误差来确定，误差越小，权重越大。数据也有权重，根据每次弱分类器的分类结果来定，比如当前分错的数据权重需要增加。

因为AdaBoost由很多弱分类器构成，理论上弱分类器越多，分类能力越强，但是计算量也更大。由于实时性的要求，这里采用了分层的思想：训练出多层的AdaBoost分类器，层次靠前的分类器包含的弱分类器数量少一些。这是一个树结构。每层的AdaBoost分类器会过滤掉非人脸数据，只有完全通过的数据才会判定为人脸。

大致步骤理解起来很容易，实现过程中也会遇到很多参数需要调节，下面就我遇到的一些问题做一些讨论：

首先是数据集的准备。人脸数据好说，非人脸数据怎么准备呢？可以找一些有人脸的图片作为训练集，目的是使得分类器在这些训练集中的误判率(falsepositiverate)最小。穷举出所有的扫描框会扫到的子图片不太现实，因为这样数据量实在是太大了。我这里先随机采样一些图片，然后用这些图片作为非人脸数据，学习出一个分类器，然后再用这个分类器去测试训练集，把误判的数据收集起来，和前面的非人脸数据混合起来，再训练。训练过程中我发现，第一次随机采样的数据很好分类，很快就能训练出一个分类器，越到后面，数据越不好分，训练的时间也越久。原文说他们第一次的分类器采用了两个弱分类器就能过滤掉50%的非人脸数据，其实这句话是没有意义的，并不能说明它的分类器好，只能说明它的数据集比较弱。
数据噪音问题：在训练的过程中，数据刚开始还比较容易分类，前面几层AdaBoost能过滤掉大半部分的非人脸数据，但是到了后面，每层AdaBoost能过滤掉的非人脸数据就很少了（因为每层AdaBoost分类器要保证人脸分对的几率在99.9％以上）。后来我查看了数据，发现人脸数据集中有一些非人脸数据，并且非人脸数据集中有一些人脸。这就是数据噪音。可以考虑先过滤掉噪音再进行训练。其实在多层次的AdaBoost训练过程中，每层过滤出来的人脸数据差不多就是质量不好的，里面也会包含噪音。训练到最后很难过滤掉的非人脸数据，也往往包含了大量的噪音数据。可以通过多次的快速训练（调节参数使其训练速度加快），来过滤掉这些噪音数据。
每一层AdaBoost的弱分类器数量：理论上弱分类器的数量可以根据检测率和误判率来确定，但是这样确定出来的数量往往偏小。虽然这样分类速度会很快，由于这里每一个弱分类器就代表了一个HaarFeature，Feature过少的话，即使训练集上误差很小，测试的时候，分类能力也很弱。这里可以人为的制定一些策略，比如某层的弱分类器数量有个下限之类的，来权衡速度与分类能力。
理想的情况下，一个人脸只响应一个扫描框。但是实际情况是，人脸附近可能会响应几个扫描框。这就需要合并这些扫描框。合并的策略也是很多的，简单的可以通过重叠率来合并，也可以通过聚类方法合并。但是要考虑到速度问题，我采用了重叠率的计算来合并，简单快速。
训练过程中，最好能可视化一些中间结果。一来可以检测代码实现是否有Bug，二来也可以通过这些中间结果，来帮助自己更好的理解这个算法的过程。比如每层过滤掉的人脸和非人脸数据，每层AdaBoost选择了哪些Feature，每层AdaBoost的误判率是多少等等。其中特别是Feature的选择，不同的训练集，选择出来的Feature是不一样的。如果训练集里的人脸对齐的比较好，那么HaarFeature的矩形块会比较大，如果人脸对齐不好或者颜色差异大，那么HaarFeature的矩形框会比较的窄小。仔细想想，好像确实是这样。
HaarFeature的选择：穷举出所有可能的Feature，计算量和存储量会比较大，可以考虑均匀采样出可接受的数量的Feature。采样也可以加入一些随机性。采样也会影响弱分类器数量的选择，因为采样的缘故，可能某些好的Feature没有采样到，那么在增加弱分类器数量之前可以考虑尝试多次采样不同的Feature来训练。训练过程中我发现，多次尝试不同的采样结果确实是有帮助的。另外HaarFeature的矩形框不能太小，不然在计算多分辨率的时候，Feature值误差会比较大。

训练过程中，我觉得数据和Feature的选择是很重要的。这里用的HaarFeature，很简单，同样分类能力也是受限的，比如人脸的姿态，光照影响。要提升分类能力，一方面可以在数据上做文章，可以建立更多类型的数据集，比如正面人脸集，侧面人脸集，各种不同光照下的数据集。这么做局限性很大。另一方面可以设计出更好的Feature，或者是学习出更好的Feature（FeatureLearning）。最后，这个算法实现的源代码在https://github.com/liguocn/MagicLib里的RealTimeFaceDetection.h/.cpp里面。

下面贴上一个结果: