- 首先是数据集的准备。人脸数据好说,非人脸数据怎么准备呢?可以找一些有人脸的图片作为训练集,目的是使得分类器在这些训练集中的误判率(falsepositiverate)最小。穷举出所有的扫描框会扫到的子图片不太现实,因为这样数据量实在是太大了。我这里先随机采样一些图片,然后用这些图片作为非人脸数据,学习出一个分类器,然后再用这个分类器去测试训练集,把误判的数据收集起来,和前面的非人脸数据混合起来,再训练。训练过程中我发现,第一次随机采样的数据很好分类,很快就能训练出一个分类器,越到后面,数据越不好分,训练的时间也越久。原文说他们第一次的分类器采用了两个弱分类器就能过滤掉50%的非人脸数据,其实这句话是没有意义的,并不能说明它的分类器好,只能说明它的数据集比较弱。
- 数据噪音问题:在训练的过程中,数据刚开始还比较容易分类,前面几层AdaBoost能过滤掉大半部分的非人脸数据,但是到了后面,每层AdaBoost能过滤掉的非人脸数据就很少了(因为每层AdaBoost分类器要保证人脸分对的几率在99.9%以上)。后来我查看了数据,发现人脸数据集中有一些非人脸数据,并且非人脸数据集中有一些人脸。这就是数据噪音。可以考虑先过滤掉噪音再进行训练。其实在多层次的AdaBoost训练过程中,每层过滤出来的人脸数据差不多就是质量不好的,里面也会包含噪音。训练到最后很难过滤掉的非人脸数据,也往往包含了大量的噪音数据。可以通过多次的快速训练(调节参数使其训练速度加快),来过滤掉这些噪音数据。
- 每一层AdaBoost的弱分类器数量:理论上弱分类器的数量可以根据检测率和误判率来确定,但是这样确定出来的数量往往偏小。虽然这样分类速度会很快,由于这里每一个弱分类器就代表了一个HaarFeature,Feature过少的话,即使训练集上误差很小,测试的时候,分类能力也很弱。这里可以人为的制定一些策略,比如某层的弱分类器数量有个下限之类的,来权衡速度与分类能力。
- 理想的情况下,一个人脸只响应一个扫描框。但是实际情况是,人脸附近可能会响应几个扫描框。这就需要合并这些扫描框。合并的策略也是很多的,简单的可以通过重叠率来合并,也可以通过聚类方法合并。但是要考虑到速度问题,我采用了重叠率的计算来合并,简单快速。
- 训练过程中,最好能可视化一些中间结果。一来可以检测代码实现是否有Bug,二来也可以通过这些中间结果,来帮助自己更好的理解这个算法的过程。比如每层过滤掉的人脸和非人脸数据,每层AdaBoost选择了哪些Feature,每层AdaBoost的误判率是多少等等。其中特别是Feature的选择,不同的训练集,选择出来的Feature是不一样的。如果训练集里的人脸对齐的比较好,那么HaarFeature的矩形块会比较大,如果人脸对齐不好或者颜色差异大,那么HaarFeature的矩形框会比较的窄小。仔细想想,好像确实是这样。
- HaarFeature的选择:穷举出所有可能的Feature,计算量和存储量会比较大,可以考虑均匀采样出可接受的数量的Feature。采样也可以加入一些随机性。采样也会影响弱分类器数量的选择,因为采样的缘故,可能某些好的Feature没有采样到,那么在增加弱分类器数量之前可以考虑尝试多次采样不同的Feature来训练。训练过程中我发现,多次尝试不同的采样结果确实是有帮助的。另外HaarFeature的矩形框不能太小,不然在计算多分辨率的时候,Feature值误差会比较大。
下面贴上一个结果: