Viola-Jones人脸检测详解

在人脸检测中,Viola-Jones算法是一种非常经典的算法,该算法在2001年的CVPR上提出,因其高效快速的检测而被广泛使用。

这个算法用来检测正面的人脸图像,对于侧脸图像的检测不是很稳健。

算法可以被分为以下几个部分:

  • 利用Haar特征描述人脸特征
  • 建立积分图像,利用该图像快速获取几种不同的矩形特征
  • 利用Adaboost算法进行训练
  • 建立层级分类器
  • 非极大值抑制

1 利用Haar特征描述人脸特征

人脸有一些特征,一张正脸图像中,人眼睛区域会比脸颊区域暗,嘴唇区域也会比四周的区域暗,但鼻子区域会比两边脸颊要亮。

基于这些特征,VJ使用了四种矩形特征,如下图所示

这里写图片描述

其中A,B为边界特征,C为细线特征,D为对角线特征

那么,Haar特征是如何作用于正脸图像的呢?

这里写图片描述

如上图所示,Haar特征分别对白色区域和黑色区域的像素求和,然后求这两种和的差;

这可以通过图像卷积实现。

 

2 积分图像

对于积分图像中的任何一点,该点的积分图像值等于位于该点左上角所有像素之和

表达式如下:

s(x,y)=\sum_{x'\leq x}\sum_{y'\leq y}f(x',y')

积分图像满足如下公式:

s(x,y)=f(x,y)+s(x-1,y)+s(x,y-1)-s(x-1,y-1)

积分图像同时还满足:

上图为一张原始图像,其标示了四个区域:A, B , C ,D

1 处像素点对应的在积分图像中的值为:sum(A);

2 处像素点对应的在积分图像中的值为:sum(A+B);

3 处像素点对应的在积分图像中的值为:sum(A+C);

4 处像素点对应的在积分图像中的值为:sum(A+B+C+D);

则:

区域D所有的像素点灰度值之和为:

sum(A+B+C+D) - sum(A+C) - sum(A+B) + sum(A)
 

3 获取图像特征

VJ在论文中提到,24*24大小的图像可以产生约160000个矩形特征,那么160000是怎么得到的呢?

VJ使用的矩形特征可以归为三类:

二邻接矩形,横竖两种情况,如矩形特征A,B,最少需要2个像素点表示

三邻接矩形,如矩形特征C,最少需要3个像素点表示,也有横竖两种情况

四邻接矩形,如矩形特征D,最少需要4个像素点表示,只有一种情况

对于24*24大小的图像,每种邻接矩形可能的大小为:

二邻接矩形(最小1*2):长度每次加2,宽度加1

1*2,1*4,1*6,...1*24

2*2,2*4,2*6,...,2*24

...

24*24

三邻接矩形(最小1*3):长度加3,宽度加1

1*3,1*6,1*9,...1*24

2*3,2*6,2*9,...,2*24

...

24*24

四邻接矩形(最小2*2):长度加2,宽度加2

2*2,2*4,2*6,...1*24

4*2,4*4,4*6,...4*24

...

24*24

根据图像卷积,一个W*H的图像与m*n的filter卷积,得到的图像大小为:(W-m+1)*(H-n+1)(默认stride为1)

新图像的每一个像素点的值就是原图一个m*n的local patch 与m*n的filter的乘积和。

新图像有多少个像素点,原图就有多少个m*n的矩形。

这么多矩形,可以通过编程算出,借用未雨绸缪的代码。

这段代码中,横竖矩形窗口的数量是一样的,代码里只计算一种,然后乘以2就行了。

import numpy as np

a = np.zeros((3, 2), dtype=int) 
Count = np.zeros(3, dtype=int) 
a[0, :] = [1, 2]
a[1, :] = [1, 3]
a[2, :] = [2, 2]
Img_size = 24

for ii in range(3):
    rec_h = a[ii, 0]
    rec_w = a[ii, 1]
    for xx in range(rec_h, Img_size+1, rec_h):
        for yy in range(rec_w, Img_size+1, rec_w):
            Count[ii] = Count[ii]+(Img_size-xx+1)*(Img_size-yy+1)
    print Count[ii]

Total = Count[0]*2+Count[1]*2+Count[2]
print ("Total: ", Total)

最后可以得到:

二邻接矩形:43200

三邻接矩形:27600

四邻接矩形:20736

最终总的矩形特征为:43200×2+27600×2+20736=162336

所以一个24*24的图像最终可以产生162336个矩形特征。

并不是所有特征都是有用的,那么如何提取出有用的特征呢?

AdaBoost特征分类器具有特征选择的能力。

 

4 利用AdaBoost算法进行训练

4.1 AdaBoost分类器

AdaBoost 将一系列的弱分类器通过线性组合,构成一个强分类器,如下所示:

h(x)是一个强分类器,h_j(x)是一个弱分类器,其为一个简单的阈值函数:

\theta _j为阈值,s_j\in \left\{-1,1 \right\}\alpha _j为系数。

4.2 训练弱分类器

计算所有训练样本的特征值,并将其从小到大排序,随机选取一个特征值作为阈值,

把所有元素分为两部分,小于阈值的一部分分类为人脸,大于阈值的一部分分类为非人脸。

如下图所示,红色表示人脸,蓝色表示非人脸。

假如有5个样本,前两个为人脸,后三个为非人脸,用11000表示。

如果阈值在第一个之前,通过弱分类器判定为:00000,有两个误差,

如果阈值在第一个和第二个之间,通过弱分类器判定为:10000,有1个误差,

如果阈值在第二个和第三个之间,通过弱分类器判定为:11000,有0个误差,

依次类推,这样共有6个误差,然后从中找到一个误差最小的当成阈值,

这样就训练好了一个最优的弱分类器。

4.3 训练强分类器

假设有N个训练样本(x^i,y^i),其中有m个正样本,l个负样本,如果x^i是人脸图像,

y^i=1, 否则y^i=-1

其步骤如下:

每一级分类器使用的训练集中的负样本,都是上一级被错分的,即false positive,误检率或假阳性。

这使得下一级分类器更加关注那些更难的(容易被错分的)样本。

 

5 级联分类器(cascade of classifiers)

在正常的图像中,人脸区域只是占了很小的一部分,如果使用所有的特征进行训练的话,运算量非常大。

级为了简化任务,把若干个adaboost 分类器级联起来,一开始使用少量的特征将大部分的非人脸区域剔除掉,后面再利用更复杂的特征将更复杂的非人脸区域剔除掉。

这里写图片描述

如果级联分类器的识别率(true positive rate)为D,误识率(false positive rate)为F, 

第 i 层的分类器的识别率为d_i, 误识率为f_i,

则:

D=\prod_{i=1}^{K}d_i

F=\prod_{i=1}^{K}f_i

其中: K 为分类器的个数

假如每一级的分类器,都具有非常高的检测率(99.9%),

同时误检率也保持相当高(50%)。

那么,如果级联20个这样的小adaboost分类器,

人脸的识别率有:

但是误检率有:

5.1 级联分类器的训练

论文中给出了一种很有效的方法

  • 设定每一层最大的可接受误检率 f, 和每一层最小的检测率 d.
  • 设定级联分类器的总体误检率F_{target}
  • 初始化总体误检率为F_{target}=1,识别率D=1,循环计数器 i=0
  • 循环,如果当前 F 大于 F_{target} 时,继续增加一层adaboost分类器
  • 在训练每一层分类器时,如果目前该层的特征没有达到该层的 f_i 标准,继续添加新的特征。添加新特征时,持续降低该特征的阈值(一般而言,高阈值的分类器的检测率和误检率都会比较低),直到该层分类器的检测率d_i>d,然后更新D_i=d_i*D_{i-1}

在论文中,VJ分类器一共有38层,含有6060个特征,前7层的特征数为:2->10->25->25->50->50->50

 

6 非极大值抑制(NMS)

在人脸识别中,一张脸会出现非常多的窗口,如下图所示:

假设有N个窗口,根据分类器的分类概率从小到大排序,概率最大的框记为Z

非极大值抑制的工作步骤如下:

  • 从最大概率矩形框Z开始,分别判断其它框与X框的重叠度是否大于设定的阈值
  • 假设其中的B,C框超过了阈值,就扔掉B,C,并保留Z框
  • 从剩下的矩形框中,选择概率最大的(假设为Y),然后判断其它框与X框的重叠度是否大于设定的阈值,大于扔掉,并保留框Y
  • 一直重复这个过程,直到最后一个框

论文中有些地方不够详细,可能比较符合微软研究院的风格吧。

相关链接

论文传送门:Viola-Jones人脸检测

AdaBoost算法:集成算法-AdaBoost

 

本文参考了论文原文和网上的资料,是笔者自己对Viola-Jones算法的理解,可能会有些偏差,请读者指正。

  • 25
    点赞
  • 138
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值