Viola-Jones人脸检测详解

最新推荐文章于 2020-09-21 21:12:01 发布

吃瓜群众110

最新推荐文章于 2020-09-21 21:12:01 发布

阅读量1.6w

点赞数 25

分类专栏：计算机视觉文章标签： Viola-Jones人脸检测级联分类器 Haar

本文链接：https://blog.csdn.net/h763247747/article/details/102295610

版权

计算机视觉专栏收录该内容

18 篇文章

订阅专栏

Viola-Jones算法是一种经典的人脸检测方法，利用Haar特征和Adaboost算法，实现高效快速的正面人脸图像检测。文章深入介绍了算法原理，包括特征描述、积分图像、特征选择及级联分类器的训练过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在人脸检测中，Viola-Jones算法是一种非常经典的算法，该算法在2001年的CVPR上提出，因其高效快速的检测而被广泛使用。

这个算法用来检测正面的人脸图像，对于侧脸图像的检测不是很稳健。

算法可以被分为以下几个部分：

利用Haar特征描述人脸特征
建立积分图像，利用该图像快速获取几种不同的矩形特征
利用Adaboost算法进行训练
建立层级分类器
非极大值抑制

1 利用Haar特征描述人脸特征

人脸有一些特征，一张正脸图像中，人眼睛区域会比脸颊区域暗，嘴唇区域也会比四周的区域暗，但鼻子区域会比两边脸颊要亮。

基于这些特征，VJ使用了四种矩形特征，如下图所示

这里写图片描述

其中A，B为边界特征，C为细线特征，D为对角线特征

那么，Haar特征是如何作用于正脸图像的呢？

这里写图片描述

如上图所示，Haar特征分别对白色区域和黑色区域的像素求和，然后求这两种和的差；

这可以通过图像卷积实现。

2 积分图像

对于积分图像中的任何一点，该点的积分图像值等于位于该点左上角所有像素之和

表达式如下：

$s(x,y)=\sum_{x'\leq x}\sum_{y'\leq y}f(x',y')$

积分图像满足如下公式：

$s(x,y)=f(x,y)+s(x-1,y)+s(x,y-1)-s(x-1,y-1)$

积分图像同时还满足：

上图为一张原始图像，其标示了四个区域：A, B , C ,D

1 处像素点对应的在积分图像中的值为：sum(A);

2 处像素点对应的在积分图像中的值为：sum(A+B);

3 处像素点对应的在积分图像中的值为：sum(A+C);

4 处像素点对应的在积分图像中的值为：sum(A+B+C+D);

则：

区域D所有的像素点灰度值之和为：

sum(A+B+C+D) - sum(A+C) - sum(A+B) + sum(A)

3 获取图像特征

VJ在论文中提到，24*24大小的图像可以产生约160000个矩形特征，那么160000是怎么得到的呢？

VJ使用的矩形特征可以归为三类：

二邻接矩形，横竖两种情况，如矩形特征A，B，最少需要2个像素点表示

三邻接矩形，如矩形特征C，最少需要3个像素点表示，也有横竖两种情况

四邻接矩形，如矩形特征D，最少需要4个像素点表示，只有一种情况

对于24*24大小的图像，每种邻接矩形可能的大小为：

二邻接矩形（最小1*2）：长度每次加2，宽度加1

1*2，1*4，1*6，...1*24

2*2，2*4，2*6，...，2*24

...

24*24

三邻接矩形（最小1*3）：长度加3，宽度加1

1*3，1*6，1*9，...1*24

2*3，2*6，2*9，...，2*24

...

24*24

四邻接矩形（最小2*2）：长度加2，宽度加2

2*2，2*4，2*6，...1*24

4*2，4*4，4*6，...4*24

...

24*24

根据图像卷积，一个W*H的图像与m*n的filter卷积，得到的图像大小为：（W-m+1）*（H-n+1）(默认stride为1)

新图像的每一个像素点的值就是原图一个m*n的local patch 与m*n的filter的乘积和。

新图像有多少个像素点，原图就有多少个m*n的矩形。

这么多矩形，可以通过编程算出，借用未雨绸缪的代码。

这段代码中，横竖矩形窗口的数量是一样的，代码里只计算一种，然后乘以2就行了。

import numpy as np

a = np.zeros((3, 2), dtype=int) 
Count = np.zeros(3, dtype=int) 
a[0, :] = [1, 2]
a[1, :] = [1, 3]
a[2, :] = [2, 2]
Img_size = 24

for ii in range(3):
    rec_h = a[ii, 0]
    rec_w = a[ii, 1]
    for xx in range(rec_h, Img_size+1, rec_h):
        for yy in range(rec_w, Img_size+1, rec_w):
            Count[ii] = Count[ii]+(Img_size-xx+1)*(Img_size-yy+1)
    print Count[ii]

Total = Count[0]*2+Count[1]*2+Count[2]
print ("Total: ", Total)

最后可以得到：

二邻接矩形：43200

三邻接矩形：27600

四邻接矩形：20736

最终总的矩形特征为：43200×2+27600×2+20736=162336

所以一个24*24的图像最终可以产生162336个矩形特征。

并不是所有特征都是有用的，那么如何提取出有用的特征呢？

AdaBoost特征分类器具有特征选择的能力。

4 利用AdaBoost算法进行训练

4.1 AdaBoost分类器

AdaBoost 将一系列的弱分类器通过线性组合，构成一个强分类器，如下所示：

$h(x)$ 是一个强分类器， $h_j(x)$ 是一个弱分类器，其为一个简单的阈值函数：

$\theta _j$ 为阈值， $s_j\in \left\{-1,1 \right\}$ ， $\alpha _j$ 为系数。

4.2 训练弱分类器

计算所有训练样本的特征值，并将其从小到大排序，随机选取一个特征值作为阈值，

把所有元素分为两部分，小于阈值的一部分分类为人脸，大于阈值的一部分分类为非人脸。

如下图所示，红色表示人脸，蓝色表示非人脸。

假如有5个样本，前两个为人脸，后三个为非人脸，用11000表示。

如果阈值在第一个之前，通过弱分类器判定为：00000，有两个误差，

如果阈值在第一个和第二个之间，通过弱分类器判定为：10000，有1个误差，

如果阈值在第二个和第三个之间，通过弱分类器判定为：11000，有0个误差，

依次类推，这样共有6个误差，然后从中找到一个误差最小的当成阈值，

这样就训练好了一个最优的弱分类器。

4.3 训练强分类器

假设有N个训练样本 $(x^i,y^i)$ ,其中有 $m$ 个正样本， $l$ 个负样本，如果 $x^i$ 是人脸图像，

则 $y^i=1$ , 否则 $y^i=-1$

其步骤如下：

每一级分类器使用的训练集中的负样本，都是上一级被错分的，即false positive，误检率或假阳性。

这使得下一级分类器更加关注那些更难的（容易被错分的）样本。

5 级联分类器（cascade of classifiers）

在正常的图像中，人脸区域只是占了很小的一部分，如果使用所有的特征进行训练的话，运算量非常大。

级为了简化任务，把若干个adaboost 分类器级联起来，一开始使用少量的特征将大部分的非人脸区域剔除掉，后面再利用更复杂的特征将更复杂的非人脸区域剔除掉。

这里写图片描述

如果级联分类器的识别率(true positive rate)为D，误识率（false positive rate）为F,

第 $i$ 层的分类器的识别率为 $d_i$ , 误识率为 $f_i$ ,

则：

$D=\prod_{i=1}^{K}d_i$

$F=\prod_{i=1}^{K}f_i$

其中： K 为分类器的个数

假如每一级的分类器，都具有非常高的检测率（99.9%），

同时误检率也保持相当高（50%）。

那么，如果级联20个这样的小adaboost分类器，

人脸的识别率有：

但是误检率有：

5.1 级联分类器的训练

论文中给出了一种很有效的方法

设定每一层最大的可接受误检率 f, 和每一层最小的检测率 d.
设定级联分类器的总体误检率 $F_{target}$
初始化总体误检率为 $F_{target}=1$ ，识别率 $D=1$ ，循环计数器 i=0
循环，如果当前 F 大于 $F_{target}$ 时，继续增加一层adaboost分类器
在训练每一层分类器时，如果目前该层的特征没有达到该层的 $f_i$ 标准，继续添加新的特征。添加新特征时，持续降低该特征的阈值(一般而言，高阈值的分类器的检测率和误检率都会比较低)，直到该层分类器的检测率 $d_i>d$ ,然后更新 $D_i=d_i*D_{i-1}$