10年后再看Robust Real-Time Face Detection(二) 之特征讨论

最新推荐文章于 2024-04-22 15:04:50 发布

JUAN425

最新推荐文章于 2024-04-22 15:04:50 发布

阅读量2.1k

点赞数

文章标签：人脸检测计算机视觉

再该篇论文中选择了三种矩形特征（Rectangle features ）。这三种特征相比于steerable filters特征而言，在边缘分析，图像压缩，纹理方面得到的结果比较粗糙。其中一个原因是矩形特征只有三种方向。也就是水平方向，竖直方向，对角线方向。由于我们根据的矩形特征获得的特征集合特征元素之间并不要求正交的条件，所有我们得到的特征集合的大小是相当巨大的。因为我们得到的特征向量的维数太大了，有很多维度的特征值是没有必要存在的。也就是过完备的。通常情况下，这种表示（representation）冗余了400 倍。

从经验上来看，这种丰富的矩形特征表达似乎是支持了我们的学习算法的高效性。对于一个小小的窗口，我们得到了巨大的矩形特征个数，尽管这的确可以算是一种缺陷（Limitations）, 然而由于各个矩形特征值在计算上的高效性足以补偿掉这种数目巨大所带来（时间上补偿）的缺陷。为了说明计算矩形特征的高效性，我们下面举一个例子（这也从侧面反映了积分图的优雅，简单，高效性，经典）。

根据论文所说，之前许多人脸检测系统，都是首先计算出给定的原始图像的得到金字塔图像，论文中提到， 12幅多尺度图像 (1.25倍尺度减小)。然后利用一个固定大小检测子对每一幅多尺度的图像进行扫描，计算特征。可是Viola Jones的方法却别具一格。他采用的方法是首先确定检测子的大小24x24，这个尺度的检测子就是我们的人脸基检测子。去扫描整幅384x 288的图像。然后对检测子增大1.25倍，这样我们的检测子（或者子窗口）的尺度变为36x36大小(也就是（24 x 3/2 x 24 x 3/2）)，保持我们的图像尺寸大小不变（还是384x288），然后在扫描这样同一幅图像。循环做了12次为止。比较上面两种方法，我们不难看出，传统的方法中，在计算输入图像的金字塔多尺度图像时，会耗费大量的时间。这也是Viola Jones 对实时性的有一大保证。正如文中所说Any procedure which requires a pyramid of this type will necessarily run slower than our detector. 这就是积分图带来的巨大好处。