Integral Channel Features; Piotr Dollar、Zhuowen Tu; BMVC2009;
积分通道特征的主要思想是:通过对输入图像进行线性和非线性的变换,比如局部求和、直方图、Haar结构特征,它们的特征便可以通过积分图快速计算出来。1)和HOG比,具有较快的速度以及较好的检测性;2)与DPM比,虽然性能上有一定的差距,但是速度较快,设计简单。其核心思想就是从海量的特征中用AdaBoost选择具有区分力的特征。
给定一个输入图像,它的通道是对应于输入图像的输出响应。对于灰度图像,它的通道便是原图本身。而对于彩色图像,它的每个颜色都是一个通道(RGB三通道)。其他通道可以通过线性和非线性的计算得出。
通道类型
1.灰度与颜色
最简单的通道就是原图本身的灰度图。也可以是颜色通道,如图b(三通道特征LUV)。
2.线性滤波
通过线性变换而得到通道。将原图跟四个不同方向的Gabor滤波器进行卷积得到通道,每一个通道都包含了不同方向的边缘信息(如图c)。如果将原图和Difference of Gaussian (DoG)滤波器进行卷积,将得到(如图d)含有不同尺度的纹理信息的通道。
3.非线性变换
(1)梯度幅度(图e),捕捉边缘强度;(2)canny边缘(图f),更明确的计算边缘信息
而彩色图片,需要分别在三个颜色通道上计算梯度,使用最大响应作为最后输出。
图l则是利用了两个不同的阈值对图像进行二值化得到的通道信息。
4.逐点变换
在一个通道中的每个像素可以由任意一个函数来后加工进行变换。这可用来克服特征f必须是矩形区域内像素值之和的限制。
5.积分直方图
提出用积分图来计算直方图。详见论文。
6.梯度直方图
梯度直方图HOG是一个加权直方图。它的权值是通过梯度的幅值计算而来的。
The Fastest Pdestrian Detector in the West;Piotr Dollar、Serge Belongie、Pietro Perona;BMVC2010;
第二篇论文在第一篇上做了改进。
文章的主要思想都建立在一个点上:文章的主要思想都建立在一个点上:相邻尺度的积分通道特征之间存在一定的相似性,可以通过用邻近的的特征逼近计算出来。每个Octave内可以只计算其中一个标准模型的通道特征,其余的通道特征通过该计算结果的特征逼近计算得到。这样准确度和速度都得到了提高。
1.近似的多尺度直方图
(1)上采样图像的梯度直方图
上采样的图像和原始图像的直观信息内容是一样的。上采样图像并没有加入新的图像结构。假设I是原始图像,Ik是上采样图像。那么在x方向的导数是
,同理y方向。简单地说,这里可以看到上采样图像的梯度变化倍率比原始图像要慢k倍。所以,这可以表示为上采样离散图像的梯度幅值
。那么可以得出以下:
结合直方图的定义可以得出,上采样某一区域内的梯度之和是其对应原始区域梯度之和的k倍。
下图为文章实验得出的概率分布,符合预期.(k=2)
(2)下采样图像的梯度直方图
和上采样图像不同,下采样图像的高频信息通常都是丢失的。但是文章中发现信息丢失有一致性,所以是可以弥补的。
下图给出分别给出了上采样图像、原始图像以及下采样图像在8个方向的梯度直方图,可以看出前两个图像的直方图基本一致,第三个图像存在较大的差别,主要原因是由于第三个图像中含有的大量高频信息,在下采样过程中丢失了。
2.近似的多尺度特征
文中提到可以推导出预测上采样图像的梯度直方图的表达式,但是下采样不能。但是我们可以近似梯度直方图,逼近特征。这里主要讲多尺度的特征逼近。
首先定义概念:通道图像是原始图像的一个映射记为。C中的输出像素是通过I中的输入像素的相应补丁计算得到的。因此保持了整体布局不变性。简单地,我们定义特征是通道图像C的区域总和
。而
代表着图像I在
倍下采样图像中得到的图像特征。
(1)指数尺度法则
该文章认为下采样图像特征与原始图像特征的差别与原始图像的尺度无关,仅与原始图像和下采样图像之间的相对尺度有关。因此预期值只和他们的相对尺度
有关。
因此预期值只和他们的相对尺度
有关。那么我们便可以分析出,存在一个方法r(s)使得
。如果r是连续函数并且非0,那么可以推导出
,即得到
。
那么每个通道都有自己相应的λ。根据上面的公式,对于给定,我们可以得到
。
(2)估算λ
为了估算λ,我们先计算,令
。下图就是在下采样过程中,随着S的增大的梯度直方图。我们可以看出起始点不是从(0,1)开始的,这可能是因为当时虽然图像大小没变,但是使用了双线性差值对图像进行了平滑。根据实验可以看到
。根据公式
和曲线我们可以得出a和λ。
下图是其他三种通道的曲线规律图,每种通道都有不同的λ值。
(3)近似精度
作者已经通过上述实验证明了公式1适应于不同通道类型的图像。然后作者开始验证公式2。根据实验结果,上述图的下部分的曲线。当s小于等于1的时候,是基本满足于各种类型的通道的。
3.快速的多尺度检测