很多目标检测器需要对图像进行多尺度精细搜索,传统方法的瓶颈是对每个尺度分别计算特征,本文使用比较大的间隔octave计算特征,之后对octave之间的尺度特征进行推算,节省了多尺度特征计算的时间,将目标检测提到实时。
动机:目前的目标检测方法如DPM,通常需要使用多通道,精细尺度采样及增强的归一化方法提升准确率,导致计算量大大增加。自然场景图像存在碎片统计特征,可以用于不同尺度直接的结构预测。
多尺度梯度直方图对比实验
由一个问题引出,给定图像在某一尺度的梯度特征,能够估计临近尺度的梯度特征?
梯度直方图是图像梯度角度的分布,每个像素对梯度直方图投票,权值是梯度幅值。作者做了一个有趣的实验,将图像进行上采样和下采样2倍,统计重采样前后梯度直方图某个bin的幅值比例
rq=h′q/hq
的分布,统计结果如下图所示:
对于上采样,均值为2,即为上采样的倍数,对于下采样,均值为0.34,为常数,比采样倍数小的原因是损失了高频信息。对于归一化的直方图,下采样直方图幅值变化的比例均值为0.26。
多尺度特征统计学习
1. 特征尺度法则
用
Ω
表示低层位移不变函数,
C=Ω(I)
表示图像的不同通道,定义
fΩ(I)
为所有通道的加权和,即
fΩ(I)=∑ijkwijkC(i,j,k)
。令
Is
表示I在s尺度的表示,
Is
的维度
hs×ws
是I的s倍。
fΩ(Is)
如下定义:
根据Ruderman和Bialek提出的自然场景图像与尺度间的法则,并考虑将图像分成K个晓得图像块,
fΩ(Is1)
和
fΩ(Is2)
存在如下关系:
fΩ(Is1)/fΩ(Is2)=(s1/s2)−λΩ+ε
(4)
2. 估计
λ
为了估计给定不同通道
Ω
的
λΩ
,首先统计图像数据集特征随着尺度变换的均值:
μs=1N∑Ni=1fΩ(Iis)/fΩ(Ii1)
根据公式(4),
μs=s−λΩ+E[ε]
则
μs
应与
log2(s)
存在线性关系,不同特征的
λ
如下图所示
3. 单一图像偏差的幅值
E[ε2]
随着尺度变换的比之
s1/s2
增加而增加
快速特征金字塔
1. 特征通道缩放
使用R(I,s)表示图像I使用尺度s重采样,给定图像I的特征
C=Ω(I)
,仅使用C预测新尺度s对应的特征图像
Cs=Ω(Is)
。传统的方法是先缩放图像,再计算缩放后图像的特征。本文使用下述公式预测:
Cs≈R(C,s)⋅s−λΩ
(7)
下图显示了该方法的原理:
2. 快速特征金字塔
快速金字塔的原理如下图所示,传统的方法是先重采样图像,再计算每个尺度的特征。文中只在每个octave重采样图像计算特征,每个octave之间的尺度(4到12个尺度)对应的特征使用(7)式进行估计,使用octave进行估计的运算量是直接计算图像特征运算量的1/3。
目标检测器
1. Aggregated Channel Features(ACF)
给定一幅图像,计算几个通道
C=Ω(I)
,对C中的每个block求和,之后对低分辨率图像进行平滑处理。特征即是累积通道中单个像素的查找表。使用boosting组合决策树进行目标检测。具体流程如下图所示
2. Integral Channel Features(ICF)
ICF使用积分图像进行特征提取,ICF检测器及尺度金字塔如下图所示
3. DPM
直接贴出实验结果,使用本文的方法提升后VOC数据20类测试的mAP只降低2%。