论文提出了一种场景归类的方法,主要通过将图像划分为精细子区域并在子区域中计算局部特征直方图实现,Spatial Pyramid是无序BOF特征的一种发展,增加了空间位置信息。
Pyramid Matching Kernels
假设X和Y是d维特征空间中的两个向量集,PM通过在特征空间中设置一系列粗粒度网格并对每一层的匹配结果进行加权得到,在每个特定的分辨率下,两个点如果落在网络的同一个cell中则表示匹配,在精细空间匹配到的比在粗糙空间匹配的具有更大的权值。具体的说,我们在分辨率为0,…,L下构造一系列网格,则在l层具有
2l
个cell,d维空间共有
D=2dl
个cell。令
HlX
和
HlY
分别表示l层X和Y的直方图,
HlX(i)
和
HlY(i)
为落到第i个cell中点的数目,则l层的匹配数可使用直方图交叉函数计算:
在l层找到的匹配点包含在l+1层找到的匹配点,因此在l层找到的匹配点为
Il−Il+1
,l层的权值为
12L−l
,通过对在粗糙空间匹配点进行高权值惩罚,可以得到如下定义的空间金字塔匹配核:
PM是一种无序的图像表示方法,本文在二维图像空间中实现PM,并在特征空间中使用传统的聚类方法,特征提取方法是用的是边缘方向和SITF。将特征向量量化成M个离散的形式,每个通道m给出两个2维的向量集
Xm
和
Ym
,分别表示每个图像中特征类型为m的坐标,最终的核是每个通道核的总和:
这种方法是“视觉词典”的延续,当L=0时,上式退化为标准的BOF。
KL
可以通过对长向量进行直方图交叉得到,这个长向量是对每个分辨率的每个通道的直方图进行加权串联得到的。
该方法可用于场景分类或图像检索,部分检索结果如下图所示: