这篇2012年的IJCV使用分割和穷举搜索的方法产生目标proposal,最近出现的R-CNN就是在这些proposal上学习特征进行目标识别的,目标proposal是相对于滑动窗产生的候选框来说的,proposal的数量要少很多。
区域可以归并到一起的原因有很多,如下图所示,(b)颜色,(c)纹理,(d)包含问题,车辆包含车轮等。
论文提出了一种数据驱动的SS,结合穷举搜索和多元化采样方法捕获所有的可能区域,文章回答了几个问题:1)自适应分割的多元化策略有哪些,2)产生高质量loc的效率,3)使用SS结合好的分类器和模型描述方法来做目标识别;
算法描述:
SS算法的设计基于以下考虑:1)捕获所有尺度,2)多样化归并方法,3)速度快。首先使用论文“Efficient Graph-Based Image Segmentation”中的方法生成一些起始的小区域,之后使用贪心算法将区域归并到一起:先计算所有临近区域间的相似度,将最相似的两个区域归并,然后重新计算临近区域间的相似度,归并相似区域直至整幅图像成为一个区域,算法具体描述如下:
多元化策略:使用不同的颜色空间和不同的相似度计算方法
A.互补的颜色空间
在一系列颜色空间中实现多级归并算法,包括RGB,灰度图,Lab,rgI,HSV,归一化RGB,etc.
B.互补的相似度度量
1)颜色相似度,颜色直方图交叉函数
2)纹理相似度,使用类SIFT度量,对每个颜色通道在8个方向上进行高斯微分,每个通道的每个方向提取出一个bin是10的直方图,获得一个240维大小的直方图,最后使用
L1
范数进行归一化,同样适用交叉函数进行相似度度量
3)尺度相似度,计算两个区域共同占有图像面积的比例,小区域优先合并,同时放置某个区域将其他区域全部吞并。
4)填充相似度,主要用来填充缝隙,如果
ri
包含在
rj
内,显然需要将它们合并,定义
BBij
为包围
ri
和
rj
的框,填充相似度计算
BBij
中没被
ri
和
rj
覆盖的区域占整幅图像的比例:
最终的相似度度量是以上四种相似度度量的组合:
Combining Locations
对假设的目标进行排序,对于给定的归并策略j,使用
rji
表示层i对应的区域,i=1时区域为整幅图像,令其位置值
vji=RND×i
,最终的排名是使用
vji
对区域进行排序. (没懂啥意思)
目标分类
分类使用的特征是BOW,采用颜色-SIFT和精细空间分割,词袋适合可变物体的识别,HOG适合刚体的识别,分类器使用的SVM。训练框架如下图所示:
正样本为物体的ground truth,负样本为SS产生的与正样本交叠20%~50%的proposal,同时剪除了重叠面积大于70%的负样本,这些负样本是hard样本,在分类中能够成为支持向量。