在Selective Search for Object Detection (C++ / Python)文中提到的五中解决办法:
在这几种算法中,Selective Search是最常用的,因为这种方式法的回召率最高。
选择搜索算法(Selective Search)的主要观点:图像中物体可能存在的区域应该是有某些相似性或者连续性区域的。因此,选择搜索基于上面这一想法采用子区域合并的方法进行提取bounding boxes候选边界框。首先,对输入图像进行分割算法产生许多小的子区域。其次,根据这些子区域之间相似性(相似性标准主要有颜色、纹理、大小等等)进行区域合并,不断的进行区域迭代合并。每次迭代过程中对这些合并的子区域做bounding boxes(外切矩形),这些子区域外切矩形就是通常所说的候选框。
那么问题来了:
1.回召率是什么?
目标检测中召回率(Recall),精确率(Precision)
2.为什么选择回召率大的?
按照文章中提到的观点,
说白了,就是时间换精确率。检测出许多错误目标也无所谓,反正他们过不了选择器。但是如果正确的目标没有被检测出来,那就尴尬了。
-
算法流程
1.使用基于像素强度的图像分割算法(Felzenszwalb and Huttenlocher’s )切割图像。
原图片输入 输出
2.再次细分
以步骤1的输出结果作为输入,在次利用Felzenszwalb and Huttenlocher’s 算法分割图像。
从步骤1可以了解到,一个实际的物体包含多个区域。比如一个杯子就被分成了黄色、蓝色、绿色、红色区域。所以我们需要将相近的区域进行合并。
3.合并加框
对步骤2的结果进行以下三个步骤进行处理:
(1)对子区域列表(可能存在物体的区域)的所有对象加框
(2)根据相似性合并相邻的两个片段
(3)回到(1)
在每次迭代中,都会产生一个更大的片段。采用自底而上的时方法可以逐步合并小片段生成大片段。如图:
-
参考文献