Selective Search for Object Recognition 个人总结_selective search for object recognition算法详解-CSDN博客

本文链接：https://blog.csdn.net/LeeWanzhi/article/details/79461220

selective search是object detection中非常著名的候选框生成方法，对此做一个总结是很有必要的。

一、Introduction

首先说下这个算法是怎么来的。

很长一段时间，object在被识别之前都需要先进行划分，这就产生了图像分割。

但是图像本质上是具有层级的，如图a所示，桌子上有碗、碗里有汤匙。我们说的桌子是指桌子本身呢？还是包括桌上所有的东西呢？这就是层级。

此外，我们无法通过单一的策略来进行物体间的分割，有很多理由都可以让两个物体合并。如图b，虽然两个cat的颜色不同，但它们的纹理相同。图c，虽然变色龙的纹理和背景不同，但是颜色相同。图d，虽然轮子和车身的颜色和纹理都不同，但轮子都车身包围了。因此，图像存在分割的模糊性。

最后，还有一个问题，两个不同特征的object很有可能合并为一个object。比如，人脸+毛衣，可以判断为human。

因此，综上，对物体先进行识别是很有必要的！
这里写图片描述

传统上，是利用exhaustive search(穷举搜索) 对图像上所有的位置进行检测，为了不错过任何可能的object的位置。
但该方法的缺点是：
计算量太大，infeasible。尽管可以通过固定尺度、固定宽高比来减少搜索空间，但需要检测的位置的数量仍然很巨大。

此时，为了解决这个问题，本文提出selective search。用以生成高质量的object的位置。

二、selective search

我们使用bottom-up的层级分组算法进行selective search。

1. 首先，图像中有n个预分割的初始区域。
2. 计算每个region与它相邻region的相似度，此时可以得到n*n的相似矩阵(不相邻region间的相似度可设为NaN--Not a Number)。
3. 将相似度最大的两个区域合并，图像上还有n-1个区域。
4. 重复上面的步骤，直到所有区域合并为一个区域。
5. 我们对这些regions都加上boxes。

其中，我们采用多种策略来做合并：
1. 通过改变颜色空间(如RGB、HSV、Intensity)，在改变后的颜色空间上使用层级分组算法。
2. 考虑不同的相似性度量(颜色相似度、纹理相似度、大小相似度、吻合相似度)，详细解释各个相似度可参考这篇：4个相似度，最后的相似度是这4个相似度的加权和。
3. 当我们改变了颜色空间，会得到不一样的初始分割区域。

PLUS:相似度的评价已经有了，即4个相似度的加权和。我们可以变的就是改变颜色空间，再次实行层级分组算法，得到更多的结果。