一、目标检测和目标识别
目标识别(object recognition)是要指明一张图像中包含哪类目标。输入是图像,输出是图像中的目标属于的类别(class probability)。目标检测是识别出图像中的类别外,还要框出目标的具体位置(bounding boxes).
在目标检测时,为定位到目标的具体位置,通常将图像分成许多子块(subregions/patchs),然后把子块作为输入,送入到目标识别模型中。分子块的最直接的方法是滑动窗口法(sliding window approach),滑动窗口的方法是按子块的大小在整幅图像上穷举所有的子图像块,算法数据量非常大。和滑动窗口相对的是另一类基于区域(region proposal)的方法。候选区域算法用分割不同区域的办法来识别潜在的物体。在分割的时候,我们要合并那些在某些方面(如颜色、纹理)类似的小区域。相比滑窗法在不同位置和大小的穷举,候选区域算法将像素分配到少数的分割区域中。所以最终候选区域算法产生的数量比滑窗法少的多,从而大大减少运行物体识别算法的次数。同时候选区域算法所选定的范围天然兼顾了不同的大小和长宽比。
二、selective search算法
1、区域合并算法流程
总体思路:假设现在图像上有n