目标检测=目标识别+定位,常见的算法有:R-CNN,Fast R-CNN,Faster R-CNN,YOLO,R-FCN 等,RCNN(Regions with CNN features)是将CNN方法应用到目标检测问题上的一个里程碑,本文我们先介绍R-CNN。
分类与检测的区别
物体检测和图片分类的区别:
1.图片分类不需要定位,而物体检测需要定位出物体的位置,也就是相当于把物体的bbox检测出来;
2.分类一般针对图像中一个目标,检测是要把图片中所有的目标物体都识别定位出来,且多个目标物体之间可能会相互遮挡。
IOU的定义
IOU定义了两个bounding box的重叠度,如下图所示:
矩形框A、B的一个重合度IOU计算公式为:
IOU=(A∩B)/(A∪B)
一、整体思路
分为三个步骤进行:
1)候选区域选择
Region Proposal是一类传统的区域提取方法,可以看作不同宽高的滑动窗口,通过窗口滑动获得潜在的目标图像,关于Proposal大家可以看下SelectiveSearch,一般Candidate选项为2k个即可,这里不再详述;
根据Proposal提取的目标图像归一化为统一尺寸的小图片,作为CNN的标准输入。
2)CNN特征提取
标准CNN过程,这里选择AlexNet,得到固定维度的输出;
3)分类与边界回归
实际包含两个子步骤,一是使用SVM对上一步的输出向量进行分类;二是通过边界回归(bounding-box regression) 得到精确的目标区域,由于实际目标会产生多个子区域,旨在对完成分类的前景目标进行精确的定位与合并,避免多个检出。
二、找出候选框(步骤一)
1.selective search初步定位候选框
在目标检测时,为了定位到目标的具体位置,通常会把图像分成许多子块(sub-regions / patches),然后把子块作为输入,送到目标识别的模型中。分子块的最直接方法叫滑动窗口法(sliding window approach)。滑动窗口的方法就是按照子块的大小在整幅图像上穷举所有子图像块。这种方法产生的数据量非常庞大。和滑动窗口法相对的是另外一类基于区域(region proposal)的方法。selective search就是其中之一!
selective sear