两阶段(two stage)目标检测原理详解 -- RCNN

AI学长

已于 2022-03-28 13:01:40 修改

阅读量5.1w

点赞数 52

分类专栏：目标检测文章标签：目标检测

于 2022-03-22 12:28:49 首次发布

本文链接：https://blog.csdn.net/qq_21386397/article/details/123657015

版权

目标检测专栏收录该内容

13 篇文章

订阅专栏

（三）边框回归（ Bounding Box Regression ）

1. 非极大值抑制（Non-Maximum Suppression，NMS）

目前目标检测领域的深度学习方法主要分为两类：two stage 的目标检测算法；one stage 的目标检测算法。

一、目标检测的任务

在图像中把目标物体框出来，主要分为两个：

定位任务：把物体在图像中的位置检测处理，通常用(x,y,w,h)表示物体位置框，其中x,y是目标的中心点，w,h是目标物体框的长和宽。
图像分类任务：目标物体是哪种物体，如该物体具体是猫还是狗，还是汽车等。

二、什么是“两阶段”呢？

两阶段指的是实现检测的方式有主要两个过程，如下：

第一步：先提取物体区域；
第二步：再对区域进行CNN分类识别；

因此，“两阶段”又称基于候选区域（Region proposal）的目标检测。它是基于深度学习的检测算法的先驱者；代表性算法如下图的RCNN系列（RCNN,Fast RCNN,Faster RCNN）还有SPPNet等。

RCNN是“两阶段”目标检测中的第一个模型。该算法步骤大致分为两大步骤进行：

1.获取输入图像，提取约候选区域;
2.将每个候选区域的图片缩放到固定大小224x224，输入CNN网络，得到的结果再输入分类器中进行类别的判定。

两阶段目标检测模型结构：

三、两阶段算法原理

传统算法模型结构：

两阶段目标检测模型结构：

（二）候选区域算法

传统目标检测算法使用“穷举法”来获取候选区域，即暴力的使用滑动窗口从左到右、上到下扫描图片。缺点非常明显，候选区域过多，相邻窗口重复信息大，无效的区域也很多，导致计算量大，检测速度慢。

RCNN使用“选择性搜索算法”（SS，Selective Search）来获取候选框，具体步骤如下：

（1）图片中的每一个像素作为一组，然后计算每个像素的纹理；
（2）将相近的组合起来形成更大的像素组，然后继续合并各个像素组；
（3）SS选取的检测框大小都不一样，最后，得到不同尺寸的BBox候选框（约2000个）。

相比传统的穷举法，BBox候选框明显的减少了，在后面步骤的物体分类上减少了很多计算资源。

（三）边框回归（ Bounding Box Regression ）

围绕如下2个问题进行算法设计：

1.一张图大约有2000多个候选框，是否有冗余？若存在冗余该如何对多个候选框进行筛选？
- 2. 筛选过后的候选框是最优的吗？

经过SS搜索，共有2000多个候选区域，首先需要对每个候选区域进行分类识别：

如上图所示，每个目标有两三个候选区域，每个候选区域都有目标概率值；原则上，1个物体对应1个候选区域，那么如何去除冗余的候选区域框，保留最好的1个？

使用非极大值抑制NMS来解决以上问题。

1. 非极大值抑制（Non-Maximum Suppression，NMS）

思路：选取那些邻域里分类数值最高，并且抑制那些分数低的窗口。

做法：设定阈值（阈值通常设定0.3~0.5 ），比较两两区域的IoU与阈值的关系。

Iou是两个区域的交并比，如下：

那么可以如下两个思路来筛选候选框，假设阈值设定0.5：

（1）IoU>0.5，表示A框与B框重叠率高，可能是同一个物体，保留上一步计算的分类概率值高的候选框；
（2）IoU<0.5，表示A框与B框重叠率不高，可能是两个物体；

例子：假设检测到如下出6个都是人脸的矩形框，目的要找到最好的一个。

（1）根据分类器的类别分类概率做排序从小到大的概率分别为A、B、C、D、E、F；
（2）从最大概率矩形框F开始，分别判断A~E与F的重叠度IoU是否大于设定的阈值;
（3）假设B、D与F的重叠度超过阈值，那么就去除矩形框B、D；并标记第一个矩形框F，是我们保留下来的一个人脸框；
（4）从剩下的矩形框A、C、E中，选择概率最大的E，然后判断E与A、C的重叠度，如果A、C的重叠度都大于设定的阈值，那么就去除；并标记E是我们保留下来的第二个矩形框；
（5）就这样一直重复，遍历所有，直到找到所有被保留下来的矩形框。