2D目标检测奠基之作——R-CNN

Delete_All0 Delete_a

于 2024-07-15 16:59:36 发布

阅读量708

点赞数 5

文章标签：目标检测人工智能计算机视觉 cnn 神经网络深度学习

本文链接：https://blog.csdn.net/2301_77073150/article/details/140429202

版权

0.背景

目标检测是计算机视觉中的一个主要任务，主要是在图像或视频中检测、定位和识别感兴趣的目标。对于2D的目标检测，它的输入往往是一张图片，输出则是类别的名称与其位置（即预测框）。

目标检测分为两种类型，one-stage 和 two-stage。

two-stage是先找出一些候选区域（有东西存在的地方），再对这些区域进行分类，以及在候选区域的基础上进一步优化预测框的位置。

one-stage是根据输入的图片，直接输出框的位置和相对应的类别，一个网络直接实现输入到输出。

损失函数的选取：对于分类，采用交叉熵；对于位置，采用均方差。

本文将就two-stage代表的R-CNN系列展开具体的介绍。

1.Overfeat模型

对于目标检测的问题，涉及到对于物体种类的辨别，所以设计算法时，我们首先想到的就是能不能把它转化为一个图像分类的问题。因此一个自然的想法就是，我们把图片分为若干个区域（即滑窗)，那么每个滑窗不正是一个预测框，我们只要对每个滑窗做图像分类，它到底是物体还是背景，不就解决了目标检测的问题。

但这样子存在的最大问题就是物体的尺寸不同，选取的滑窗无法实现把不同尺寸的物体框住。因此在overfeat模型中，采用了不同尺度的滑窗进行分类，以解决物体的多尺度问题。但这样子的做法需要把一个图片分成很多块，相当于穷举法的暴力破解，对算法消耗很大。因此为了解决这一问题，R-CNN应运而生。

2.R-CNN

R-CNN架构如下：

对于输入的图片，首先选取一定的候选区域（相较于overfeat的滑窗穷举减少了大量的计算），接着把候选区域作为样本送入卷积网络当中提取特征，再用SVM进行分类，最后经过边界框回归的修正，在原有候选区域的基础上，获得更精确的预测框的位置。

test过程：

0.思路

在设计算法时，其实我们希望的是对每个候选区域做出类别的判断，并且通过对于边界框的回归预测在原有候选区域的基础上通过线性变换得到更为精确的预测值。

实际上，在对候选框分完类以后，并且做完边界框的回归预测得到了预测的结果。就算保留某个类别概率较大（一般>0.5)的候选框，我们也不可能全部都使用（其实很多相近的用哪个框都差不多），但基于目标检测我们期望得到的结果，即每个对象仅被一个候选框框起来，我们可以采用非最大抑制（NMS）的方法。即对于每个类别，比如猫，我们先选取分类得分最高的那个框，遍历该类别的其他框，去掉和这个框交并比过大（一般>0.5)的框，再在剩下的框中继续选择得分最高的，同样进行上述操作，直到把猫这个类别的框遍历完。其他类别同理。因此再经过首次筛选保留某个类别概率>0.5的框之后（其余的框要么是背景要么是各种类概率比较平均作废的框），我们经过NMS得到最终的结果（上述其实经过了两次的筛选过程）。

1.选取候选区域

利用选择性搜索（SelectiveSearch，SS，通过图像像素的关系，得到了更有可能出现物体的区域，也即候选区（region proposal）。

2.卷积网络提取特征

3.利用SVM进行分类

通过提前设置好的backgroud阈值和所属于类的阈值，筛选出满足条件的候选区域。即一些类别得分较为平均的没法分清楚是属于什么的，得舍弃。以及属于背景概率较大的，也舍弃。（背景也作为一个类进行打分）。经过筛选后剩下的框才能进行进一步处理。

4.边界框的预测回归

对于上述得到的框进行变换，得到更为准确的预测框。

5.NMS操作

去除掉得到的准确预测框中重叠程度大的，只保留一个，符合目标检测的需求。

train过程：

分别对卷积网络，分类器，边界框回归进行训练。

其中对于边界框的回归，样本来源于经过SVM分类得到的数据，且同样需丢弃概率得分分布较为平均的样本以及背景概率最大的负样本，对剩余的正样本进行训练。而每个正样本训练的标签也即对应真实框的位置通过下述方式获得：

对于每个正样本，遍历所有同类别的真实框，与其交并比最大的则为其标签。

注意：训练边界框回归时样本的正确性会受到分类结果的影响，所以需要认为检查分类产生的正样本数据的可靠性。

3.总结与要点

训练过程相对于测试过程减少了NMS处理这一步，分组件进行训练。

测试过程对于边界框有两次筛选，一次是分类后通过背景以及类别阈值的筛选，一次是最后NMS的筛选，去除重叠的边界框。而训练过程不需要去重，只有第一次筛选，没有第二次筛选。

Delete_All0 Delete_a

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
2D目标检测奠基之作——R-CNN

训练过程相对于测试过程减少了NMS处理这一步，分组件进行训练。测试过程对于边界框有两次筛选，一次是分类后通过背景以及类别阈值的筛选，一次是最后NMS的筛选，去除重叠的边界框。而训练过程不需要去重，只有第一次筛选，没有第二次筛选。
复制链接

扫一扫