R-CNN论文解读

最新推荐文章于 2023-04-09 19:05:22 发布

asac

最新推荐文章于 2023-04-09 19:05:22 发布

阅读量332

点赞数 4

文章标签： cnn 深度学习目标检测计算机视觉

本文链接：https://blog.csdn.net/m0_51054688/article/details/129203740

版权

背景

R-CNN(Regions with CNN features)这篇论文是在2014年CVPR的论文，在此之前目标检测并未使用基于深度学习的方法，主流的目标检测思路还是基于传统的目标检测方法(SIFT,HOG等)，所以R-CNN这篇论文围绕的核心观点就是用深度学习来替换传统的图片特征提取方法从而更好地实现目标检测的效果，相比于之前基于传统方法的目标检测，R-CNN在PASCAL VOC2012数据集上的mAP提高了30%以上，达到了53.3%。

R-CNN的两个重要贡献在于：

在候选区域上自下而上使用大型卷积神经网络（CNNs），用以定位和分割目标。
当带标签的训练数据不足时，先针对辅助任务进行有监督预训练，再进行特定领域的微调，就可以产生明显的性能提升。

R-CNN用于目标检测的流程图如下：

R-CNN 流程具体如下：

对输入的图片进行选择性搜索(selective search),得到大约2000个类别无关的候选区域。
不管候选区域的大小和宽高比如何，都将其变换为227*227的固定大小(CNN架构只能接受227*227的输入)。
将变换后的候选区域一个个输入到CNN中，CNN输出为一个4096维的特征向量。
将CNN输出的特征向量分别送入一系列的SVM用于分类，以及为了得到更精准的预测框，还会进行一个Bounding Box Regression。

Extract region proposal

使用Selective Search算法从输入图像中提取2000个Region Proposal。文中使用该算法是因为控制变量，方便与其他方法比较。

selective search算法主要步骤：

1. 使用一种过分割手段，将图像分割成小区域 (1k~2k 个)

2. 计算所有邻近区域之间的相似性，包括颜色、纹理、尺度等

3. 将相似度比较高的区域合并到一起

4. 计算合并区域和临近区域的相似度

5. 重复3、4过程，直到整个图片变成一个区域

Feature extraction

由于文中使用的CNN中包含有全连接层，这就需要输入神经网络的图片有相同的size：所以需要对每个Region Proposal都缩放到固定的大小（227*227）。

在得到每个候选区域之后并不是直接截下来，而是截取比这个区域稍微更大点的区域，因为对这个区域进行卷积运算，边缘位置做卷积就会损失一些信息，所以在变形尺寸下，传入到神经网络的区域相比于比原始框会多出16个像素。

本文提了两种方法：

1. 不考虑图片的长宽比例，不考虑图片是否扭曲，直接缩放到CNN输入的大小227*227

2. 各向同性缩放：

先裁剪后扩展：先把bounding box图片裁剪出来，然后用固定的背景颜色填充成正方形图片(背景颜色也是采用bounding box的像素颜色均值),如下图(D)所示。

先扩张后裁剪：直接在原始图片中，把bounding box的边界进行扩展p像素延伸成正方形，然后再进行裁剪。如果已经延伸到了原始图片的外边界，那么就用bounding box中的颜色均值填充。如下图(B)(C)所示。

一组试点实验表明，使用上下文填充（p = 16 像素）的变形在很大程度上优于替代方案（3-5 个 mAP 点）

特征计算：将减去均值的 227 x227 RGB 图像（wrap）通过五个卷积层和两个完全连接层前馈传播来计算的。我们wrap的每个proposal通过 CNN 前馈传播它以计算特征。然后，对于每个类，我们使用 SVM 对每个proposal的特征向量进行评分。给定图像中的所有评分区域，我们用NMS，删除重复的proposal（如果区域具有交叉联合（IoU）与更高评分的选定区域重叠，则拒绝该区域）

Train CNN

利用Selective Search提取Region Proposal并resize后，接下来使用CNN从每个Region Proposal提取特征。本文训练CNN的方法，主要包括以下两步：

Pre-training阶段：由于物体标签训练数据少，本文采用的是有监督的预训练，使用一个大的数据集（Image Net ILSVC 2012）来训练AlexNet，得到一个分类的预训练（Pre-trained）模型。
Fine-tuning阶段：使用Region Proposal（PASCAL VOC）对Pre-trained模型进行fine-tuning。首先将原来预训练模型最后的1000-way的全连接层（分类层）换成21-way的分类层（20类物体+背景。然后计算每个region proposal和ground truth 的IoU，对于IoU>0.5的region proposal被视为正样本，否则为负样本（即背景）。在每次迭代的过程中，选取32个正样本和96个负样本（128）组成一个mini-batch（128，正负比：1：3）。我们使用0.001的学习率和SGD来进行训练。

Train SVM

在训练过程中，SVM的输入包括两部分：

(1) CNN feature：这个便是CNN网络为每个region proposal提取的feature，共2000*4096。

(2) Ground truth labels：在训练时，会为每个region proposal附上一个label（标注好的labels称为Ground truth labels）。

在SVM分类过程中，当IoU<0.3时，为负样本，正样本便是ground truth box。然后SVM分类器也会输出一个预测的labels，然后用labels和ground truth labels计算loss，然后训练SVM。

Non-maximum suppression(NMS)非最大抑制

目的：筛选候选区域，目标是一个物体只保留一个最优的框，来消除那些冗余的候选框。

过程：经过SVM之后，我们会得到2000个region proposal的class probability，然后我们可以根据‘有无物体’这一类过滤掉一大批region proposal，然后如果某个候选框的最大class probability<阈值，那也可以过滤掉这些region proposal，

那剩下的可能如图所示，就是有多个box相互重叠，目标检测的目标是一个物体有一个box即可，那这个时候就需要用到非极大值抑制（NMS）了，经过NMS之后，最终的检测结果如下图所示：

Bounding box regression

通过NMS筛选出来的候选框不一定非常准确，目标检测问题的衡量标准是重叠面积，许多看似准确的检测结果，往往因为候选框不够准确，重叠面积很小。bbox回归用于修正筛选后的候选区域，使之回归于ground-truth。

在目标检测中，窗口一般用四维向量(x, y, w, h)来表示，分别表示窗口的中心点坐标和宽高。在下图中，粉色的窗口P为region proposal，蓝色的窗口G为ground truth，那bounding box regression的目标呢就是：找到一种映射关系，使得P经过映射后会得到一个和G比较接近的G’。

。