R-CNN论文解读

背景

R-CNN(Regions with CNN features)这篇论文是在2014年CVPR的论文,在此之前目标检测并未使用基于深度学习的方法,主流的目标检测思路还是基于传统的目标检测方法(SIFT,HOG等),所以R-CNN这篇论文围绕的核心观点就是用深度学习来替换传统的图片特征提取方法从而更好地实现目标检测的效果,相比于之前基于传统方法的目标检测,R-CNN在PASCAL VOC2012数据集上的mAP提高了30%以上,达到了53.3%。

R-CNN的两个重要贡献在于:

  1. 在候选区域上自下而上使用大型卷积神经网络(CNNs),用以定位和分割目标。
  2. 当带标签的训练数据不足时,先针对辅助任务进行有监督预训练,再进行特定领域的微调,就可以产生明显的性能提升。

R-CNN用于目标检测的流程图如下:

R-CNN 流程具体如下:

  1. 对输入的图片进行选择性搜索(selective search),得到大约2000个类别无关的候选区域。
  2. 不管候选区域的大小和宽高比如何,都将其变换为227*227的固定大小(CNN架构只能接受227*227的输入)。
  3. 将变换后的候选区域一个个输入到CNN中,CNN输出为一个4096维的特征向量。
  4. 将CNN输出的特征向量分别送入一系列的SVM用于分类,以及为了得到更精准的预测框,还会进行一个Bounding Box Regression。

Extract region proposal

  1. 使用Selective Search算法从输入图像中提取2000个Region Proposal。文中使用该算法是因为控制变量,方便与其他方法比较。

                 selective search算法主要步骤:

                1. 使用一种过分割手段,将图像分割成小区域 (1k~2k 个)

                2. 计算所有邻近区域之间的相似性,包括颜色、纹理、尺度等

                3. 将相似度比较高的区域合并到一起

                4. 计算合并区域和临近区域的相似度

                5. 重复3、4过程,直到整个图片变成一个区域

Feature extraction

        由于文中使用的CNN中包含有全连接层,这就需要输入神经网络的图片有相同的size:所以需要对每个Region Proposal都缩放到固定的大小(227*227)。

        在得到每个候选区域之后并不是直接截下来,而是截取比这个区域稍微更大点的区域,因为对这个区域进行卷积运算,边缘位置做卷积就会损失一些信息,所以在变形尺寸下,传入到神经网络的区域相比于比原始框会多出16个像素。

本文提了两种方法:

1. 不考虑图片的长宽比例,不考虑图片是否扭曲,直接缩放到CNN输入的大小227*227

2. 各向同性缩放:  

        先裁剪后扩展:先把bounding box图片裁剪出来,然后用固定的背景颜色填充成正方形图片(背景颜色也是采用bounding box的像素颜色均值),如下图(D)所示。                 

         先扩张后裁剪: 直接在原始图片中,把bounding box的边界进行扩展p像素延伸成正方形,然后再进行裁剪。如果已经延伸到了原始图片的外边界,那么就用bounding box中的颜色均值填充。如下图(B)(C)所示。

 

        一组试点实验表明,使用上下文填充(p = 16 像素)的变形在很大程度上优于替代方案(3-5 个 mAP 点)

        特征计算:将减去均值的 227 x227 RGB 图像(wrap)通过五个卷积层和两个完全连接层前馈传播来计算的。我们wrap的每个proposal通过 CNN 前馈传播它以计算特征。然后,对于每个类,我们使用 SVM 对每个proposal的特征向量进行评分。给定图像中的所有评分区域,我们用NMS,删除重复的proposal(如果区域具有交叉联合(IoU)与更高评分的选定区域重叠,则拒绝该区域)

Train CNN

利用Selective Search提取Region Proposal并resize后,接下来使用CNN从每个Region Proposal提取特征。本文训练CNN的方法,主要包括以下两步:

  1. Pre-training阶段:由于物体标签训练数据少,本文采用的是有监督的预训练,使用一个大的数据集(Image Net ILSVC 2012)来训练AlexNet,得到一个分类的预训练(Pre-trained)模型。
  2. Fine-tuning阶段:使用Region Proposal(PASCAL VOC)对Pre-trained模型进行fine-tuning。首先将原来预训练模型最后的1000-way的全连接层(分类层)换成21-way的分类层(20类物体+背景。然后计算每个region proposal和ground truth 的IoU,对于IoU>0.5的region proposal被视为正样本,否则为负样本(即背景)。在每次迭代的过程中,选取32个正样本和96个负样本(128)组成一个mini-batch(128,正负比:1:3)。我们使用0.001的学习率和SGD来进行训练。

Train SVM

在训练过程中,SVM的输入包括两部分:

(1) CNN feature:这个便是CNN网络为每个region proposal提取的feature,共2000*4096。

(2) Ground truth labels:在训练时,会为每个region proposal附上一个label(标注好的labels称为Ground truth labels)。

在SVM分类过程中,当IoU<0.3时,为负样本,正样本便是ground truth box。然后SVM分类器也会输出一个预测的labels,然后用labels和ground truth labels计算loss,然后训练SVM。

Non-maximum suppression(NMS)非最大抑制

目的:筛选候选区域,目标是一个物体只保留一个最优的框,来消除那些冗余的候选框。

过程:经过SVM之后,我们会得到2000个region proposal的class probability,然后我们可以根据‘有无物体’这一类过滤掉一大批region proposal,然后如果某个候选框的最大class probability<阈值,那也可以过滤掉这些region proposal,

那剩下的可能如图所示,就是有多个box相互重叠,目标检测的目标是一个物体有一个box即可,那这个时候就需要用到非极大值抑制(NMS)了,经过NMS之后,最终的检测结果如下图所示:

Bounding box regression

通过NMS筛选出来的候选框不一定非常准确,目标检测问题的衡量标准是重叠面积,许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。bbox回归用于修正筛选后的候选区域,使之回归于ground-truth。

在目标检测中,窗口一般用四维向量(x, y, w, h)来表示,分别表示窗口的中心点坐标和宽高。在下图中,粉色的窗口P为region proposal,蓝色的窗口G为ground truth,那bounding box regression的目标呢就是:找到一种映射关系,使得P经过映射后会得到一个和G比较接近的G’。

 。

即:给定(Px,Py,Pw,Ph) 寻找一种映射f,使得f(Px,Py,Pw,Ph)=(G’x,G’y,G’w,G’h)且(G’x,G’y,G’w,G’h)≈(Gx,Gy,Gw,Gh)

dx(P)、dy(p)、dw(p)、dh(p)这四个量分别与预测框的水平平移,垂直平移,水平缩放和垂直缩放有关。图像尺寸的缩放系数必须是个正数,而e^x具有恒正和单调递增的特性,所以作者dw( P ) 和dh(P)做了指数运算。

总结:

本文提出了一种简单且可扩展的目标检测算法,与 PASCAL VOC 2012 上的最佳先前结果相比,相对提高了 30%。

我们通过两个方法实现了这一性能。

        首先是将大容量卷积神经网络应用于自下而上的region proposal,以定位和分割目标。

        第二个是在标记训练数据稀缺时训练大型 CNN 的范例。对于具有丰富数据的辅助任务(图像分类),在有监督的情况下对网络进行预训练,然后针对数据稀缺的目标任务对网络进行微调是非常有效的。

        我们推测“有监督的预训练/特定领域的微调”范式对于各种数据稀缺的视觉问题将非常有效。使用计算机视觉和深度学习的经典工具(自下而上的区域建议和卷积神经网络)的组合来实现这些结果是非常重要的

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值