R-CNN论文解读

论文题目: Rich feature hierarchies for accurate object detection and semantic segmentation作者: Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik会议: 2014 CVPR1. R-CNN是什么R-CNN就是Regions wit
摘要由CSDN通过智能技术生成

论文题目: Rich feature hierarchies for accurate object detection and semantic segmentation

作者: Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik
会议: 2014 CVPR


1. R-CNN是什么

R-CNN就是Regions with CNN features, 意思是通过CNN来提取region Proposals的特征;而region proposals其实就是我们常说的ROI(兴趣点),在目标检测中就是目标可能所在的区域。


2.问题引入

在著名的竞赛PASCAL VOC中,近年来目标检测的mAP(mean average precision)已经处于一个瓶颈期,如图一所示


图一


并且在视觉识别上大部分的方法还是基于SIFT和HOG特征的,我们都知道 Feature matters,那有什么办法可以突破这个瓶颈吗?答案是有!这就引出了R-CNN,将CNN引入到目标检测的开山之作。


3. 论文框架


对于一张输入图片,首先抽取大约2k的region proposals,然后把这些region proposal输入CNN中计算特征,注意,这里只是一张图片,而一张图片有2k的region proposals 要在CNN中计算,这个时间复杂度和空间复杂度就很大了,这也是后来Kaiming提出的SPP net主要解决的问题,好,言归正传,拿到CNN特征之后,再通过线性 SVM进行分类就得到结果了。 所以 R-CNN把检测问题直接转换成了一个分类问题!


4. 论文具体工作及细节


region proposals的获取

论文采用的是Selective Search的方法来获取的,是2012IJCV的一个工作(Selective Search for Object Recognition),简单来说就是一开始把一张图片分成很多小区域,然后通过计算小区域的颜色相似度,纹理相似度,大小相似度和吻合相似度,最后综合这四个相似度进行合并。



CNN网络结构

提取region proposals 特征采用Alexnet,输入的每个region proposals被scale到227*227(Alexnet的输入),有一种是不管比例直接缩放,但是这种缩放会对目标进行扭曲,岁后续的特征提取可能会有影响,另一种是通过背景颜色填充,经过作者的实验,采用了直接缩放并用16padding的方式,最后输出为4096维的特征向量。



训练过程(迁移学习)

(1)有监督的预训练(Supervised pre-training)

直接在很大的数据集(ILSVRC 2012)上进行图像标注级别的预训练。

(2)面向领域微调(Domain-specific fine-tuning)

为了让CNN适用于目标检测,通过SGD对参数进行更新,除了最后的输出从1000变成了21(20个VOC+背景)类

,其他的网络结构都是不变的;



每个类都训练一个SVM分类器,但是这边涉及到的一个问题是,怎么判断一个region proposals是正样本还是负样本?考虑一个汽车的例子,包含整个汽车当然是正样本,背景跟汽车无关属于负样本,但是部分车怎么判断,经过作者的validation,找到一个IoU阈值0.3,也就是检测窗口和groung truth的交并比小于0.3标注为负样本,大于0.3即为正样本。

训练集中正样本一般比较少,而负样本多很多,SVM训练出来的效果并不是很好,通过Hard negative mining method来解决这个问题,hard negative mining意思是第一次训练的时候会有很多负样本分到正样本中,我们把这些称为hard negtive,把这些拿出来作为有代表性的负样本重新进行训练。


Bounding-box regression

使用回归来精修bounding-box的位置。在SVM预测出每个region proposal的score之后,对于每一类都有一个线性的回归器进行精修。



  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值