目标检测之R-CNN通俗详解

算法介绍

R-CNN算法由rbg大神在2014年提出,在此之前,传统的目标检测算法还存在性能和速度上的巨大瓶颈,而R-CNN的提出无疑在性能和速度上都对传统目标检测算法是一个很大的提升。尽管R-CNN在算法框架和模型上仍然类似于传统目标检测算法,但是它的突破点就在于利用CNN卷积网络提取深度特征,区别于传统算法中的类似于颜色、纹理等低层次特征。
在这里插入图片描述
主要步骤

接下来,我们来看下R-CNN是如何使用CNN特征的:

1.提取候选框:
提取候选框有很多种方式,我们采用的是SS(Selective Search),区别于以前的滑动窗的方式,关于选择式搜索,后面会介绍;
这里我们提取出2000个region proposals。
2.正负样本的准备:
同样根据矩形框的IoU以及GT来确定正负样本;
3.训练分类模型:
.在ImageNet大数据集上训练一个分类模型,作者采用的是AlexNet,并且希望将ImageNet上训练的1000类图像识别模型迁移到PASCAL VOC 目标检测上(类别数是20,另外加上背景总共21类);
4.迁移学习:
用这个预训练模型进行迁移学习,即fine-tune(因为R-CNN不是直接拿一个CNN模型来训练的,而是进行fine-tuning),注意在做fine-tuning时,要将1000改成21,将所有proposals的尺寸resize到227x227;
5.svm分类器:

对每一个类别都要训练一个SVM分类器,使用Fc7层的输出特征作为svm输入,维度是2000x4096,输出就是是不是属于这个类别。

6.回归器:

利用池化层pool5的特征以及每一个矩形框的GT作为回归器的输入,对候选框的位置进行精修;
通过对pool5层的特征做线性变换,得到一个变换函数F,利用这个变换函数对每一个proposals进行坐标位置的回归,主要有平移和缩放两种操作,如下图:
在这里插入图片描述

提取候选框:选择性搜索

1)首先生成区域集合R,根据基于图的图片分割的方式来生成;
2)计算集合R里每两个相邻区域 的相似度,组成集合S;
3)找出相似度最高的两个区域,将他们合并为一个新的集合,添加进R;
4)从S集合中移除所有与2)中有关的子集;
5)计算新的集合与所有子集的相似度;
6)跳至2),直到集合S为空;

R-CNN缺点

文章开始我们也提到,R-CNN的算法框架跟传统的检测算法没什么太大的区别和改进,所以它仍然存在着传统检测算法中所具有的的缺陷,难以满足实际的需要,当然这也是后续检测算法应该研究的改进点。
R-CNN的缺点主要有:
1)候选框选取的过程仍然是耗时的;
2)属于two-stage的,需要分多次训练,过程繁琐;
3)重叠框会重复计算;

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值