目标检测:R-CNN

R-CNN是一种通用目标检测框架,通过selective search获取候选区域,使用CNN提取特征,SVM进行分类和边框回归提高精度。文章介绍了R-CNN的工作流程,包括Warp和Crop、Bounding box regression、IoU、NMS和Hard negative mining等关键术语。尽管R-CNN较慢,但其引入CNN特征提取是重大创新,为后续的Fast R-CNN和Faster R-CNN奠定了基础。
摘要由CSDN通过智能技术生成

《Rich feature hierarchies for accurate object detection and semantic segmentation》论文解读


作者是Ross B. Girshick,简称RBG,作者主页:

https://people.eecs.berkeley.edu/~rbg/index.html

目标检测问题就是从图片中检测出目标的位置并判断目标的类别,比如人脸检测问题。不过人脸检测问题只是一种专门针对人脸的检测问题,而本文提出的R-CNN是通用目标检测问题,针对20类目标的检测。通用目标检测问题只需要进行适当修改就可以应用在人脸检测上。R-CNN检测框架的发展脉络是R-CNN,SPPnet,Fast R-CNN,Faster R-CNN。一些新的方法比如YOLO和SSD以后有时间再解读。

概述

如我前面博客所说,检测问题需要解决三个问题:1、候选区域生成;2、候选区域特征提取;3、目标分类识别。R-CNN对此解答是:selective search,CNN,SVM。

R-CNN

R-CNN目标检测框架如下所示:

arch

对于输入图片,首先使用selective search方法提取大概2k个候选区域,然后每个候选区域变形缩放到227*227输入到AlexNet中,得到4096维的特征以后,使用SVM进行分类,得到类别以后,还需要使用边框回归(Bounding box regression)提高边框位置精度。

AlexNet如何微调?AlexNet微调时,样本为基准方框中的区块,以及和基准区块重叠比较大的区块(IoU>0.5),这些都归为一类;并把AlexNet最后一层换成21个类别(20类目标+背景)的softmax分类。这样训练出来的CNN最后的softmax分类就不是很准确,但是能够用来提取目标特征。

SVM如何训练?SVM本质是一个二分类器,正样本为包含目标的基准框(ground true),需

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值