R-CNN(Region-CNN,区域卷积神经网络):利用深度学习进行目标检测的开山之作。
R-CNN系列论文(R-CNN,fast-RCNN,faster-RCNN)是使用深度学习进行物体检测的鼻祖论文,其中fast-RCNN 以及faster-RCNN都是沿袭R-CNN的思路。
本篇论文的题目是 《Rich feature hierarchies for accurate oject detection and semantic segmentation》,翻译过来是针对高准确度的目标检测与语义分割的多特征层级,通俗地来讲就是一个用来做目标检测和语义分割的神经网络。
本文作者:Ross Girshick,JeffDonahue,TrevorDarrell,Jitendra Malik。
论文核心观点:能否用深度学习替换传统的图片特征提取方法从而更好的实现目标检测的效果。
论文贡献:
- 在 Pascal VOC 2012 的数据集上,能够将目标检测的验证指标 mAP 提升到 53.3%,这相对于之前最好的结果提升了整整 30%.
- 这篇论文证明了可以讲神经网络应用在自底向上的候选区域,这样就可以进行目标分类和目标定位。
- 这篇论文也带来了一个观点,那就是当你缺乏大量的标注数据时,比较好的可行的手段是,进行神经网络的迁移学习,采用在其他大型数据集训练过后的神经网络,然后在小规模特定的数据集中进行 fine-tune 微调。
在RCNN之前,overfeat已经是用深度学习的方法做目标检测,但RCNN是第一个可以真正可以工业级应用的解决方案。可以说改变了目标检测领域的主要研究思路,紧随其后的系列文章:Fast-RCNN ,Faster-RCNN都沿袭R-CNN的思路。
前言介绍:
先介绍下什么是目标检测:
计算机视觉(Computer Vision,CV)是一门教计算机如何“看”世界的学科。计算机视觉包含多个分支,其中图像分类、目标检测、图像分割、目标跟踪等是计算机视觉领域最重要的研究课题。
在计算机视觉中,图像分类、目标检测和图像分割都属于最基础、也是目前发展最为迅速的3个领域,我们可以看一下这几个任务之间的区别。
- 图像分类:输入图像往往仅包含一个物体,目的是判断每张图像是什么物体,是图像级别的任务,相对简单,发展也最快。
- 目标检测:输入图像中往往有很多物体,目的是判断出物体出现的位置与类别,是计算机视觉中非常核心的一个任务。
- 图像分割:输入与物体检测类似,但是要判断出每一个像素属于哪一个类别,属于像素级的分类。图像分割与物体检测任务之间有很多联系,模型也可以相互借鉴。

本文讨论的目标检测是指通过编写特定的算法代码,让计算机从一张图像中找出若干特定目标的方法。目标检测包含两层含义:
- 判定图像上有哪些目标物体,解决目标物体存在性的问题;
- 判定图像中目标物体的具体位置,解决目标物体在哪里的问题。
目标检测和图像分类最大的区别在于目标检测需要做更细粒度的判定,不仅要判定是否包含目标物体,还要给出各个目标物体的具体位置。
目标检测发展历程:
在利用深度学习做物体检测之前,传统算法对于目标检测通常分为3个阶段:区域选取、特征提取和特征分类。

- 区域选取&#
最低0.47元/天 解锁文章
10万+

被折叠的 条评论
为什么被折叠?



