CV之DL之R-CNN：R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

本文链接：https://blog.csdn.net/qq_41185868/article/details/79304379

CV之DL之R-CNN：R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

相关论文

《Rich feature hierarchies for accurate object detection and semantic segmentation》翻译与解读

地址	论文地址：https://arxiv.org/abs/1311.2524
时间	2013年11月11日
作者	Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik
总结	这篇文章通过提出Regions Convolutional Neural Network(RCNN)的目标检测方法，解决了使用卷积神经网络(CNN)进行目标检测的两个主要挑战: >> 对象定位问题:与使用滑动窗口进行检测相比，文章采用基于检测区域的方法来利用CNN进行objects定位。它使用 selective search算法生成约2000个类别无关的区域建议，然后提取每个区域建议的固定长度特征向量进行分类。 >> 训练数据量小的问题:文章提出了使用大量辅助数据集(ILSVRC2012分类任务)进行监督预训练，然后在小数据集(PASCAL)上进行域特定微调的训练策略。这种策略有效提高了CNN在训练数据有限情况下的性能。通过结合区域建议和CNN特征，所提出的RCNN方法大幅提升了PASCAL VOC数据集上的目标检测平均准确率，从35.1%提升到53.3%。同时在ILSVRC2013检测任务上，RCNN的平均准确率也高达31.4%，明显优于同类方法。 >> 此外，文章还探讨了RCNN在可扩展性、计算效率及错误模式方面的分析。同时提出进行边界框回归可以有效减少定位错误，进一步提升平均准确率。总之，此文章通过深度学习网络和基于区域的目标检测框架，很好的解决了CNN在目标检测任务上的一些重要问题，达到了 state-of-the-art 的效果，为利用CNN进行目标检测奠定了基础。

Abstract

Object detection performance, as measured on the canonical PASCAL VOC dataset, has plateaued in the last few years. The best-performing methods are complex ensemble systems that typically combine multiple low-level image features with high-level context. In this paper, we propose a simple and scalable detection algorithm that improves mean average precision (mAP) by more than 30% relative to the previous best result on VOC 2012---achieving a mAP of 53.3%. Our approach combines two key insights: (1) one can apply high-capacity convolutional neural networks (CNNs) to bottom-up region proposals in order to localize and segment objects and (2) when labeled training data is scarce, supervised pre-training for an auxiliary task, followed by domain-specific fine-tuning, yields a significant performance boost. Since we combine region proposals with CNNs, we call our method R-CNN: Regions with CNN features. We also compare R-CNN to OverFeat, a recently proposed sliding-window detector based on a similar CNN architecture. We find that R-CNN outperforms OverFeat by a large margin on the 200-class ILSVRC2013 detection dataset. Source code for the complete system is available at this http URL.

目标检测性能在经典的PASCAL VOC数据集上的表现在过去几年中已经趋于稳定。表现最好的方法是复杂的集成系统，通常将多个低级图像特征与高级上下文相结合。在本文中，我们提出了一种简单且可扩展的检测算法，相对于先前在VOC 2012上的最佳结果，平均精度（mAP）提高了30%以上，达到了53.3%的mAP。我们的方法结合了两个关键见解：（1）可以将高容量的卷积神经网络（CNN）应用于自底向上的区域提案，以定位和分割对象；（2）当标记的训练数据稀缺时，通过辅助任务的监督预训练，然后进行领域特定的微调，可以显著提高性能。由于我们将区域提案与CNN相结合，我们将我们的方法称为R-CNN：具有CNN特征的区域。我们还将R-CNN与OverFeat进行了比较，OverFeat是基于类似CNN架构的最近提出的滑动窗口检测器。我们发现在200类ILSVRC2013检测数据集上，R-CNN远远优于OverFeat。完整系统的源代码可在此http URL找到。

Figure 1: Object detection system overview.图1:R-CNN目标检测系统概述。

R-CNN算法的简介

R-CNN是用深度学习解决目标检测问题的开山之作，2014年，第一次用深度学习来做传统的目标检测任务。
罗斯·格希克(Ross Girshick)是Facebook人工智能研究(FAIR)的一名研究科学家，致力于计算机视觉和机器学习。2012年，他在Pedro Felzenszwalb的指导下获得了芝加哥大学计算机科学博士学位。在加入FAIR之前，罗斯是微软研究院(Microsoft Research)的研究员、雷德蒙德(Redmond)和加州大学伯克利分校(University of California, Berkeley)的博士后。他的兴趣包括实例级对象理解和视觉推理挑战，这些挑战将自然语言处理和计算机视觉结合起来。他获得了2017年PAMI青年研究员奖，并以开发用于目标检测的R-CNN(基于区域的卷积神经网络)方法而闻名。2017年，罗斯还凭借《面具R-CNN》获得ICCV的Marr奖。
评价：RBG是这个领域神一样的存在，后续的一些改进方法如Fast R-CNN、Faster R-CNN、YOLO等相关工作都和他有关。