R-CNN_包围盒人脸-CSDN博客

GirshickR, Donahue J, Darrell T (UC Berkeley). Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J]. Computer Science, 2014:580-587.
为了解决随着图像增大待检测区域的数目呈平方上升的问题，将侯选框（region proposal）方法与卷积网络相结合。为了提高物体定位精度，采用了包围盒回归方法（bounding box regression）。
问题：全连接层只能接受固定尺寸的输入，rcnn要求对侯选框进行缩放或裁剪到固定大小，这样会破坏物体的纵横比和图像大小信息以及破坏物体的上下文信息。2.rcnn使用包围盒回归有助于提高物体的定位精度，但如果待检测物体存在遮挡或交叉，该方法很难提高定位精度

摘要：过去几年在标准数据集PASCAL VOC上进行对象检测的方法性能趋于稳定水平。最佳性能的方法是通常将多个低级图像特征与高级上下文组合的复杂系系统。在本文中，我们提出一个简单可扩展的检测算法，相对于以前的VOC 2012的最佳结果30％提高了平均精度（mAP）-mAP 达到53.3％。我们的方法结合了两个关键的见解：（1）可以自下而上区域建议应用高容量的卷积神经网络（CNN），以便定位和分割对象（2）当标记的训练数据稀少时，对于辅助任务监督的预训练，通过对特定区域进行的微调产生显著的提升性能。由于我们将区域建议与CNN相结合，我们称之为R-CNN：具有CNN特征的区域。
Introduction：
关于各种视觉识别任务的最后十年的进展基于SIFT [27]和HOG [7]的使用。但是，如果我们观察规范视觉识别任务，PASCAL VOC对象检测的性能[13]，通常认为在2010-2012年期间进展缓慢，通过建立集合系统和采用变体方法的获得的收获 。
SIFT和HOG是区块定向直方图，我们可以大致与V1中的复杂模块动物视觉途径中的第一皮质区域相关联的表示。但我们也知道识别发生在下游的几个阶段，这表明可能有分层的，多阶段特征计算的过程甚至更多的视觉识别信息。福岛的“人工智慧图形识别装置”[17]是一种生物学启发的层次和模式识别的位移不变模型，是这样一个过程的早起尝试。然而，人工智慧图形识别器缺少监督训练算法。建立在Rumelhart[30]，LeCun等[24] 上的方法表明随机梯度下降通过反向传播是有效的训练卷积神经网络（CNNs），人工智慧图形识别的一类扩展模型。
CNN在20世纪90年代被大量使用（例如，[25]），但随着支持向量机的兴起，CNN又淘汰。2012年，Krizhevsky et al。 [23]通过在ImageNet大规模视觉识别挑战（ILSVRC）上显示出更高的图像分类精度，重新引起人们对CNN的兴趣[9,10]。他们的成功来自于对120万个标记的图像训练大的CNN，以及对LeCun的CNN（例如，max（x，0）整流非线性和“损失”正则化）的一些编织。
我们通过弥合图像分类和对象检测之间的差距来回答这个问题。本文首先表明，与基于更简单的HOG类特征的系统相比，CNN可以导致PASCAL VOC上的显着更高的对象检测性能。为了实现这一结果，我们关注两个问题：用深层网络将对象定位于，并且训练具有高性能模型仅使用少量的注释数据。
与图像分类不同，检测需要在图像将（可能许多）对象定位。一种方法将定位作为回归问题。然而，Szegedy等人的工作 [33]与我们自己的同时，表明这种策略在实际应用中可能不好（他们在voc 2007数据集上的mAP30％，我们的方法得到的mAP为58.5％）。一种可选方案是构建滑动窗检测器。CNN采用这种方法至少二十年了，通常用在约束对象类别上，例如面部[29,35]和行人[31]。为了保持高空间分辨率，这些CNN通常仅具有两个卷积层和池化层。我们也考虑采用滑动窗口方法。然而，我们的网络中具有五个卷积层的单元在输入图像中具有非常大的接收区域（195×195像素）和步幅（32×32像素），这使得滑动窗口范围内精确定位技术具有挑战性。
相反，我们通过“使用区域识别”范例[19]的操作来解决CNN定位问题，其已经成功用于对象检测[34]和语义分割[5]。在测试时，我们的方法为输入图像生成大约2000个独立的区域建议框，使用CNN从每个建议提取固定长度特征向量，然后使用特定类别的线性SVM对每个区域框进行分类。我们使用一种简单的技术（仿射图像变形）来计算来自每个区域建议的固定大小的CNN输入，而不管区域的形状。图1给出了我们方法的概述，并强调了我们的一些结果。
由于我们的系统将区域建议框与CNN组合，我们将该方法称为R-CNN：具有CNN特征的区域。

检测中面临的第二个挑战是带标记的数据数量较少，并且当前可得到的数据量不足以训练较大的CNN。这个问题的常用解决方案是使用无监督预训练，接着是有监督的微调（例如，[31]）。本文的第二个主要贡献是在大型辅助数据集（ILSVRC）上的监督预训练，随后是小数据集（PASCAL）上的特定区区域微调，当数据不足时该方法是学习大容量CNN的有效范例 。在我们的实验中，微调后检测将mAP值提高8个百分点。在微调后，我们的系统在VOC 2010上的mAP达到了54％，而基于HOG的部件可变形模型（DPM）的调整后的mAP为33％[15,18]。我们还向读者指出同时期由Donahue等人 [11]做的工作，他们表明Krizhevsky的CNN可以使用（没有微调）作为黑箱特征提取器，获得了很好的效果在几个识别任务，包括场景分类，细粒度子分类。
我们的系统也很高效。 特定的分类计算是适度小的矩阵向量积和贪婪的非最大抑制。这种计算性质来自于所有类别共享的特征，并且比先前使用的区域特征低两个数量级[34]。了解我们的方法的错误类型也是改善它的关键，所以我们报告结果从Hoiem等的检测分析工具开始 [21]。这种分析的直接后果，我们证明一个简单的边界框回归方法显著减少错误定位，这是主要的错误类型。
在开发技术细节之前，我们注意到因为R-CNN在区域上操作，所以将其扩展到语义分割的任务是自然的。通过微小的修改，我们还在PASCAL VOC分割任务上实现了竞争性结果，在VOC 2011测试集上的平均分割精度为47.9％。



Conclusion
近年来，对象检测性能停滞不前。最佳性能的系统是将多个低级图像特征与来自对象检测器和场景分类器的高级上下文组合的复杂集合。本文提出了一个简单和可扩展的对象检测算法，与以前PASCAL VOC 2012上最佳的结果相比有相对30％的提升。
我们通过两个见解实现了这一性能。 第一个是将高容量卷积神经网络应用于自下而上区域建议，以便本目标定位和分割对象。第二种是当标记的训练数据不足时用于训练大CNN的范例。我们表明，它是非常有效的预训练网络与监督 - 一个辅助任务丰富的数据（图像分类），然后微调网络为数据稀缺目标任务（检测）。我们推测“监督的预训练/领域特定微调”范例将对各种数据缺乏的视觉问题高度有效。
我们最后指出，我们通过使用计算机视觉和深度学习的经典工具（自下而上区域建议和卷积神经网络）的组合实现这些结果是重要的，这两者不是反对科学探究的线，而是自然和不可避免的伙伴。

overview

首先对每一个输入图像都用selective search算法提取大约2000个建议框，对每一个建议框进行简单粗暴的变形，即先在周围加16个像素的边框，边框像素值为该图像的平均值，再变形为227*227的大小。对每一个变形后的建议框计算一次CNN特征，再用一个SVM分类器进行分类。

dataset

本文提出一种十分有效的解决有标签的训练数据太少的方法，先在ImageNet上有监督地预训练，再在小数据集PASCAL上微调。
在微调时，与Ground Truth的IoU交叠≥0.5的区域建议框，认为是正样本，其他的是负样本，这样也扩大了数据集。
但是注意，在SVM训练时，经过验证发现，与Ground Truth的IoU交叠＜0.3的区域建议，认为是负样本，Ground Truth就是正阳本，其他的忽略。作者在补充材料中做出了猜想，认为可能是SVM的训练样本需要精确的定位。

bounding box regression

包围盒回归也在补充材料中详细给出了，我描述起来有点复杂，它的主要目标是找到一个从建议框(proposal)P到实际标注框(Ground Truth)G之间的一个映射变换，通过优化一个回归函数来获得最优参数。当然也不是对所有建议框都做这样的回归，而是只对与Ground Truth的IoU交叠大于一个阈值的建议框进行回归。