我们从region based物体检测器 (Faster R-CNN, R-FCN, FPN)中能学到些什么？-CSDN博客

本文链接：https://blog.csdn.net/u011984148/article/details/99439581

点击上方“AI公园”，关注公众号

作者：Jonathan Hui

编译：ronghuaiyang

在这个系列中，我们会进行一次物体检测之旅。在第一部分，我们会讲到region based物体检测器，包括Fast R-CNN, Faster R-CNN, R-FCN和FPN，在第二部分，我们会学习一阶段的检测器。在第三部分，我们会讲到性能和一些实现的细节。通过这些学习，我们会学到在物体检测中，什么在起作用，什么是重要的，哪里可以提升。希望能够通过我们如何走到这一步的这些过程，可以给我们一些前进的方向的提示。

今天，我们来看第一部分，我们从region based物体检测器 (Faster R-CNN, R-FCN, FPN)中能学到些什么？

滑动窗口检测器

自从AlexNet赢得了 2012 ILSVRC的比赛，在分类领域，CNN完全处于主导地位。物体检测的一个简单粗暴的方法就是使用从左到右，从上到下的滑动窗口，通过分来的确认物体。为了检测不同距离，不同类型的物体，我们使用了不同尺寸，不同比例的窗口。

640?wx_fmt=jpeg

我们根据滑动窗口切割出图像块。这些块需要进行缩放，因为多数的分类器只能使用固定尺寸的图像。不过，这并不会影响分类的准确率，因为分类器本来就是使用这些缩放的图像进行训练的。

640?wx_fmt=jpeg

缩放后的图像输入到CNN的分类器中，提取了4096维的特征向量。然后使用一个SVM的分类器来确定类别，使用另外的一个线性回归器来得到边界框。

640?wx_fmt=png

下面的是伪代码，我们创建了许多的窗口来进行不同形状，不同位置的物体的检测。为了提升性能，一个很显然的方案就是减少窗口的数量。

Selective Search

为了替代这种简单粗暴的方法，我们使用了一个建议区域的方法来得到感兴趣的区域（ROIs）来进行物体检测。在selective search中，我们从每个独立的像素开始，每个像素都有自己的一个群。然后，我们计算每个群的纹理，然后把拥有相近纹理的群组合并在一起。为了防止单个群合并的太大，我们优先合并小的群。我们一直进行区域合并，知道所有的都组合在了一起。下面的第一行，我们展示了区域是如何生存的，第二行中蓝色的矩形展示了合并过程找那个可能的ROIs。

640?wx_fmt=png

R-CNN

R-CNN利用了建议区域的方法创建了约2000个ROIs（感兴趣区域）。这些区域缩放到相同的尺寸然后独立的送到CNN的分类器中，然后接一个全连接层来进行分类以及精细调整边界框。

640?wx_fmt=jpeg

这里是系统的流程：

640?wx_fmt=png

使用了更少，但是质量更高的ROIs（感兴趣区域），R-CNN比滑动窗口的方法运行更快，更准确。

边界框回归器

建议区域的提取方法非常吃计算资源。为了加速这个过程，我们往往选择一个计算量小一点的建议区域提取方法来生成ROIs，然后接一个线性回归器（全连接层），来精细调整边界框。

640?wx_fmt=jpeg

Fast R-CNN

R-CNN需要很多的建议区域才能准确，这些区域之间很多都是有重合的。R-CNN的训练和推理都是很慢的，如果有2000个建议区域，每个都需要经过CNN处理一次，我们需要对不同的ROIs重复2000次的特征提取。

为了不用对每个图像块都从头进行一次特征提取，我们使用了一个特征提取器（一个CNN）来提取整幅图像的特征。我们还使用了一个外部的建议区域生成的方法，类似于selective search，来生成ROIs，然后和对应的特征图结合起来生成不同的特征块来进行物体检测。我们使用ROI pooling的方法把这些特征块缩放到固定的尺寸，然后送到一个全连接层进行分类和定位（检测物体的位置）。这样就不用重复进行特征提取了，Fast R-CNN显著的降低了处理的时间。

640?wx_fmt=jpeg

下面是网络的流程：

640?wx_fmt=jpeg

在下面的伪代码中，最耗时的特征提取已经被移动到循环外面了，这样可以显著的提升速度，不用再处理2000个ROIs了。Fast R-CNN比R-CNN训练快10倍，推理快150倍。

Fast R-CNN的一个主要的卖点是整个网络（特征提取器，分类器，边界框回归器）可以端到端的训练，使用多任务的loss（分类和定位），这样也提升了准确率。

ROI Pooling

由于Fast R-CNN使用了全连接层，我们使用ROI pooling将不同的ROIs缩放到同一个尺寸。

让我们简单的讨论一下将8x8的特征图变换到2x2的尺寸。

左上角：我们的特征图
右上角：我们将ROI和特征图进行重合
左下角：我们将ROIs分成和目标相同的维度。例如，我们的目标是2x2，我们就将ROIs分成4个部分，每个部分同样的尺寸。
右下角：找到每个部分的最大值作为结果，就是缩放后的特征图。

640?wx_fmt=png

所以我们会得到一个2x2的特征块，然后送到分类器和回归器中。

Faster R-CNN

Fast R-CNN依赖于外部的建议区域的生成方法，如selective search。然而，这些方法是跑在CPU上的，非常的慢。在测试的时候，Fast R-CNN需要花2.3秒的时间来进行预测，其中2s的时间是用来生成2000个ROIs。

Faster R-CNN使用了和Fast R-CNN同样的设计，除了将生成建议区域的方法替换成了使用网络来做，ROIs是通过特征图得到的。新的建议区域生成网络（RPN）更加的高效生成ROIs的时候，每张图像只需要10ms。

640?wx_fmt=jpeg

网络流程很相似，但是建议区域生成替换成了卷积网络（RPN）。

640?wx_fmt=png

Region proposal network

建议区域生成网络（RPN）以第一个卷积网络的输出的特征图为输入。使用3x3的卷积核在特征图上滑动，使用一个像ZF网络的卷积神经网络来生成不区分类别的建议区域（下图）。其他的深度网络如VGG或者ResNet也可以用来得到更加复杂的特征提取，当然也会牺牲一些速度。ZF网络输出256维特征，然后送到2个独立的全连接层预测边界框和2个物体存在的得分、物体存在衡量的是这个框中是否包含物体。我们可以简单的使用回归器来计算单个的物体存在得分，Faster R-CNN使用了一个分类器得到了2个可能的类别：一个是“有物体”类别，另外一个是“没有物体”（背景）类别。

640?wx_fmt=jpeg

对于特征图的每一个位置，RPN得到k个猜测。这样的话RPN每个位置输出4xk个坐标和2xk个得分。下面的图展示了8x8的特征图使用3x3的卷积核，输出是8x8x3个ROIs（k=3）。右边的图使用单个位置得到了3个建议区域。

640?wx_fmt=jpeg

这里，我们得到3个猜测，我们后面会精调我们的猜测。既然我们想要变的更加准确，如果我们的初始猜测具有不同的尺寸和形状的话，就更好了。所以，Faster R-CNN 并不是随机的生成建议边界框的。而是预测一些叫做anchors的参考框，距离这些参考框左上角的?x, ?y。我们对这些偏移量进行约束，所以我们的猜测仍然和anchors类似。

640?wx_fmt=png