Cascade R-CNN:深入研究高质量的目标检测
摘要
在目标检测中,需要一个intersection over union(IOU)阈值来定义正负图像。用较低IOU阈值(例如0.5)训练的对象检测器通常会产生噪声检测。然而,检测性能往往又会随着IoU阈值的提高而下降。造成这种原因的因素有两个:1)由于正样本呈指数级减少导致训练过拟合,2)在推断时,检测器的最佳IoU与输入假设的IoU不匹配。针对这些问题,我们提出了一种多级目标检测结构Cascade R-CNN。它由一系列经过训练的检测器组成,这些检测器的IoU阈值不断增加,从而对close false positives具有更强的选择性。检测器是逐阶段训练的,利用观察到的,检测器的输出是一个很好的分布这一结果,来训练下一个更高质量的检测器。逐步改进的hypotheses的重采样保证了所有检测器具有相等大小的正样本集,减少了过拟合问题。在推理中使用相同的级联程序,使hypotheses的质量与每个阶段的检测器的质量之间更加匹配。在具有挑战性的COCO数据集上,Cascade R-CNN的简单实现超过了所有单模型对象检测器。实验还表明,Cascade R-CNN可广泛应用于各种检测器架构,实现与基线检测器强度无关的同样的增益。该代码将在https://github.com/zhaoweicai/cascade-rcnn提供
1. 引言
目标检测是一个复杂的问题,需要解决两个主要任务。首先,检测器必须解决识别问题,将前景物体从背景中区分出来,并给它们分配适当的物体类别标签。第二,检测器必须解决定位问题,为不同的对象分配精确的边界框。这两者都特别困难,因为检测器面临许多接近的假阳性,这些是“接近但不正确”的边界框。检测器必须发现真阳性,同时抑制这些接近的假阳性。

许多最近提出的对象检测器基于两阶段R-CNN框架[12,11,27,21],其中检测被构造为结合分类和bounding box回归的多任务学习问题。与对象识别不同,需要intersection over union(IoU)阈值来定义正/负。然而,通常使用的阈值u(通常u = 0.5)为正样本建立了相当宽松的要求。由此产生的检测器经常产生噪声bounding boxes,如图1 (a)所示。大多数人认为接近假阳性的hypotheses经常通过IoU≥ 0.5这个条件的筛查。虽然在u = 0.5标准下数据是丰富多样的,但它们难以训练能够有效拒绝接近假阳性的检测器。
在这项工作中,我们将hypotheses的质量定义为其与groud-truth的IoU,将检测器的质量定义为用于训练它的IoU阈值u。目标是调查到目前为止研究很少的学习高质量对象检测器的问题,其输出包含很少的接近的假阳性,如图1 (b)所示。基本思想是,单个检测器只能对单个质量水平达到最佳。这在cost-sensitive学习文献[7,24]中是已知的,其中对接收器操作特性(ROC)的不同点的优化需要不同的损失函数。主要区别在于,我们考虑的是给定IoU阈值的优化,而不是误报率。
图1 ©和(d)说明了这一想法,分别显示了三个检测器的定位和检测性能,这三个检测器的IoU阈值分别为u = 0.5、0.6和0.7。定位性能作为输入proposals的IoU的函数进行评估,检测性能作为IoU阈值的函数进行评估,如COCO [20]所示。请注意,在图1 ©中,每个bounding box回归器在,接近检测器被训练时的IoU阈值的示例中,表现最好。这也适用于检测性能,直至过拟合。图 1 (d) 显示,对于低 IoU 示例,u = 0.5 的检测器优于 u = 0.6 的检测器,在 IoU 较高的情况下表现不佳。一般来说,在单个 IoU 级别上优化的检测器不一定在其他级别上是最佳的。这些观察表明,更高质量的检测需要检测器与其处理的hypotheses之间质量匹配更紧密。一般来说,检测器只有在提供高质量的proposals时才能具有高质量。
然而,要产生一个高质量的检测器,在训练期间仅仅增加 u 是不够的。事实上,如图 1 (d) 中 u = 0.7 的检测器所示,这会降低检测性能。问题是从proposals检测器出来的hypotheses的分布通常严重不平衡地向低质量方向发展。一般来说,强制使用较大的IoU阈值会导致正训练样本的数量呈指数级减少。这对于神经网络来说尤其成问题,因为众所周知,神经网络是非常典型的密集型训练,这使得“高u”训练策略很容易过度拟合。另一个困难是检测器的质量和推断时测试hypotheses的质量之间的不匹配。如图1所示,高质量的检测器只对高质量的hypotheses是最佳的。当他们被要求处理其他质量水平的hypotheses时,检测可能不是最好的。
在本文中,我们提出了一种新的检测器结构,Cascade R-CNN,解决了这些问题。它是R-CNN的多级扩展,其中更深入级联的检测器依次更有选择性地防止接近的假阳性。级联的R-CNN级被顺序训练,使用一级的输出来训练下一级。这是由于观察到回归变量的输出IoU几乎总是比输入IoU好。这可以在图1©中观察到,他们都被画在灰线以上。这表明用某个 IoU 阈值训练的检测器的输出是训练下一个更高 IoU 阈值的检测器的良好分布。这类似于对象检测文献中常用的组合数据集的增强方法 [31, 8]。主要区别在于 Cascade R-CNN 的重采样过程并不旨在挖掘hard negatives。相反,通过调整边界框,每个阶段的目标是找到一组好的接近假阳性来训练下一个阶段。当以这种方式操作时,适用于越来越高的iou的检测器序列可以克服过拟合问题,从而被有效地训练。在推理时,应用相同的级联过程。逐步改进的hypotheses更好地匹配了每个阶段不断提高的检测器质量。这使得检测精度更高,如图1 ©和(d)所示。
Cascade R-CNN实现起来非常简单,并且是端到端训练的。我们的结果表明,在具有挑战性的COCO检测任务[20]上,特别是在更高质量的评估指标下,一个没有任何花里胡哨的普通实现大大超过了所有先前最先进的单模型检测器。此外,可以使用任何基于 R-CNN 框架的两阶段目标检测器构建 Cascade R-CNN。我们观察到一致的收益(2∼4 个点),计算量略有增加。该增益与基线对象检测器的强度无关。因此,我们相信这种简单而有效的检测架构对于许多对象检测研究工作可能是有意义的。
2. 相关工作
由于 R-CNN [12] 架构的成功,通过结合proposals检测器和区域分类器的检测问题的两阶段公式在最近成为主流。为了减少 R-CNN 中的冗余 CNN 计算,SPP-Net [15] 和 Fast-RCNN [11] 引入了区域特征提取的思想,显着加快了整体检测器的速度。后来,Faster-RCNN [27] 通过引入区域建议网络 (RPN) 实现了进一步的加速。该架构已成为领先的对象检测框架。最近的一些作品将其扩展到解决各种细节问题。例如,R-FCN [4]提出了没有精度损失的有效的 region-wise全卷积,以避免fast-RCNN繁重的region-wise CNN计算;而MS-CNN [1]和FPN [21]在多个输出层检测proposals,以减轻RPN感受野和实际对象大小之间的比例失配,用于高召回proposals检测。一阶段对象检测体系结构也变得流行起来,主要是由于它们的计算效率。这些架构接近经典的滑动窗口策略[31,8]。YOLO [26] 通过将输入图像前向传播一次来输出非常稀疏的检测结果。当用有效的骨干网络实现时,它能够以优异的性能进行实时对象检测。SSD [23]以类似于RPN [27]的方式检测物体,但是使用不同分辨率的多个特征图来覆盖不同比例的物体。这些架构的主要限制是其精度通常低于两阶段目标检测器。最近,RetinaNet [22]被提出来解决密集对象检测中的极端前景-背景类别不平衡,实现了比最先进的两阶段对象检测器更好的结果。
在多阶段目标检测方面也进行了一些探索。多区域检测器[9]引入了迭代bounding box回归,其中R-CNN被应用多次,以产生更好的边界框。CRAFT [33]和AttractioNet [10]使用多阶段程序生成准确的建议,并将其传播给Fast-RCNN。[19,25]在目标检测网络中嵌入了[31]的经典级联架构。[3]交替重复检测和分割任务,用于实例分割。
3. 目标检测

在本文中,我们扩展了 Faster-RCNN [27, 21] 的两阶段架构,如图 3 (a) 所示。第一阶段是proposal子网络(“H0”),应用于整个图像,以产生初步的检测hypotheses,称为对象proposals。在第二阶段,这些hypotheses然后由region-of-interest 检测子网络(“H1”)处理,表示为检测头。最终分类分数(“C”)和边界框(“B”)被分配给每个hypotheses。我们专注于对多级检测子网络进行建模,并采用(但不限于)RPN [27]进行proposal检测。
3.1. Bounding Box Regression
bounding box b=(bx,by,bw,bh)b = (bx,by,bw,bh)b=(bx,by,bw,bh)包含图像块xxx的四个坐标。 bounding box 回归的任务是使用回归器f(x,b)f (x,b)f(x,b)将候选 bounding box bbb回归成目标 bounding box ggg。这是从训练样本gi,bi{g_i,b_i}gi,bi中学习的,以便最小化bounding box风险:
Rloc[f]=∑i=1NLloc(f(xi,bi),gi)(1) \mathcal{R}_{l o c}[f]=\sum_{i=1}^{N} L_{l o c}\left(f\left(x_{i}, \mathbf{b}_{i}\right), \mathbf{g}_{i}\right) (1) Rloc[f]=i=1∑NLloc(f(xi,bi),gi)(1)
其中,LlocL_{loc}Lloc是R-CNN [12]中的L2L2L2损失函数,但在Fast-RCNN [11]中更新为smoothed L1L1L1损失函数。为了使回归不受比例和位置的影响,LlocL_{loc}Lloc对距离向量∆=(δx,δy,δw,δh)∆=(δx,δy,δw,δh)∆=(δx,δy,δw,δh)进行运算,定义如下:
δx=(gx−bx)/bw,δy=(gy−by)/bhδw=log(gw/bw),δh=log(gh/bh)(2) \begin{array}{cc} \delta_{x}=\left(g_{x}-b_{x}\right) / b_{w}, & \delta_{y}=\left(g_{y}-b_{y}\right) / b_{h} \\ \delta_{w}=\log \left(g_{w} / b_{w}\right), & \delta_{h}=\log \left(g_{h} / b_{h}\right) \end{array} (2) δx=(gx−b

CascadeR-CNN是一种多级目标检测架构,旨在解决使用较低IoU阈值训练的检测器产生噪声检测的问题。级联的检测器序列逐步提高选择性,减少接近假阳性的误报,同时通过级联训练和推理过程匹配检测器与输入假设的质量。在COCO数据集上,CascadeR-CNN超越了所有先前的单模型检测器,实现了高精度和鲁棒性。这种方法可以广泛应用于各种检测器架构,与基线检测器的强度无关。
最低0.47元/天 解锁文章
313

被折叠的 条评论
为什么被折叠?



