【目标检测】Cascade R-CNN: Delving into High Quality Object Detection论文理解

最新推荐文章于 2024-10-15 20:00:22 发布

不断进步的咸鱼

最新推荐文章于 2024-10-15 20:00:22 发布

阅读量1k

点赞数 1

分类专栏：目标检测文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_36926037/article/details/115140550

版权

目标检测专栏收录该内容

32 篇文章 19 订阅

订阅专栏

文章目录

摘要
1 介绍
2 相关工作
3 目标检测
4 Cascade R-CNN
- 4.1 级联边界框回归
- 4.2 级联检测
5 实验结果
6 结论

摘要

IOU阈值和目标检测之间的关系：
参考：https://zhuanlan.zhihu.com/p/42553957

目标检测需要交并比(IoU)阈值来定义正、负样本。
在这里插入图片描述
较低的IoU阈值(如0.5)训练的目标检测器通常会产生噪声检测。为了产生更高精度的box，可以提高产生正样本（positive）的IoU阈值，这样后面的检测器（detector）接收到了更高精度的提案（proposals），自然能产生高精度box。但随着IoU阈值的增加检测精度反而降低，问题：
（1）过拟合：提高IOU阈值，满足阈值条件的提案（正样本）呈指数级减少，导致训练过程中的过拟合;
（2）更严重的mismatch问题：优化检测器的IoU与输入假设（产生positive提案）的IoU推理时不匹配。
本文：
为了解决上述问题，提出一种多阶段目标检测架构——Cascade R-CNN，包含一系列经过不断增加IOU阈值训练的检测器，对相近的假阳性（false positives）有更大的选择性。检测器的训练是逐阶段进行的，利用了这样的观察：一个检测器的输出是训练下一个更高质量检测器的良好分布。逐步改进的假设的重新抽样保证了所有检测器都有相等大小的正样本集，减少了过拟合问题。推理时应用同样的级联程序，使假设和每个阶段的检测器质量更加匹配。
实验结果：
Cascade R-CNN可以超越COCO数据集上所有单阶段目标检测器；Cascade R-CNN在不同的检测器架构中有广泛的应用，可以在不依赖于基线检测器，获得一致的增益。
代码：
https://github.com/zhaoweicai/cascade-rcnn

1 介绍

目标检测：
目标检测是一个复杂的问题，需要解决两个主要任务：
(1）首先，检测器必须解决识别问题，区分前景物体和背景物体，并为它们分配适当的类标签；
(2）第二，检测器必须解决定位问题，为不同的对象分配精确的边界框。
这两个任务都特别困难，因为检测器面临许多接近的假阳性（close false positives）——接近但不正确的边界框。
检测器必须找到真阳性（true positives），同时抑制接近的假阳性（“close” false positives）
在这里插入图片描述
最近提出的许多目标检测器都是基于两阶段的R-CNN框架，检测被定义为结合分类和边界框回归的多任务学习问题，不同于目标识别需要交并比(IoU)阈值定义正/负(positives/negatives样本)，然而常用的阈值u（通常为 0.5），对正样本(positives)的要求宽松，导致检测器经常产生噪声边界框，如图1 (a)。
close false positives的假设通常通过IoU≥0.5的测试。虽然在u = 0.5的准则下提案样本丰富多样，但很难训练出能够有效拒绝相近假阳性（close false positives）的检测器。
本文：
将假设（提案）的质量定义为其与GT的IoU，检测器的质量定义为训练检测器时的IoU阈值。
目标：研究到目前为止，学习高质量目标检测器时（输出几乎没有close false positives，图1b）的研究问题。
基本思想：单个检测器只能是单个质量水平的最佳选择。ROC（receiver operating characteristic）不同点的优化需要不同的损失函数，我们与其的主要的区别是考虑给定IoU阈值的优化，而不是假阳性率（false positive rate）的优化
在这里插入图片描述
图1 ( c )和( d )用 u = 0.5、0.6、0.7的IoU阈值训练的3个检测器的定位性能（输入提案的IOU的函数）和检测性能（IOU阈值的函数）。
图1 ( c )： 横轴表示RPN的输出提案（proposal）的IoU，纵轴表示提案（proposal）经过边界框回归器的新IoU：
1.只有提案（proposal）的IOU接近检测器训练的阈值时，边界框回归器的性能才最好。
2.如果两个阈值相距比较远，就出现mismatch。
3.单一阈值训练出的检测器效果非常有限，单一阈值不能对所有的Proposals都有很好的优化作用。
图1 (d)： 横轴表示inference阶段，判定边界框为正样本（positive）的IoU阈值,纵轴为mAP
低IOU时，u = 0.5的检测器的性能优于u = 0.6的检测器，而在较高IOU水平上，性能低于u = 0.6。
通常在单个IoU级别优化的检测器在其他IOU级别上不一定是最优的。
观察表明：高质量的检测需要检测器和它处理的假设之间有紧密的匹配。一般来说，提出高质量的提案的检测器才是高质量的检测器。
训练时提高u值：
在这里插入图片描述
为了产生高质量的检测器，仅仅在训练中增加u值是不够的，可能会降低检测性能（过拟合或质量不匹配）（提案检测器产生的假设分布通常会严重偏向低质量。如图1 (d) u = 0.7的检测器）：
（1）一般来说，强制设置更大的IOU值会导致正训练样本的指数级减少，这对神经网络来说是一个严重的问题，“高U值”训练策略非常容易过度拟合。
（2）另一个困难是在推断时，检测器的质量与测试假设的质量不匹配
高质量检测器只对高质量的假设是必要的最佳选择，当被要求在其他质量水平的假设上工作时，检测可能是次优的。
Cascade R-CNN：
本文提出一种新的探测器架构——Cascade R-CNN。它是R-CNN的一个多阶段扩展，级联中更深的检测器依次对接近的假阳性（close false positives）更具选择性。Cascade R-CNN的阶段依次被训练，使用一个阶段的输出来训练下一个阶段。
上述设计是由于观察所激发的——回归器的输出IOU几乎总是比输入IOU好（图1( c )）。表明，用某一IOU阈值训练的检测器（提案生成器）的输出是一个很好的分布，可以训练下一个更高IOU阈值的检测器。这类似于目标检测文献中常用的集合数据集的boostrapping方法，主要的区别是 Cascade R-CNN的重采样过程并不是为了挖掘硬负样本（hard negatives），而是通过调整边界框，每个阶段的目标是找到一组良好的接近假阳性（ close false positives）来训练下一阶段。通过这种方式，适应越来越高IOU值的检测器序列可以克服过拟合问题，从而有效地训练。在推理时，应用了相同的级联过程，逐步改进的假设更好地匹配每个阶段不断增加的检测器（提案生成器）质量，这使得检测准确率更高。 Cascade R-CNN实现非常简单，而且是端到端训练。
实验结果：
（1）在具有挑战性的COCO检测任务上大大超过了所有以前最先进的单模型检测器，特别是在更高质量的评价指标下。
（2）此外，Cascade R-CNN可以构建在任意基于RCNN的两阶段目标检测器上。
（3）在计算边际增加的情况下，得到一致增益(2 ~ 4点)。这个增益与基线目标检测器的强度无关。因此我们相信这种简单而有效的检测体系结构可以为许多目标检测研究工作带来兴趣。

2 相关工作

两阶段检测器：
（1）R-CNN架构：通过结合提案检测器和区域分类器，两阶段检测在最近的过去已经占据主导地位。
（2）SPP-Net和Fast RCNN：为了减少R-CNN中的冗余CNN计算，引入了区域特征提取的思想，显著提高了整体检测器的速度。
（3）Faster-RCNN：通过引入Region Proposal Network (RPN)实现了进一步的加速。该体系结构已成为领先的目标检测框架。一些较近期的作品将其扩展到各种细节问题。
（4）R-FCN：提出了高效的区域全卷积而不损失精度，以避免Faster-RCNN繁重的区域全卷积计算;
（5）MS-CNN和FPN：在多个输出层检测提案，以缓解RPN网络感受野与实际对象大小的尺度不匹配，用于生成高召回建议检测。
单阶段检测器：
单阶段目标检测体系结构也变得流行起来，主要是由于它们的计算效率，这些架构接近于经典的滑动窗口策略。
（1）YOLO：通过一次前向传播输入图像，输出非常稀疏的检测结果。当与一个高效的骨干网一起实现时，可以实现具有高性能的实时目标检测。
（2）SSD：以一种类似于RPN的方式检测对象，但使用不同分辨率的多个特征图覆盖不同尺度的对象。
（3）RetinaNet：上述体系结构的主要局限性是其精度通常低于两级探测器。针对密集目标检测中前景-背景类别极不平衡的问题，提出了RetinaNet，其结果优于目前最先进的两阶段目标检测器。
多阶段检测器：
在多阶段目标检测方面也提出了一些探索。
（1）multi-region detector 多区域检测器：引入迭代边界框回归，其中R-CNN被多次应用，以产生更好的边界框。
（2）CRAFT和AttractioNet：使用了一个多阶段程序来生成精确的提案，并将它们前向传播到Fast RCNN。
（3）将经典的级联架构嵌入到目标检测网络中。
（4）交替地迭代一个检测和一个分割任务，例如分割。

3 目标检测

本文扩展了Faster-RCNN（如图3(a)）两阶段架构：
在这里插入图片描述
第一阶段，是一个提案子网(“H0”)应用于整个图像，产生初步的检测假设（对象建议）。
第二阶段，假设由一个感兴趣区域检测子网(H1)处理（检测头），最终的分类分数(“C”)和边界框(“B”)被分配给每个假设。
本文重点：建模一个多阶段检测子网，采用但不限于RPN进行提议检测。

3.1 边界框回归

边界框回归：
（1）边界框回归目标：边界框b = (b_x, b_y, b_w, b_h)包含图像块 x的四个坐标。边界框回归的任务是使用回归器f(x,b)将候选边界框b回归到目标边界框g，这是从训练样本集{g_i,b_i}中学习到的。
（2）边界框回归风险（损失）：
在这里插入图片描述其中L_local在R-CNN 中是L₂损失函数，在Fast-RCNN中更新为smooth L₁损失函数。为了鼓励尺度和位置的回归不变，L_local作用于距离向量∆= (δx， δy， δw， δh)：

由于边界框回归通常对b（候选边界框）进行小的调整，公式(2)的数值可以非常小。因此边界框风险(1)通常比分类风险小得多。为了提高多任务学习的有效性，通常使用∆的均值和方差进行归一化，即δx由在这里插入图片描述代替。
迭代边界框回归（iterative BBox）：

一些文献认为边界框回归器f(x,b)的单一回归不足以实现精确定位，相反迭代地应用边界框回归器f(x,b)作为后处理步骤来精修边界框b：

称为迭代边界框回归(图3 (b))，所有的头都是相同的。Iterative BBox的H位置都是共享的，而且3个分支的IoU阈值都取0.5
迭代边界框回归忽略了两个问题：
（1）如图1，在u = 0.5处训练的回归器f对于较高IOU假设是次优的，它实际上会降低IoU大于0.85的边界框；
在这里插入图片描述
（2）如图2，每次迭代后边界框的分布都发生了显著的变化，虽然回归器对初始分布来说是最优的，但在那之后它可能就不是最优的了——detector会改变样本的分布，这时候再使用同一个共享的H对检测肯定是有影响的
在这里插入图片描述
（观察图2：可以看到每经过一次回归，样本都更靠近gt一些，质量也就更高一些，样本的分布也在逐渐变化。如果还是用0.5的阈值，在后面两个stage就会有较多离群点，使用共享的H也无法满足detector的输入的变化。从上面这个图也可以看出，每个阶段cascade都有不同的IoU阈值，可以更好地去除离群点，适应新的proposal分布。）
由于这些问题，iterative BBox需要大量的人工工程，比如提案积累、框投票，并且有一些不可靠的收益，通常除了应用两次回归器f之外没有任何好处。

3.2 分类器

目标：
分类器是一个函数h(x)，它将一个图像块x分配给M + 1个类中的一个，其中类0代表背景，其余M代表相应要检测的对象。
分类器风险（损失）：
h(x)是类的后验分布的M + 1维估计，即h_k(x) = p(y = k|x)，其中y为类标号。给定一个训练集(xi, yi)，通过最小化分类风险来学习：
在这里插入图片描述
其中L_cls是经典的交叉熵损失

3.3 检测质量

IOU：
边界框通常包括一个对象和一些背景，很难确定检测是阳性（positive）还是阴性（negative），这通常通过IoU度量来解决，如果IoU高于阈值u，则认为该图像块（检测到的边界框）是该类的一个示例，假设x的类标号是u的函数，
在这里插入图片描述
其中g_y是GT对象g的类标签，这个IoU阈值u定义了检测器的质量。
目标检测具有挑战性：
（1）问题：无论IOU阈值是多少，检测设置都具有很强的对抗性。当u值较高时，正（positive）包含的背景较少，但很难集合足够的正训练样本。当u较低时，可以得到更丰富、更多样化的正训练集，但训练后的检测器对接近的误报（close false positives）没有拒绝的动机。
一般来说，很难要求单个分类器在所有IoU级别上表现一致良好，推理时由于大多数的假设是由一个提案检测器产生（如RPN或选择性搜索），质量较低，对于质量较低的假设检测器必须具有更强的判别性。
（2）在这些相互冲突的要求之间，一个标准的折衷方案是设置u = 0.5，然而这是一个相对较低的阈值，导致低质量的检测（如图1 (a)）
分类器集成（Integral Loss）：
在这里插入图片描述

一个最初的解决方案是开发一个分类器集成（图3 ( c )），并针对不同的质量水平，优化分类损失：
在这里插入图片描述
其中U是一组IOU阈值，其中U ={0.5,0.55，···，0.75}设计来拟合COCO挑战的评价指标。Integral Loss共用pooling，只有一个stage，但有3个不共享的H，每个H处都对应不同的IoU阈值。
集成分类器存在的问题：
在这里插入图片描述
（1）proposal分布可以看到，第一个stage的输入IoU的分布很不均匀，高阈值proposals数量很少，导致负责高阈值的detector很容易过拟合。
（2）在inference时，3个detector的结果要进行ensemble，但是它们的输入的IoU大部分都比较低，这时高阈值的detector也需要处理低IoU的proposals，它就存在较严重的mismatch问题，它的detector效果就很差了。
每个阶段cascade都有足够的样本，不会容易过拟合。
该方法没有大多数质量级别上实现更高的精度，而且架构也没有获得比图3 (a)更大的收益。

4 Cascade R-CNN

4.1 级联边界框回归

单个回归器很难在所有质量水平上完美一致地执行，受级联姿态回归（cascade pose regression ）和人脸对齐（face alignment）等作品的启发，将困难的回归任务分解为一系列较简单的步骤。
在这里插入图片描述
Cascade R-CNN为一个级联回归问题（如图3 (d)），依赖于一系列特殊化回归器：

其中T为级联阶段的总数，级联中的每个回归器f_t都是经过优化的，样本分布{b_t}而不是初始分布{b₁}到达相应阶段的，级联使假设逐步得到改善。
与Iterative BBox架构(图3 (b))的不同：
（1）Iterative BBox是一种用于改进边界框的后处理过程，级联回归是一种改变假设分布的重采样过程，由不同的阶段处理。
（2）级联回归同时用于训练和推理，所以训练和推理分布之间没有差异。
（3）针对不同阶段的重采样分布，对多个专业回归器{f_T, f_T−1，···，f₁}进行优化。Iterative BBox只在初始分配时是最优的。
结果：这些差异使定位比Iterative BBox更精确且无需进一步的人工工程。
如3.1节所述∆= (δx， δy， δw， δh)需要对其均值和方差进行归一化，以实现有效的多任务学习。在每个回归阶段之后，这些统计信息将依次发展，如图2在训练时，在每个阶段使用相应的统计量对∆进行归一化。

4.2 级联检测

在这里插入图片描述

如图4左：
初始假设（RPN提案）的分布，严重倾向于低质量，导致高质量分类器的无效学习。cascade R-CNN通过依赖级联回归作为重采样机制来解决这个问题。
级联回归从一组实例(xi,bi)开始，依次对较高IoU的样本分布(x ’ i,b ’ i)进行重采样，这样即使在检测器质量(IOU)提高的情况下，也可以将连续阶段的正（positive）集保持在大致恒定的大小。
如图4右： 在每个重采样步骤后，分布更倾向于高质量的样本，产生两个结果：
（1）不存在过度拟合，因为各个层次的正（positive）例很多。
（2）较深阶段的检测器使用较高IOU阈值进行优化。通过增加IoU阈值，可以依次删除一些异常值（如图2），从而可以更好地训练专门的检测器序列。
在每个阶段t, R-CNN包括一个分类器h_t和一个使用IoU阈值优化的回归器u~^t-1，其中u^t> u^t−1，这是通过最小化损失来实现的：
在这里插入图片描述
其中b^t= f_t−1(x^t−1，b^t−1)，g为x^t的GT对象，λ = 1为权衡系数，[·]为指标函数，y^t为给定检测器u^t预测x^t的标签。本文保证了一系列经过有效训练的提高质量的检测器。在推断时，假设的质量不断改善，通过应用相同的级联程序，更高的质量检测器只需要在更高质量的假设上操作，可以实现高质量的对象检测。

5 实验结果

数据集：
Cascade R-CNN在MS-COCO 2017上进行了评估，其中包含约118k的图像用于训练，5k用于验证(val)，约20k用于测试(test-dev)没有提供标注。
评价指标：
coco风格的平均精度(AP)在IoU阈值从0.5到0.95之间以0.05为间隔对AP进行平均。这些评价指标衡量各种质量检测器的检测性能。所有模型在COCO训练集上训练，在val集上评估，结果在test-dev集上报告。

5.1 实现细节

为了简单起见，所有的回归器都是类别不可知的。cascade R-CNN中的所有级联检测阶段都具有相同的架构，它是基线检测网络的头部。 Cascade R-CNN共有四个阶段：RPN阶段，U ={0.5,0.6,0.7}时的三个检测阶段。第一检测阶段（RPN阶段）的采样跟前人工作相同，接下来的阶段通过简单地使用前一阶段的回归输出来实现重采样。
除标准水平图像翻转外，未使用任何数据增强。推断是在一个单一的图像尺度上进行的。所有的基线检测器都用Caffe在同一个代码上重新实现，以便进行公平比较。

5.1.1 baseline网络

骨干网络：
为了测试Cascade R-CNN的通用性，使用三种流行的基线检测器进行实验：骨干为VGG-Net的Faster-RCNN，骨干为ResNet的R-FCN和FPN。这些基线具有广泛的检测性能。
骨干网络的实验设置：
（1）Faster-RCNN：网络头有两个全连接层，为了减少参数修剪不太重要的连接，每个全连接层保留2048个单元；删除掉dropout层；训练以0.002的学习率开始，在60k和90k迭代时减少了10倍；网络在100k迭代时停止；在2个同步的gpu上，每次迭代保存4张图像；每张图像使用128个roi。
（2）R-FCN： R-FCN在ResNet中添加了卷积、边界框回归和分类层。所有R-CNN的头都有这样的结构。不使用在线硬负挖掘；训练开始时的学习率为0.003，在160k和240k迭代时学习率降低了10倍，在280k迭代时停止；在4个同步的gpu上，每次迭代都保存一张图像；每张图像使用256个roi。
（3）FPN：因为FPN的源代码还没有公开，所以实现细节可能会有所不同。使用RoIAlign作为更强的基线，表示为FPN+，并在所有消融研究中使用；ResNet-50用于消融研究，ResNet101用于最终检测；训练120k迭代使用学习率为0.005，下一个60k迭代使用0.0005；在8个同步的gpu上，每个持有一个图像每次迭代；每张图像使用256个roi。

5.2 质量不匹配

在这里插入图片描述
图5 (a)： 三个单独训练的检测器在U ={0.5, 0.6, 0.7}IoU阈值增加时的AP曲线。在较低的IoU水平上，u = 0.5的检测器性能优于u = 0.6的检测器，但在较高的IoU水平上，该检测器性能较差。然而u = 0.7的检测器性能不如其他两个。还表明，当测试提案更接近检测器质量时，两个检测器的性能显著提高。
图5(b)： 为了理解为什么会发生上述情况，在推断时改变了提案的质量。如图5 (b)显示将ground truth框添加到提案集时得到的结果。所有的检测器都得到改进，u = 0.7的检测器获得最大的增益，在几乎所有的IoU级别上获得最佳性能，表明：
1. u = 0.5对于精确的检测来说不是一个好的选择，它只是对低质量的提案更有鲁棒性。
2.高度精确的检测需要与检测器质量相匹配的假设（提案）。接下来，原来的检测器提案被更高质量的Cascade R-CNN提案所取代(u = 0.6和u = 0.7分别使用第二阶段和第三阶段的提案)。
在这里插入图片描述
在所有级联阶段测试所有Cascade R-CNN检测器都得到了类似的观察结果。图6可以看出，当使用更精确的假设时，每个检测器都得到了改进，并且质量更高的检测器获得了更大的增益。如对于第一阶段的低质量提案，u = 0.7的检测器表现不佳，但对于较深级联阶段提供的更精确的假设，则表现要好得多。此外，图6联合训练的检测器性能优于单独训练的图5 (a)检测器，即使使用相同的建议，这表明检测器在Cascade R-CNN框架内得到了更好的训练。

5.3 与Iterative BBox和Integral Loss的比较

将Cascade R-CNN与iterative BBox 和integral losss检测器进行比较。iterative BBox 是通过三次迭代应用FPN+基线来实现的。integral loss检测器的分类头与Cascade R-CNN的阶段数相同，U ={0.5,0.6,0.7}。
在这里插入图片描述
与iterative BBox的比较：
图7 (a)比较了级联回归和iterative BBox的定位性能。对于高IOU假设，使用单个回归器会降低定位性能，当迭代地应用回归器时，这种影响会累积，就像在迭代的BBox中一样，性能实际上会下降。注意迭代BBox在3次迭代后的性能非常差。相反级联回归器在后期的表现更好，几乎在所有的IoU水平上都优于迭代BBox。
与Integral Loss的比较：
图7 (b)显示共享一个回归器的所有分类器在integral loss检测器上的检测性能。u = 0.6的分类器在所有IoU级别上都是最好的，而u = 0.7的分类器是最差的。所有分类器的集合没有显示明显的增益。
在这里插入图片描述
表1显示，iterative BBox检测器和integral loss检测器都对基线检测器略有改善。Cascade R-CNN在所有评价指标中有最好的性能。对于较低的IOU阈值收益不大，但对于较高的IOU阈值收益很大。

5.4 消融实验

阶段比较：
在这里插入图片描述
表2总结阶段性能。由于多阶段多任务学习的好处，第一阶段的性能已经超过了基线检测器，第二阶段实质上提高了表现，第三阶段相当于第二阶段。这与integral loss 检测器不同，在integral loss 检测器中，较高的IOU分类器相对较弱，虽然前(后)阶段在低(高)IoU指标更好，但所有分类器的整体效果最好。
IOU阈值：
在这里插入图片描述
使用相同的IOU阈值u = 0.5对所有检测头进行Cascade R-CNN训练。在这种情况下，阶段之间的区别仅仅在于它们接收的假设，每个阶段都用对应的假设进行训练。
表3：第一行显示了级联改进了基线检测器，这表明了优化阶段对相应样本分布的重要性；第二行表明，通过增加阶段阈值u，检测器对接近的假阳性（close false positives）具有更强的选择性，并专门针对更精确的假设，从而获得额外的收益。
回归统计：
利用逐步更新的回归统计，有助于高效的分类和回归的多任务学习。通过比较表3中使用和不使用它的模型，可以看出它的优点。学习对这些统计数据并不敏感。
阶段数量：
在这里插入图片描述
阶段数量的影响如表4。添加第二个检测阶段可以显著改进基线检测器。三个检测阶段仍然有很大的改善，但是增加了第四个阶段(u = 0.75)导致性能略有下降。注意，当AP的整体性能下降时，四级级联在高IoU级别时性能最好。三级级联实现了最佳的平衡。

5.5 与最先进检测器的比较

在这里插入图片描述
基于FPN+和ResNet-101骨干的Cascade R-CNN与最先进的单模型目标检测器的比较(表5)。第一组为单阶段检测器，第二组为两阶段检波器，最后一组为多阶段检测器(Cascade R-CNN为3级+RPN)
实验设置：
设置如章节5.1.1，但是总共运行了280k的训练迭代，在160k和240k迭代时学习率下降。roi的数量也增加到512个。所有比较的最先进的检测器都以u = 0.5进行训练。
实验结果分析：
（1）本文FPN+实现比原来的FPN更好，提供了一个非常强大的基线。从FPN+扩展到Cascade R-CNN的性能改善了约4点。
（2）在所有的评价指标下，Cascade R-CNN大大超过了所有的单阶段检测器，包括2015年和2016年COCO挑战赛获奖者的单阶段作品(Faster R-CNN+++，GRMI)，以及最近的可变形的R-FCN、 RetinaNet和Mask R-CNN。
（3）COCO上最好的多阶段检测器AttractioNet使用迭代BBox生成建议，虽然使用了许多增强功能，但Cascade R-CNN仍然比它高出7.1个点。与Mask R-CNN不同，Cascade R-CNN没有利用分割信息。最后 single-model Cascade R-CNN也超过了在2015年和2016年赢得COCO挑战(AP 37.4和41.6)的大量工程集成检测器。

5.6 泛化能力

在这里插入图片描述
表6比较了三个基线检测器的三阶段Cascade R-CNN。所有的设置都和上面一样，只是在5.5节中为FPN+做了一些改变。
检测性能：
本文实现比原来的检测器要好，Cascade R-CNN在这些基线上持续改进了2 ~ 4个点，独立于它们的强度，这些增益在val和test-dev上也是一致的。结果表明，Cascade R-CNN在各个检测器体系结构中都有广泛的应用。
参数和时间：
Cascade RCNN参数的数量随着级联级数的增加而增加。基线检测器头的参数数目呈线性增加。此外由于检测头的计算开销通常比RPN小，因此级联的R-CNN在训练和测试时的计算开销都较小。

6 结论

提出了一个多阶段目标检测框架——Cascade R-CNN，用于设计高质量的目标检测器。该结构避免了训练时的过拟合问题和推理时的质量不匹配问题。
在具有挑战性的COCO数据集上,Cascade R-CNN可靠且一致的检测改进表明，推进目标检测，需要对各种并发因素进行建模和理解。
Cascade R-CNN被证明适用于许多目标检测体系结构。我们相信，它可以对许多未来的目标检测研究工作有用。