（十）论文阅读 | 目标检测之Cascade R-CNN

最新推荐文章于 2025-03-06 07:00:00 发布

zhangts20

最新推荐文章于 2025-03-06 07:00:00 发布

阅读量941

点赞数 2

分类专栏：论文阅读文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/Skies_/article/details/105075843

版权

论文阅读专栏收录该内容

54 篇文章

订阅专栏

简介

在这里插入图片描述

图1：论文原文

论文是发表在 ${\rm CVPR\ 2018}$ 上的一篇关于目标检测的论文， ${\rm Cascade\ R}$ - ${\rm CNN}$ 是一个多阶段监测器，通过设置不同的 ${\rm IoU}$ 值级联几个检测网络达到不断优化检测结果的目的。论文原文源码

0. Abstract

在目标检测中，通常使用 ${\rm IoU}$ 确定正负样本。随着 ${\rm IoU}$ 阈值的增大，模型性能往往会下降：（1）阈值增大意味着更少的正样本，容易导致模型过拟合；（2）模型训练与推理使用不同 ${\rm IoU}$ 值会出现不匹配现象（在训练阶段可以通过 ${\rm IoU}$ 阈值区别正负样本，得到的正样本质量更高；而推理阶段由于没有标注框，将所有得到的结果当做正样本，所以得到的正样本质量不如前者。下面实验有证明这个问题）。作者提出 ${\rm Cascade\ R}$ - ${\rm CNN}$ 用于解决上述问题，它由一组使用逐渐增加的 ${\rm IoU}$ 阈值所训练的检测器组成，避免产生密集的假阳性结果。基于当前模型输出可以作为下一个模型的有效输入， ${\rm Cascade\ R}$ - ${\rm CNN}$ 通过一个阶段接着一个阶段的方式训练。这种再采样的方法有效地减弱了模型的过拟合（当前模型的输出是经过修正后的结果，得到更多高质量的候选框，这样提高 ${\rm IoU}$ 值也能获得足够数量的正样本）。在推理阶段也使用这种级联的结构，使得假设和模型更加匹配。实验结果为在 ${\rm COCO}$ 数据集上达到了 ${\rm SOTA}$ 。

论文贡献：（一）提出一种多阶段级联的目标检测算法；（二）级联思想可以应用到其他检测算法中；（三）给出了一种在目标检测中 ${\rm IoU}$ 选取的策略。

1. Introduction

在基于 ${\rm R}$ - ${\rm CNN}$ 的两阶段检测算法中， ${\rm IoU}$ 阈值通常设置为 $0.5$ ，但得到的正样本质量不高。如下图：在这里插入图片描述

图2：实验结果

如图 ${\rm (a)}$ 和 ${\rm (b)}$ 是选取不同 ${\rm IoU}$ 阈值得到的结果， $u = 0.7$ 的结果要好于 $u = 0.5$ 。图 ${\rm (c)}$ 横轴表示对 ${\rm RPN}$ 所使用的阈值，纵轴表示经回归后得到的边界框同标注框的 ${\rm IoU}$ 值，而不同颜色的线表示使用不同阈值训练模型。实验结果表明，当 ${\rm RPN}$ 所用阈值与模型训练所使用的阈值较接近时，得到的结果更好。如蓝色的线 $u = 0.5$ 在横坐标为 $0.5$ 附近时得到的结果最好。这就证明了摘要部分提到的不匹配问题。图 ${\rm (d)}$ 是采用不同 ${\rm IoU}$ 值训练模型所得到的 ${\rm AP}$ 值，验证了简单地增加 ${\rm IoU}$ 值不能提高模型的性能。

由此，作者提出了 ${\rm Cascade\ R}$ - ${\rm CNN}$ ，它是一种序列化模型，当前模型的输出作为下一个模型的输入。由上图 ${\rm (c)}$ 可知，由不同 ${\rm IoU}$ 训练得到的模型结果大都位于灰线以上，这表明可使用特定 ${\rm IoU}$ 值训练模型的输出可以作为更高 ${\rm IoU}$ 值训练模型的输入。（单一阈值训练的模型性能有限，如果采用 $0.5$ 训练的模型，得到的 ${\rm IoU}$ 在 $0.5$ 附近；而如增大 ${\rm IoU}$ 阈值会得到如图 ${\rm (d)}$ 的结果。而现在采用一组逐渐增大的 ${\rm IoU}$ $0.5$ 、 $0.6$ 、 $0.7$ 训练模型。如使用 $0.5$ 得到的 ${\rm IoU}$ 为 $0.55$ ，经过 $0.6$ 得到的 ${\rm IoU}$ 为 $0.65$ ，经过 $0.6$ 得到的 ${\rm IoU}$ 为 $0.75$ …）因此，每个阶段的过程是致力于得到有效的样本用于训练下一个阶段。在推理阶段也采取同样的操作。

${\rm Cascade\ R}$ - ${\rm CNN}$ 是一个简单高效的模型，可以集成到任何基于 ${\rm R}$ - ${\rm CNN}$ 的两阶段检测算法中。

2. Related Work

相关工作部分首先介绍了基于 ${\rm R}$ - ${\rm CNN}$ 的检测算法，以及 ${\rm YOLO}$ 、 ${\rm SSD}$ 、 ${\rm RetinaNet}$ 等一阶段检测算法。最后谈及了基于迭代边界框回归的多阶段检测算法。

3. Object Detection

在这里插入图片描述

图3：不同网络结构

图 ${\rm (a)}$ 是 ${\rm Faster\ R}$ - ${\rm CNN}$ 结构，其中H0为产生建议框的过程 ${\rm RPN}$ ，B0为产生的建议框，H1为检测头、后接分类分支和回归分支，C和B分别为分类分支和回归分支（下同）。对比图 ${\rm (b)}$ 和 ${\rm (d)}$ ，迭代边界框回归采用同 ${\rm Cascade\ R}$ - ${\rm CNN}$ 类似的级联结构，但是每次使用的 ${\rm IoU}$ 阈值相同，即共用检测头H1。而图 ${\rm (c)}$ 使用了不同的检测头，但是不是级联的结构，只是将不同的检测结果融合。

3.1 Bounding Box Regression

令建议框为 ${\rm b}=(b_x,b_y,b_w,b_h)$ 、标注框为 ${\rm g}$ ，边界框回归的目的是找到一种映射 $f$ 使得 $f({\rm b})={\rm g}$ 。为了控制回归过程中尺度和位置变化，一般采用向量 $Δ=(δ_x,δ_y,δ_w,δ_h)$ 作为预测值： $δ_x=(g_x-b_x)/b_w,\ δ_y=(g_y-b_y)/b_h$

$δ_w={\rm log}(g_w/b_w),\ δ_h={\rm log}(g_h/b_h)\tag{3.1}$

由于在回归过程中，每次只对 $b$ 作微小的调整， $Δ$ 往往非常小。所以回归损失函数通常小于分类损失。为了提高回归效率，通常会对上式变形，如使用 $δ_x^{'}=(δ_x-μ_x)/σ_x$ 代替 $δ_x$ 。此外，前人已有工作证明了单次回归不足以训练高性能的模型。转而使用迭代式的回归方法，如图 $3$ 中的 ${\rm (b)}$ ： $f^{'}(x,{\rm b})=f○f○…○f(x,{\rm b})\tag{3.2}$

但是，这种结构也存在以下问题：（1）单个阈值如 $u = 0.5$ 并不能得到最佳模型，如图 $3$ 中的 ${\rm (c)}$ ；（2）在每次迭代后，边界框的偏移变化剧烈。如下图：

在这里插入图片描述

图4：随迭代得到的 $Δ$ 值

图中横纵坐标是上述提到的 $Δ$ 值，其中图中红色点属于离群点，大量噪声不利于网络的训练。由上图可知，经过每次的迭代，虽然得到的值更加集中（边界框更接近于标注框），但也产生了大量的离群点。这会给下次模型的带来大量的噪声，不利于模型的训练。

3.2 Detection Quality

分类器 $h (x)$ 给图像 $x$ 分配类别，给定一个训练样本 $x_i,y_i)$ ，目的是最小化一个分类交叉熵损失函数 $L_{cls}(h(x_i,y_i))$ 。通常使用 ${\rm IoU}$ 值为建议框预分配类别标签。则根据阈值 $u$ 和类别 $g_y$ ，有：
$y=\left\{ \begin{aligned} &g_y,&IoU(x,g)≥u\\ &0,&otherwise\\ \end{aligned} \right.\tag{3.3}$

这里阈值 $u$ 的设置成为关键，如果 $u$ 太大，不能得到足够多的正样本；如果 $u$ 太小，在正样本中包含很多负样本。一种解决的方法如图 $3$ 中的 ${\rm (c)}$ ，则分类损失函数定义为： $L_{cls}(h(x),y)=\sum_{u∈U}L_{cls}(h_u(x),y_u)\tag{3.4}$

如下图：
在这里插入图片描述

图5：IoU直方图

如上图中的纵轴为正样本数。如第一幅图所示，正样本数随着 ${\rm IoU}$ 值增大而急剧减小，这将导致模型的过拟合。此外，分类器既要处理高质量的正样本，也要处理低质量的正样本，这将导致其不能很好地优化。由此证明上式 $(3.4)$ 不能很好地应对 ${\rm IoU}$ 值的变化。后两幅图是 ${\rm Cascade\ R}$ - ${\rm CNN}$ 处理的结果。

4. Cascade R-CNN

4.1 Cascaded Bounding Box Regression

在 ${\rm Cascade\ R}$ - ${\rm CNN}$ 中，模型以级联的方式构建，如图 $3$ 中的 ${\rm (d)}$ ： $f(x,{\rm b})=f_T○f_{T-1}…○f_1(x,{\rm b})\tag{4.1}$

作者指出，与迭代式的边界框回归不同的是（如图 $3$ 中的 ${\rm (b)}$ ）， ${\rm Cascade\ R}$ - ${\rm CNN}$ 是一个再采样的过程，每个阶段输入的分布都不相同；在训练和推理阶段使用相同的分布；在每个阶段使用再采样样本对回归模型 ${f_T,f_{T-1},…f_1\}$ 优化。

4.2 Cascaded Detection

如图 $3$ 中的 ${\rm (d)}$ ， ${\rm Cascade\ R}$ - ${\rm CNN}$ 的每个阶段通过阈值 $u^t$ 优化分类器 $h_t$ 和回归器 $f_t$ ，且 $u^t>u^{t-1}$ 。通过最小化以下损失函数优化分类器和回归器： $L(x^t,g)=L_{cls}(h_t(x^t),y^t)+λ[y^t≥1]+L_{loc}(f_t(x^t,{\rm b}^t),{\rm g})\tag{4.2}$

这里 ${\rm b}^t=f_{t-1}(x^{t-1},{\rm b}^{t-1})$ ， $g$ 是对于 $x^t$ 的标注框， $λ = 1$ ，[·]为指示函数， $y^t$ 是在给定阈值 $u^t$ 下 $x^t$ 的类别标签。由上式可知，当前阶段的位置预测损失函数同前一阶段相关，通过结构的级联得到损失函数的级联。

5. Experimental Results

如图 $3$ 中的 ${\rm (d)}$ 为 ${\rm Cascade\ R}$ - ${\rm CNN}$ 的结构，共采用 $3$ 个阶段，阈值分别设置为 $0.5$ 、 $0.6$ 、 $0.7$ 。在这里插入图片描述

图6：AP比较

上图 ${\rm (a)}$ 中实线为单个检测器的结果，阈值分别设置为 $0.5$ 、 $0.6$ 、 $0.7$ 。虚线是 ${\rm Cascade\ R}$ - ${\rm CNN}$ 加入级联后得到的 ${\rm AP}$ 值。 ${\rm (b)}$ 中为加入标注框后的实验结果。横纵为设置的 ${\rm IoU}$ 值，纵轴为 ${\rm AP}$ 值，各实线为相应 ${\rm IoU}$ 值训练的检测器。三者均有提升，但阈值为 $0.7$ 的模型提升最明显。由上组实验得到的结论为： $u = 0.5$ 并非最佳的阈值；通过高阈值的训练才能得到高精度的检测器。在这里插入图片描述

图7：Cascade R-CNN各阶段的结果

如图为 ${\rm Cascade\ R}$ - ${\rm CNN}$ 同 ${\rm Iterative\ BBox}$ 和 ${\rm Integral\ Loss}$ 的对比：
在这里插入图片描述

图8：Cascade R-CNN同Iterative BBox和Integral Loss的对比

此外，论文还有针对 ${\rm IoU}$ 值选取、阶段数、回归策略等做了消融实验。详细步骤及结果请查看原文。在这里插入图片描述

图9：实验结果对比

下图是将级联结构应用到各种两阶段检测算法中的实验结果：
在这里插入图片描述

图10：实验结果对比

由上图可以得到，在两阶段算法中加入级联结构后，在不显著增大计算量和参数的情况下提高了模型的精度。

6.Conclusion

论文提出的 ${\rm Cascade\ R}$ - ${\rm CNN}$ 是一种多阶段的目标检测方法。平衡了提高 ${\rm IoU}$ 阈值对提高检测性能的利弊。一方面，提高 ${\rm IoU}$ 阈值可以得到高质量的正样本，从而提高检测器的性能；另一方面，提高 ${\rm IoU}$ 阈值显著减少了正样本的数量，增加了模型过拟合的风险。 ${\rm Cascade\ R}$ - ${\rm CNN}$ 的级联思想可以应用于其他检测算法中，进一步提高模型性能。

参考

Cai Z, Vasconcelos N. Cascade R-CNN: Delving Into High Quality Object Detection[C]. computer vision and pattern recognition, 2018: 6154-6162.
https://blog.csdn.net/qq_21949357/article/details/80046867.
https://zhuanlan.zhihu.com/p/42553957.

完