[论文笔记]Cascade RCNN 阅读笔记

吉他A梦

已于 2022-07-09 12:28:05 修改

阅读量618

点赞数 1

分类专栏：论文笔记文章标签：目标检测深度学习计算机视觉

于 2022-07-06 16:15:47 首次发布

本文链接：https://blog.csdn.net/qq_44690067/article/details/125633544

版权

32 篇文章 2 订阅

订阅专栏

Cascade R-CNN: High Quality Object Detection and Instance Segmentation（CVPR 2018）

IoU常用的阈值 0.5 会导致检测噪声（低质量检测），但检测性能经常会因IoU阈值较大而降低——这被称作高质量检测悖论
导致上述悖论的原因有两个：
- 大的IoU阈值将会导致正样本的减少
- 推理时检测器和检测假设之间的质量不匹配（dismatch问题）
cascade rcnn有多个stage，每一个stage的输出作为下一个stage的输入；这种重采样逐渐提高了假设质量，保证了所有检测器的正训练集大小相等，并最大限度地减少了过拟合
cascade rcnn用于目标检测以及实例分割，并且适用于通用或特定（例如x光）任务

在这里插入图片描述

作者把检测假设的质量定义为推理阶段的proposal与gt的IoU（例如Input IoU是rpn网络的proposal和gt的IoU，Output IoU是经过regressor回归后的bb与gt的IoU），把检测器的质量定义为用于训练它的IoU阈值u
下面这个图分别在IoU阈值为 $u = 0.5, 0.6, 0.7$ 的条件下进行训练，得到在推理时不同IoU条件下回归器、分类器和检测器的性能。可以看出，阈值决定了分类器最具鉴别力的分类边界；
上述观察表明，高质量的检测需要检测器的质量与检测假设的质量密切匹配

边界框 $\boldsymbol{b}=(b_x,b_y,b_w,b_h)$ 包含图像块 $\boldsymbol{x}$ 的四个坐标，而bb regression是使用一个regressor $f(\boldsymbol x,\boldsymbol b)$ 将一个候选的bb $\boldsymbol b$ 回归到一个目标bb $\boldsymbol g$ ，这个过程可以使用下面这个loss 来进行训练：
$\mathcal{R}_{loc}[f]=\sum _iL_{loc}(f(\boldsymbol{x}_i, \boldsymbol{b}_i),\boldsymbol{g}_i)$
其中，
$L_{loc}(\boldsymbol a,\boldsymbol b)=\sum_{i\in\{x,y,w,h\}}smooth_{L_1}(a_i-b_i)$
其中，
$smooth_{L_1}(x)=\left\{ \begin{aligned} &0.5x^2,&|x|<1\\ &|x|-0.5, &otherwise \end{aligned} \right.$
为了尺度和位置不变性， $smooth_{L_1}$ 作用在距离向量 $\Delta=(\delta_x,\delta_y,\delta_w,\delta_h)$ 上
$\delta_x=(g_x-b_x)/b_w,\delta_y=(g_y-b_y)/b_h,\delta_w=log(g_w/b_w),\delta_h=log(g_h/b_h)$
由于边界框回归通常对 $\boldsymbol b$ 进行较小的调整，因此 $\Delta$ 各个 $\delta$ 的数值可能非常小。这通常使回归损失比分类损失小得多。为了提高多任务学习的有效性， $Δ$ 通过其均值和方差进行归一化，例如 $δ_x$ 被替换为
$\delta'_x=\frac{\delta_x-\mu_x}{\sigma_x}$

在这里插入图片描述

training阶段很容易产生高质量正样本（只需要在gt旁边进行取样即可），问题是如何在inference阶段产生高质量的proposal，这个问题可以用cascade bb regression来解决
如下图所示，每个u对应的检测器不可能在所有的Input IoU上有好的效果，但是从图中看出每一个u对应的检测器的输出IoU都可以提高一点点（在灰色线上面），因此考虑把多个不同的检测器进行级联，这样每一个stage的IoU都会逐渐变高
从下图可以看到，级联检测器回归的bb越来越接近于gt（ $\delta_x,\delta_y,\delta_w,\delta_h$ 分布接近（0,0））

级联检测的损失函数：在每个stage t，分类器 $h_t$ 和回归器 $f_t$ 根据IoU阈值 $u^t$ 进行优化， $u^t>u^{t-1}$ ，loss为
$L(\boldsymbol x^t,g)=L_{cls}(h_t(\boldsymbol x^t), y^t)+\lambda [y^t\geq 1]L_{loc}(f_t(\boldsymbol x^t,\boldsymbol b^t), \boldsymbol g)$
其中 $\boldsymbol b^t=f_{t-1}(\boldsymbol x^{t-1}, \boldsymbol b^{t-1})$ , $\boldsymbol g$ 是 $\boldsymbol x^t$ 对应的gt框， $y^t$ 是 $\boldsymbol x^t$ 在 $u^t$ 下的标签
这种级联学习法对检测器训练由3个重要影响：
- 大IoU导致过拟合现象的概率减小了，因为在每一个stage正样本变得更多了
- 更深stage的检测器对于更高的IoU阈值来说更佳
- 随着IoU阈值的增加，一些异常值被去除，因此bb regression的学习效果在后期增加
总之，这样使得 检测假设和检测器质量同时增加，解决了 “高质量检测悖论”

这个方法说一次的bb regression不够，它在inference时用多个相同的regressor来进行多次回归，但是在训练的时候和使用u=0.5的普通的two-stage检测器没有区别
这个方法的两个问题：
- 如图 2 所示，在 u = 0.5 时训练的回归器 f 对于更高 IoU 的假设是次优的。它实际上会降低大于 0.85 的 IoU 的边界框精度
- 如图5所示，边界框的分布在每次迭代后都会发生显着变化，虽然回归量对于初始分布是最优的，但在此之后可能会非常不理想