Cascade R-CNN （论文阅读）

最新推荐文章于 2024-07-19 15:44:38 发布

swust_fang

最新推荐文章于 2024-07-19 15:44:38 发布

阅读量1.9k

点赞数 1

分类专栏：目标检测深度学习文章标签：目标检测深度学习

本文链接：https://blog.csdn.net/swust5120171204/article/details/124216219

版权

目标检测同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

深度学习

4 篇文章 1 订阅

订阅专栏

论文地址：https://arxiv.org/pdf/1712.00726.pdf

Motivation

作者探究了一个FastRcnn中RPN中的正负样本划分的IOU阈值，更高的IOU阈值可以带来更优质的proposals，引出了关于iou阈值的讨论。

直接增大detection的iou阈值能够直接带来检测定位精度的提升吗？

横坐标为输入网络与gt的iou，纵坐标为经过对应iou阈值训练过后的回归器回归过后与gt的iou。灰色直线为参考，在曲线之上的表示回归work了。可以明显的看出：

1. bbox与gt的iou在0.85之前，通过回归器回归之后都会使得gt与bbox的交并比变大。

2. iou在0.5~0.7之间，正样本阈值采用0.7的效果明显没有0.5好。

3. iou在0.7之后，正样本阈值采用0.7的效果会比0.5，回归效果更好。

4. 单纯的采取iou增大的方式，并不能使得整体的检测效果更好，甚至还会变差。

出现这种现象的原因，是因为在training阶段和推理阶段，bbox的回归器的分布是不一样的，training阶段输入的proposal（比如iou>0.7）质量很高，而在推理阶段没有gt来计算iou后采样，只是通过一次二值分类确定的正样本，所以输入的proposal质量不是很好，可能实际上有好多小于阈值的iou拿来回归了，这就造成了一直训练与测试的dismatch问题。

Idea

作者通过实验去分析其中原因，并且提出了一种级联的方式Cascade R-CNN去解决对应的问题。参考知乎的总结：

1. 只有proposal自身的阈值和训练器训练用的阈值较为接近的时候，训练器的性能才最好。

2. 如果两个阈值相距比较远，就是我们之前说的mismatch问题了。

3. 单一阈值训练出的检测器效果非常有限，单一阈值不能对所有的Proposals都有很好的优化作用。

上图表示了iou=0.5时，RPN的正样本proposal iou分布，可以看出了大部分框都在0.5~0.6之间，大于0.7的只有一少部分。所以看的出来如果单纯选用高阈值iou作为正样本的话：

1. 样本数量很少，容易过拟合

2. 推理阶段detector为高质量回归器，但是实际上的低阈值的bbox不match对应的回归器。

所以采用级联的muti-stage方式，多次训练分类回归器。当然作者也不是第一次提出级联的概念，对于之前的级联方式作业也给出了实验验证，为什么cascade 结构更好。

在Faster RCNN中，H0表示RPN head，包含一个C0分类器，以及一个B0回归器，然后将大于iou阈值的bbox以及并且采样部分负样本作为正负样本的proposal，通过ROI pooling到相同大小的特征图，H1表示一个检测器，表示再次的C1多分类以及B1精回归。

Iterative BBox

首先来说对于（b) 方式，H检测头都是公用的，三个分支都选择相同的正样本iou阈值。

b表示bbox，f(x,b)表示一次检测器，可以看出这个仅仅是检测器的多次嵌套，意思就是一次分类回归可能没到位，就进行多次检测头回归分类。

那么该级联方式存在的问题：

1. 没有把握检测效果不好的原因，单一阈值无法对所有proposal都work。

2. 如果每次回归都采用不同的阈值，每一会回归都会改变样本的分布，所以作者对cascade回归参数的分布(iou阈值分别为0.5，0.6，0.7每一个stage增加)进行了可视化。

x,y,w,h分别是回归的参数，u表示均值，sigma表示方差。

因为是回归参数，离中心越远表示回归的力度越大，回归后越靠近gt，效果越好。可以看的出来，在第一个阶段的回归效果是最好的。

那么在第二个阶段，iou阈值增大的检测器后，可以发现有很多红色的离群点，这表示在这一阶段检测器依旧起了非常大的作用。而对于这种离群点，如果依旧采用相同的0.5阈值，那么是无法处理这些离群点对应的bbox的。

Integral Loss

如（c）所示，只有一个stage，但是roi pooing后直接连接多个不共享的分类头，为不同区间的iou给出不同的loss 权重。每一个检测头对应不同的阈值。比如u∈{50,55,.....,75}。那么该方法存在的问题：

1. 明显看的出，不同iou的分布问题，对于大的iou阈值来说，proposal很少，导致对应高阈值的检测头特别容易过拟合。

2. 在推理阶段，3个detector的结果要进行ensemble，但是它们的输入的IoU大部分都比较低，这时高阈值的detector也需要处理低IoU的proposals，它就存在较严重的mismatch问题，它的detector效果就很差了。

Cascade RCNN

与b相似，但是逐stage提高正样本的iou阈值，每一次的回归后的框重新采样输入到下一阶段

从正负样本的分布上，每个stage的正负样本都足够，不会存在过拟合的情况。

Conclusion

一开始虽然提取的proposal质量不高，但是逐级采样会逐步提高proposal的iou，从而使得下一个更高质量的stage输入进去的是更高质量的proposal。也不会存在上述所说的样本分布不均匀而造成过拟合以及检测器与proposal的dismatch情况。

swust_fang

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Cascade R-CNN （论文阅读）

论文地址：https://arxiv.org/pdf/1712.00726.pdfMotivation作者探究了一个FastRcnn中RPN中的正负样本划分的IOU阈值，更高的IOU阈值可以带来更优质的proposals，引出了关于iou阈值的讨论。直接增大detection的iou阈值能够直接带来检测定位精度的提升吗？横坐标为输入网络与gt的iou，纵坐标为经过对应iou阈值训练过后的回归器回归过后与gt的iou。灰色直线为参考，在曲线之上的表示回归work了。可以明显的看出：
复制链接

扫一扫

专栏目录