Cascade R-CNN 论文笔记

最新推荐文章于 2023-11-16 22:39:35 发布

头柱碳只狼

最新推荐文章于 2023-11-16 22:39:35 发布

阅读量675

点赞数

分类专栏：目标检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30146937/article/details/104352894

版权

前言

在目标检测中，通常会设定一个IoU阈值来区分正样本和负样本，一般将这个阈值设为0.5。但如果以0.5的阈值来训练检测器，检测器会生成许多noisy bbox。如果增大这个阈值，检测器的性能会下降。原因如下：

由于增大了阈值，正样本会减少，在training时会出现过拟合问题。
在training时用于训练检测器的阈值，与inference时输入proposal的IoU相差过大。

因此本文提出了Cascade R-CNN用来解决这个问题，下面进行详细介绍。

介绍

目标检测需要解决两个主要任务：第一，检测器要进行识别，需要区分前景和背景，并为前景中的目标标记正确的类别标签；第二，检测器要进行定位，将不同的目标用bbox框起来。在这两个过程中，检测器会遇到许多close false positive，即那些非常接近正确的bbox，但它们本身又不是正确的bbox。

目前许多目标检测方法是基于R-CNN的two-stage方法，它们在training时将IoU阈值u设为0.5，这会产生很多正样本，但在inference时，检测器会产生许多noisy bbox，如下图（a）所示，这是由于大多数close false positive的IoU是大于0.5的。也就是说，当阈值为0.5是，虽然能产生丰富的样本，但很难训练出能拒绝close false positive的检测器。
在这里插入图片描述
如果将用于训练检测器的阈值提高，比如提高到0.7，那么在inference时检测器的输出结果如上图（b）所示，可以看到close false positive的数量变少了。

在这里插入图片描述
上图训练了三个不同的检测器，对应的阈值u分别是u = 0.5，0.6，0.7，其中u是在trainging时训练检测器所用的阈值。图（c）和图（d）分别描述了定位性能和检测性能。在图（c）中，横轴是输入的proposal的IoU，纵轴是proposal经过bbox回归后的IoU，可以看到，定位性能可以看成是相对于输入的proposal的IoU的函数。在图（d）中，横轴是inference时设定的IoU阈值，纵轴是检测器的性能，可以看到，检测性能可以看成是相对于设定的IoU阈值的函数。

在图（c）中，当输入pososal的IoU与阈值接近时，bbox回归输出的IoU是最好的。在图（d）中，当输入的proposal的IoU较低时，u=0.5比u=0.6时的检测性能要好；而当输入的proposal的IoU较高时，u=0.6比u=0.5时的检测性能好。也就是说，一个检测器以一个IoU阈值被训练到最佳之后，如果在inference时输入的proposal的IoU与阈值不同，那么检测器就不能达到最佳性能。这也就意味着，只有当训练检测器用的阈值和proposal自身的阈值较为接近的时候，检测器的性能才最好。否则就会出现mismatch问题（接下来会详细说明）。同时只有当proposal有较高质量时，检测器才会有较好的表现，如上图（b）所示。但是proposal有较高质量意味着阈值u的增大，那么是不是阈值设置的越高，检测器的性能就越好呢？

答案是否定的。在上图（d）中，当阈值为0.7时，检测器的性能反而下降了。这是由于当阈值设定的较高时，在training时大部分proposal的IoU都是低于阈值的，也就是正样本数量很少，会导致过拟合问题。另一个原因是，training时设置的用于训练检测器的阈值，与inference时输入的proposal的IoU相差太多。trainging时IoU阈值u设定较高的检测器，只有在inference时proposal的IoU也较高时，检测器才能获得很好的性能；如果proposal的IoU较低，检测器的性能将不会很好。

本文提出了Cascade R-CNN用来处理这些问题。在Cascade R-CNN中，training是stage-by-stage的，用一个阶段的输出训练下一个阶段。为什么会提出这种想法呢？从图（c）中可以看出，所有的点基本都在那条灰线的上面，也就是说，通过bbox回归输出的proposal的IoU比输入的proposal的IoU要高。因此，以一个确定的IoU训练的检测器的输出，可以作为另一个有着更高IoU阈值的检测器的输入。

Cascade R-CNN的大致原理如下：

通过调整bbox，每个阶段能找到一系列优质的close false positive来训练下一个阶段。也就是说，在training时，一系列检测器中的IoU阈值是不断增大的，能够克服过拟合问题。
在inference时，输入proposal的IoU是不断增大的，并且与每个阶段的检测器的IoU阈值相差的很小，这使检测精度更高。

mismatch问题
在training阶段，proposal与ground-truth之间的IoU是可以计算出来的，通过设定一个IoU阈值u将proposal划分为正样本和负样本。在inference阶段，由于不知道ground-truth，因此无法计算proposal的IoU，但它们本身是有IoU的。如果这些proposal的IoU与训练检测器时用的IoU阈值相差的很多，就会出现所谓的mismatch问题。

Cascade R-CNN与类似结构的对比

在这里插入图片描述
上图给出了4种不同的结构，

最低0.47元/天解锁文章

头柱碳只狼

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Cascade R-CNN 论文笔记

前言在目标检测中，通常会设定一个IoU阈值来区分正样本和负样本，一般将这个阈值设为0.5。但如果以0.5的阈值来训练检测器，检测器会生成许多noisy bbox。如果增大这个阈值，检测器的性能会下降。原因如下：由于增大了阈值，正样本会减少，在training时会出现过拟合问题。在training时用于训练检测器的阈值，与inference时输入proposal的IoU相差过大。因此本文...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。