文章目录
论文题目:Cascade R-CNN: High Quality Object Detection and Instance Segmentation
论文链接:https://arxiv.org/pdf/1906.09756v1.pdf
1、motivation
- 现有的问题:通常使用的阈值0.5导致噪声(低质量)检测,但是对于较大的阈值,检测性能又会经常降低。
- 原因:1)过拟合,即阈值越大,正样本的数量就越少,越容易过拟合(正负样本不均衡);2)detector和test hypotheses之间的mismatch,简单来说就是训练阶段的bbox 回归部分的proposal质量会更高,iou大于阈值0.5,而推理阶段的proposal质量会较差,可能包括IoU小于阈值的。
- 解决方案:提出了一个级联多阶段的目标检测架构,Cascade R-CNN,由具有渐增的IoU阈值训练的检测器detector序列组成,以解决这些问题。具体来说,使用检测器的输出作为下一个检测器的训练集,顺序地训练检测器。实际上,采用了0.5、0.6、0.7作为3个级联的detector的阈值。
2、网络架构
- 在Cascade R-CNN检测器中,级联回归器如下。T是级联stage的总数。关键点在于,每个回归器ft针对由先前回归器生成的边界框分布{bt}而不是对初始分布{b1}进行优化。通过这种方式,逐步改进proposal。同时采用了渐增的IoU阈值进行训练,可以得到更高质量的bbox。
- 对于Cascade Mask RCNN,有(b)、( c)、(d)三种策略,在不同的stage上添加分割分支,但最终都是在最后一个stage的分割分支作为输出(mmdetection中的实现是在最后一个stage)。