Abstract:
在此报告中,我们介绍了目标检测/实例分割系统MegDetV2,该系统以two-pass方式工作,首先检测实例,然后进行分割。 我们的基线检测器主要基于一种新设计的RPN,称为RPN ++。 在COCO-2019检测/实例细分test-dev数据集上,我们的系统达到61.0 / 53.1 mAP,比我们2018年的获胜结果分别高出5.0 / 4.2。 我们在2019年和2020年COCO挑战赛中取得了最佳成绩。
Two-Pass Pipeline:
训练的时候,分别训练FPN检测器和Mask-RCNN 。测试的时候,将从FPN检测器提取的边界框输入到Mask-RCNN的分割head中,以生成最终结果。 以这种分而治之的方式,很容易利用来自不同来源的训练数据并管理非常大规模的模型训练。
Detection:
1.Methods:
本文使用FPN、MASK RCNN、Cascade RCNN,使用resnet50作为基准特征提取器。其中使用了上表中的tricks。
A. RPN++
其中包含了High-IoU proposal sampling和Class aware sampling两种采样方式。
High-IoU proposal sampling:
RPN中已经存在许多高质量的proposals,通过NMS对其进行过滤。 而不是使用RPN分数来确定proposals的好坏。这样无法有效利用它们,本文提出使用proposal与gt的iou作为质量标准 放宽了NMS IoU阈值,以保留更多高质量的proposals。 得益于高IoU采样器,甚至可以直接学习具有更高的IoU临界阈值0.7的R-CNN,它可以将FPN显着提高2.5(表2中的38.8对36.3)。 这种方式对于级联R-CNN也是有帮助的,通过添加额外的R-CNN头和0.7 IoU阈值,这将结果进一步提高到40.7。 注意,与普通级联R-CNN相比,它具有更出色的性能(表2中的40.7 vs 40.2),甚至减少了计算量。
Class aware sampling:
以往对于RPN生成的proposals,对于不同类别使用相同的iou阈值。本文对应不同类别动态设定阈值。具体做法是:首先计算所有类别中有多少个proposals与gt框的iou高于0.5 的比率α。然后根据α,对每个类别进行proposals的采样。本文还为RPN anchors设计了另一个目标匹配规则。 每个gt框将被迫匹配一组anchor boxes,例如 每个gt框的前35个anchors点。 这些更改使FPN改善了1.3(表3中)
B. Strong-Baseline for Object Detection
在上面tricks的基础上,本文还采用 “Deformable Network v2 with pooling” [14], “Stacking 4 Convolutions for location branch”.的技术。
Deformable Convolution and Pooling:
在Deformable ConvNets v2之后,作者在ResNet阶段-{3,4,5}中的每个瓶颈3×3卷积中添加了transformable-conv。 产生2.6(38.9 vs 36.3)的改进。 像可变形ConvNets一样,进一步用可变形RoI-Align代替RoI Align操作。 结果提高了1.1(40.0 vs 38.9)。
Stacking 4 Convolutions for location branch:
对于回归分支而言,使用4个堆叠卷积来更好地利用空间信息进行定位任务而。 它有效地将结果提高了0.7(40.8对40.1)点。
Feature Pyramid with deformable convolution:
将FPN中的横向3×3卷积更改为可变形的3×3卷积。 通过简单的修改,这可以带来0.3(41.1 vs 40.8)的改进。
2.COCO 2019 Detection Road-Map:
最后,为了获得更好的COCO挑战结果,我们采用了另外3个强大的主干来提取图像特征。 包含SENet-154 ,Shuffle V2 和ResNext 。
1.ShuffleNet V2 ->5.2。 注意,为加快实验速度,作者在训练较大的骨干网时使用64个GPU(2个图像/ gpu)
2.SoftNMS ->0.7
3.syncbn->0.9
4.multi-scale training->0.9,具体地,通过从400到1400范围内的均匀采样来确定图像的短尺寸,最大大小限制为1400
5.Objects365预训练->2.3
6.大尺度训练->0.9,较大的尺寸范围600-1600,较长边缘的最大尺寸限制为1867
7.进一步延长了多尺度训练的时间,涉及更大的RoI作为上下文,并对R-CNN的分类评分进行了归一化->1
8.TTA:->1.6,多尺度测试{600, 800, 1000, 1200, 1400}+水平翻转
9.ensemble