MegDetv2 - COCO 2019/2020目标检测、实例分割冠军方案

最新推荐文章于 2024-06-02 09:52:21 发布

chenzy_hust

最新推荐文章于 2024-06-02 09:52:21 发布

阅读量934

点赞数 1

本文链接：https://blog.csdn.net/weixin_42096202/article/details/108965992

版权

https://arxiv.org/pdf/2010.02475.pdf

Abstract:

在此报告中，我们介绍了目标检测/实例分割系统MegDetV2，该系统以two-pass方式工作，首先检测实例，然后进行分割。我们的基线检测器主要基于一种新设计的RPN，称为RPN ++。在COCO-2019检测/实例细分test-dev数据集上，我们的系统达到61.0 / 53.1 mAP，比我们2018年的获胜结果分别高出5.0 / 4.2。我们在2019年和2020年COCO挑战赛中取得了最佳成绩。

Two-Pass Pipeline：

在这里插入图片描述
训练的时候，分别训练FPN检测器和Mask-RCNN 。测试的时候，将从FPN检测器提取的边界框输入到Mask-RCNN的分割head中，以生成最终结果。以这种分而治之的方式，很容易利用来自不同来源的训练数据并管理非常大规模的模型训练。

Detection：

1.Methods:

在这里插入图片描述

本文使用FPN、MASK RCNN、Cascade RCNN，使用resnet50作为基准特征提取器。其中使用了上表中的tricks。

A. RPN++

其中包含了High-IoU proposal sampling和Class aware sampling两种采样方式。

High-IoU proposal sampling:
在这里插入图片描述
RPN中已经存在许多高质量的proposals，通过NMS对其进行过滤。而不是使用RPN分数来确定proposals的好坏。这样无法有效利用它们，本文提出使用proposal与gt的iou作为质量标准放宽了NMS IoU阈值，以保留更多高质量的proposals。得益于高IoU采样器，甚至可以直接学习具有更高的IoU临界阈值0.7的R-CNN，它可以将FPN显着提高2.5（表2中的38.8对36.3）。这种方式对于级联R-CNN也是有帮助的，通过添加额外的R-CNN头和0.7 IoU阈值，这将结果进一步提高到40.7。注意，与普通级联R-CNN相比，它具有更出色的性能（表2中的40.7 vs 40.2），甚至减少了计算量。

Class aware sampling：
在这里插入图片描述

以往对于RPN生成的proposals，对于不同类别使用相同的iou阈值。本文对应不同类别动态设定阈值。具体做法是：首先计算所有类别中有多少个proposals与gt框的iou高于0.5 的比率α。然后根据α，对每个类别进行proposals的采样。本文还为RPN anchors设计了另一个目标匹配规则。每个gt框将被迫匹配一组anchor boxes，例如每个gt框的前35个anchors点。这些更改使FPN改善了1.3（表3中）

B. Strong-Baseline for Object Detection

在上面tricks的基础上，本文还采用 “Deformable Network v2 with pooling” [14], “Stacking 4 Convolutions for location branch”.的技术。

Deformable Convolution and Pooling：
在Deformable ConvNets v2之后，作者在ResNet阶段-{3，4，5}中的每个瓶颈3×3卷积中添加了transformable-conv。产生2.6（38.9 vs 36.3）的改进。像可变形ConvNets一样，进一步用可变形RoI-Align代替RoI Align操作。结果提高了1.1（40.0 vs 38.9）。

Stacking 4 Convolutions for location branch：
对于回归分支而言，使用4个堆叠卷积来更好地利用空间信息进行定位任务而。它有效地将结果提高了0.7（40.8对40.1）点。

Feature Pyramid with deformable convolution：
将FPN中的横向3×3卷积更改为可变形的3×3卷积。通过简单的修改，这可以带来0.3（41.1 vs 40.8）的改进。