DetNet: A Backbone network for Object Detection
(ICCV 2018,旷视)
该论文的出发点与M2Det相似,均是源自图像分类和物体检测任务之间的不同。具体来说,one-stage方法和two-stage方法都是直接将在ImageNet图像分类任务上预训练的模型进行finetune。但毕竟分类任务和检测任务不同,深层特征对分类任务有效,低层特征对检测任务有效。FPN和空洞卷积可以融合浅层特征以及增大感受野,但依然存在一些问题。
(1)典型的分类网络包含5个阶段,实现32倍下采样。在目标检测任务中,通常会增加新的阶段,如FPN为检测更大物体,增加P6;RetinaNet则增加了P6/P7阶段。这些新增加的阶段不能从pre-trained模型中进行finetune。
(2) 32倍的下采样不利于物体定位检测,在深层特征图中预测的大物体边界模糊。
(3) 小物体的漏检严重。FPN中浅层包含的语义信息太少,虽然采用自下而上的信息融合浅层位置信息和高层语义信息,但是如果在高层小物体消失,浅层的位置信息也就随之消失。
DetNet提供了一种新的特征提取backbone,引入dilated bottleneck