DetNet: A Backbone network for Object Detection的重点和理解

本文分析了使用分类模型进行目标检测的局限,并提出了DetNet这一新型骨干网络,旨在解决多尺度物体检测和保持空间分辨率的问题。DetNet通过特有的网络阶段和扩张瓶颈设计,实现在保持大感受野的同时,有效定位大、小物体。
摘要由CSDN通过智能技术生成

讨论分类模型和检测模型各自特点,设计了一个适合检测任务的新的骨干网络。

一、摘要
很多检测模型都是在分类模型的基础上演变的,基本都是在ImageNet预训练模型上进行finetune的。图像分类任务和目标检测任务之间有着如下的差别:(1)最新的检测模型如FPN和RetinaNet通常会涉及与图像分类任务以外的阶段,来处理多尺度的物体;(2)物体检测不仅需要知道物体的类别还需要获取对应的坐标位置。大的下采样因子会获得大的感受野,这对于图像分类是有利的,但是破坏了物体的位置。由于图像分类和物体检测之间的差异,我们设计了用于物体检测的新backbone网络DetNet。DetNet包含了与传统分类基网络不同的特殊阶段,可以在深层网络中维持高空间分辨率。

二、贡献
1、细节信息
指出使用分类骨干网络进行目标检测存在以下两个问题:网络来进行检测存在以下两个问题:(1)现阶段的检测器存在与分类骨干网络不同的特别状态,如FPN,用来多尺度的检测。(2)传统的分类骨干网络通过大的下采样因子来获得高的感受野,这对于分类时有用的,但是对于大的物体的定位和小物体的识别却是不利的。
为了解决以上两个问题,提出了一种新的backbone——DetNet。
DetNet的特征:(1)包含类似FPN一样的stage,实现多尺度检测;(2)即使通过特征的提取,也能保持特征的空间分辨率。

2、贡献总结如下:
(1)第一个分析现阶段使用传统ImageNet预训练模型类微调检测器的固有弊端;
(2)提出一个新的backbone,称为DetNet,可以保持空间分辨率的同时维持大的感受野。

三、为目标检测设计的骨干网络——DetNet
1、动机
现阶段目标检测常用的骨干网络是通过分类网络变化得到的,存在以下三个问题:
(1)不同的骨干网络的网络阶段数目是不一样的。
(2)对大的物体有低的可见度——深层网络大物体的边界变模糊
由于降采样因子的存在,大的步长对于物体定位是有害的。例如在物体检测中,大的物体是在深层网络中进行预测的,在这些深层网络中物体的边界变得模糊以致不能得到很好地回归。
(3)对小的物体的不可见——浅层网络小物体的分类变低效
大的步长会丢失小的物体。通常都是在浅层网络上预测小的物体,但是浅层网络具有低的语义信息,这对于小物体的分类时不利的。即使像FPN一样将低层的细节信息和高层的语义信息结合起来预测小物体,但是高层网络已经丢了小物体的信息,这样的结合并不是很有效的。

2、DetNet的设计
(1)保留ResNet50中的前4个阶段,在后面的阶段中降采样因子都是“16”。→维持空间分辨率
(2)在每个阶段的开始都使用一个伴有1*1卷积的扩张的bottleneck。→创造新的stage,即使分辨率和channel一样。
(3)使用伴有扩张的bottleneck当做一个基网络块,这对于扩大感受野有效的。同时阶段5和6保持跟阶段4一样的通道数,256。→扩大感受野
(4)同样使用FPN,对于特征层尺寸一样的采用简单相加
这里写图片描述

                         图1、 与(1)对应的降采样因子在stage 4之后保持为“16”

这里写图片描述
图2、与(2)(3)(4)对应

四、实验
1、backbone的训练和测试
这里写图片描述

2、检测器的训练和测试
用ImageNet的预训练权重初始化模型,然后训练过程保持stage 1的参数不变。Batch Normallization在检测器微调的时候保持不变。只采用了水平翻转的数据增强。
训练阶段,对于bboxs,首先获取12000个分数最高的bboxs,然后用NMS筛选,获得至多2000个RoIs用来训练。测试阶段,对于bboxs,首先获取6000个分数最高的bboxs,然后用NMS筛选,获得最多1000个RoIs用来训练。同时都采用了RoI-Align技术和。

3、结果
(1)DetNet59分类和检测性能

这里写图片描述

这里写图片描述

(2)结果分析
这里写图片描述

这里写图片描述

(a)与ResNet-50 相比,DetNet-59是一个更有效地寻找小物体的检测器,AR50差别大。这是由于DetNet相比ResNet50,在深层网络中保持更高的分辨率,同时通过FPN的思想实现低层的细节信息和高层的语义信息结合,有利于发现小物体。但是AR85中针对小物体的性能差别并不明显,这是因为DetNet并没有用于小物体的定位,基于FPN的ResNet为小物体使用了大的特征图。DetNet的深层网络中小物体的细节信息没有丢失(分辨率没有继续降低),有利于小物体识别。但是DetNet和ResNet都利用低层与高层的结合,在定位方面差别不大。
(b)DetNet能很好地进行大物体的定位,AR85差别大。总的来说,DetNet能够获得更多大物体的精度,而不是丢失大物体。

4、讨论
(1)DetNet的stage6是一个新的stage,而不是stage5的简单延伸。
DetNet使用伴有1*1卷积的扩张bottleneck将stage5与stage6分隔开,因为增加的1*1卷积可以创造一个新的stage,即使空间尺寸不变。而传统的分类网络ResNet在遇到channel不变的情况下使用不伴有1*1卷积的扩张bottleneck将两个stage隔开。
这里写图片描述

为了证明idea,将stage5跟stage6之间的B→A,如下图
这里写图片描述
得到如下的结果:
这里写图片描述
首先,NoProj的分类错误率提高了0.5,在检测精度上也不如前者,差了1.1mAP。
结果可以看出,像FPN一样涉及的新stage对于目标检测而言是很重要的。当我们使用A结构的扩张bottleneck,那么输出的特征图跟输入的特征图的区别度不大,因为输出特征图只是原始的输入特征图跟它变换之后的和运算,这并不容易为网络创造一个新的语义阶段。

(2)为目标检测的基网络进行预训练的重要性。
模型DetNet-59,只用ImageNet对基网络进行训练后移除stage6后面的层,再用COCO数据进行微调。
模型ResNet-50-dilated,用ResNet-50的权重初始化stage1-4,后面的阶段放空,然后用COCO数据进行微调。
结果如下:
这里写图片描述

5、与最优检测器的比较:对目标检测和实例分割都达到最好的效果
这里写图片描述

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值