DetNet: A Backbone network for Object Detection的重点和理解

最新推荐文章于 2021-07-08 18:54:02 发布

Chencheng Chen

最新推荐文章于 2021-07-08 18:54:02 发布

阅读量1.2k

点赞数 1

分类专栏：目标检测文章标签：计算机视觉目标检测深度学习

本文链接：https://blog.csdn.net/ccc94814/article/details/82184887

版权

目标检测专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文分析了使用分类模型进行目标检测的局限，并提出了DetNet这一新型骨干网络，旨在解决多尺度物体检测和保持空间分辨率的问题。DetNet通过特有的网络阶段和扩张瓶颈设计，实现在保持大感受野的同时，有效定位大、小物体。

摘要由CSDN通过智能技术生成

讨论分类模型和检测模型各自特点，设计了一个适合检测任务的新的骨干网络。

一、摘要
很多检测模型都是在分类模型的基础上演变的，基本都是在ImageNet预训练模型上进行finetune的。图像分类任务和目标检测任务之间有着如下的差别：（1）最新的检测模型如FPN和RetinaNet通常会涉及与图像分类任务以外的阶段，来处理多尺度的物体；（2）物体检测不仅需要知道物体的类别还需要获取对应的坐标位置。大的下采样因子会获得大的感受野，这对于图像分类是有利的，但是破坏了物体的位置。由于图像分类和物体检测之间的差异，我们设计了用于物体检测的新backbone网络DetNet。DetNet包含了与传统分类基网络不同的特殊阶段，可以在深层网络中维持高空间分辨率。

二、贡献
1、细节信息
指出使用分类骨干网络进行目标检测存在以下两个问题：网络来进行检测存在以下两个问题：（1）现阶段的检测器存在与分类骨干网络不同的特别状态，如FPN，用来多尺度的检测。（2）传统的分类骨干网络通过大的下采样因子来获得高的感受野，这对于分类时有用的，但是对于大的物体的定位和小物体的识别却是不利的。
为了解决以上两个问题，提出了一种新的backbone——DetNet。
DetNet的特征：（1）包含类似FPN一样的stage，实现多尺度检测；（2）即使通过特征的提取，也能保持特征的空间分辨率。

2、贡献总结如下：
（1）第一个分析现阶段使用传统ImageNet预训练模型类微调检测器的固有弊端；
（2）提出一个新的backbone，称为DetNet，可以保持空间分辨率的同时维持大的感受野。

三、为目标检测设计的骨干网络——DetNet
1、动机
现阶段目标检测常用的骨干网络是通过分类网络变化得到的，存在以下三个问题：
（1）不同的骨干网络的网络阶段数目是不一样的。
（2）对大的物体有低的可见度——深层网络大物体的边界变模糊
由于降采样因子的存在，大的步长对于物体定位是有害的。例如在物体检测中，大的物体是在深层网络中进行预测的，在这些深层网络中物体的边界变得模糊以致不能得到很好地回归。
（3）对小的物体的不可见——浅层网络小物体的分类变低效
大的步长会丢失小的物体。通常都是在浅层网络上预测小的物体，但是浅层网络具有低的语义信息，这对于小物体的分类时不利的。即使像FPN一样将低层的细节信息和高层的语义信息结合起来预测小物体，但是高层网络已经丢了小物体的信息，这样的结合并不是很有效的。

2、DetNet的设计
（1）保留ResNet50中的前4个阶段，在后面的阶段中降采样因子都是“16”。→维持空间分辨率
（2）在每个阶段的开始都使用一个伴有1*1卷积的扩张的bottleneck。→创造新的stage，即使分辨率和channel一样。
（3）使用伴有扩张的bottleneck当做一个基网络块，这对于扩大感受野有效的。同时阶段5和6保持跟阶段4一样的通道数，256。→扩大感受野
（4）同样使用FPN，对于特征层尺寸一样的采用简单相加。
这里写图片描述

                         图1、 与（1）对应的降采样因子在stage 4之后保持为“16”

这里写图片描述
图2、与（2）（3）（4）对应

四、实验
1、backbone的训练和测试
这里写图片描述

2、检测器的训练和测试
用ImageNet的预训练权重初始化模型，然后训练过程保持stage 1的参数不变。Batch Normallization在检测器微调的时候保持不变。只采用了水平翻转的数据增强。
训练阶段，对于bboxs，首先获取12000个分数最高的bboxs，然后用NMS筛选，获得至多2000个RoIs用来训练。测试阶段，对于bboxs，首先获取6000个分数最高的bboxs，然后用NMS筛选，获得最多1000个RoIs用来训练。同时都采用了RoI-Align技术和。

3、结果
（1）DetNet59分类和检测性能

这里写图片描述

（2）结果分析
这里写图片描述

这里写图片描述

（a）与ResNet-50 相比，DetNet-59是一个更有效地寻找小物体的检测器，AR50差别大。这是由于DetNet相比ResNet50，在深层网络中保持更高的分辨率，同时通过FPN的思想实现低层的细节信息和高层的语义信息结合，有利于发现小物体。但是AR85中针对小物体的性能差别并不明显，这是因为DetNet并没有用于小物体的定位，基于FPN的ResNet为小物体使用了大的特征图。DetNet的深层网络中小物体的细节信息没有丢失（分辨率没有继续降低），有利于小物体识别。但是DetNet和ResNet都利用低层与高层的结合，在定位方面差别不大。
（b）DetNet能很好地进行大物体的定位，AR85差别大。总的来说，DetNet能够获得更多大物体的精度，而不是丢失大物体。

4、讨论
（1）DetNet的stage6是一个新的stage，而不是stage5的简单延伸。
DetNet使用伴有1*1卷积的扩张bottleneck将stage5与stage6分隔开，因为增加的1*1卷积可以创造一个新的stage，即使空间尺寸不变。而传统的分类网络ResNet在遇到channel不变的情况下使用不伴有1*1卷积的扩张bottleneck将两个stage隔开。
这里写图片描述

为了证明idea，将stage5跟stage6之间的B→A，如下图
这里写图片描述
得到如下的结果：

首先，NoProj的分类错误率提高了0.5，在检测精度上也不如前者，差了1.1mAP。
结果可以看出，像FPN一样涉及的新stage对于目标检测而言是很重要的。当我们使用A结构的扩张bottleneck，那么输出的特征图跟输入的特征图的区别度不大，因为输出特征图只是原始的输入特征图跟它变换之后的和运算，这并不容易为网络创造一个新的语义阶段。

（2）为目标检测的基网络进行预训练的重要性。
模型DetNet-59，只用ImageNet对基网络进行训练后移除stage6后面的层，再用COCO数据进行微调。
模型ResNet-50-dilated，用ResNet-50的权重初始化stage1-4，后面的阶段放空，然后用COCO数据进行微调。
结果如下：
这里写图片描述