DetNet: A Backbone network for Object Detection

文章地址:https://arxiv.org/pdf/1804.06215.pdf
图像分类任务和目标检测任务之间存在一些差异。
(i) 最近的目标检测器,如FPN和RetinaNet,通常需要额外的步骤来完成图像分类任务,以处理不同尺度的目标。
(ii)目标检测不仅需要识别目标实例的类别,还需要对位置进行空间定位。较大的下采样因子会带来较大的有效感受野,这有利于图像分类,但会影响目标定位能力。鉴于图像分类和目标检测之间的差距,本文提出了DetNet,这是一种专门为目标检测设计的新型骨干网络。此外,DetNet包含了与传统主干网络相比的额外阶段,用于图像分类,同时在更深层次上保持较高的空间分辨率。
图像分类和目标检测问题之间存在着差距,目标检测不仅需要识别目标实例的类别,还需要对边界框进行空间定位。更具体地说,在目标检测任务中使用分类主干存在两个问题。(i) 例如FPN,与ImageNet分类的主干网络相比,涉及额外的阶段,以便检测各种大小的物体。(ii)传统的主干基于大的下采样因子产生更高的感受野,这有利于视觉分类。然而,空间分辨率会受到影响,这将无法准确定位大型对象和识别小型对象。
一个设计良好的检测主干网应该能够解决上述所有问题。在本文中,作者提出了DetNet,这是一种用于目标检测的新型主干网。由于物体大小比例不同,DetNet包含了额外的阶段,这些阶段在物体检测器(如FPN)中使用。与传统的ImageNet分类预训练模型不同,DetNet保持了特征的空间分辨率,即使包含额外的阶段。然而,由于计算和存储成本的原因,高分辨率特征映射给构建深度神经网络带来了更多挑战。为了保持DetNet的效率,作者采用了一种低复杂度的扩展瓶颈结构。通过整合这些改进,DetNet不仅保持了高分辨率的特征图,而且还保持了较大的接收野,这两个对目标检测任务都很重要。

一、文章实现

最近的目标检测器通常依赖于主干网络,该主干网络在ImageNet分类数据集上预训练。由于ImageNet分类的任务不同于目标检测,后者不仅需要识别目标的类别,还需要对边界框进行空间定位。图像分类的设计原则不适合定位任务,因为VGG16和Resnet等标准网络的特征图的空间分辨率逐渐降低。如下图中A的特征金字塔网络(FPN)和扩展,被应用于这些网络,以保持空间分辨率。然而,在使用这些骨干网络进行训练时,仍然存在以下三个问题。
在这里插入图片描述
上图为比较FPN中使用的不同主干。具有传统主干网的特征金字塔网络(FPN)如(A)所示。图像分类的传统主干如(B)所示。本文提出的主干如(C)所示,它具有更高的空间分辨率和与FPN完全相同的阶段。
网络阶段的数量是不同的。如上图中的B所示,典型的分类网络包括5个阶段,每个阶段通过2x的池化或跨步为2卷积对特征图进行下采样。因此,输出特征地图的空间大小为“32x”次采样。与传统的分类网络不同,特征金字塔检测器通常采用更多的阶段。例如,在特征金字塔网络(FPN)中,添加了额外的阶段P6以处理较大的对象,并且以类似的方式在RetinaNet中添加了阶段P6、P7。显然,像P6这样的额外阶段不是在ImageNet数据集中预先训练的。
大型物体的可见性较弱:具有强语义信息的特征映射相对于输入图像有32倍的下采样,这带来了较大的有效感受野,并导致ImageNet分类任务的成功。然而,大步距对目标定位是有害的。在特征金字塔网络中,大型对象是在更深的层中生成和预测的,这些对象的边界可能过于模糊,无法得到精确的回归。当分类网络中涉及更多的阶段时,这种情况更糟,因为更多的下采样会给对象带来更大的跨步。
小物体的丢失大步距下采样的另一个缺点是小物体的缺失。随着特征图空间分辨率的降低和大背景信息的整合,小目标的信息很容易被削弱。因此,特征金字塔网络可以预测较浅层中的小对象。然而,浅层通常只有较低的语义信息,这可能不足以识别对象实例的类别。因此,检测器必须通过从深层引入高层表征的上下文线索来增强其分类能力。如上图A所示,特征金字塔网络通过采用自底向上的路径来缓解它。然而,如果小对象在更深的层中丢失,这些上下文提示将同时丢失。
为了解决这些问题,作者提出了具有以下特点的DetNet。
(i) 阶段的数量直接用于目标检测。
(ii)尽管DetNet比传统分类网络涉及更多的阶段(例如6个阶段或7个阶段),但我们保持了特征图的高空间分辨率,同时保持了较大的感受野。
在目标检测方面,DetNet比传统的主干网(如ResNet)有几个优势。首先,DetNet的阶段数与使用的检测器完全相同,因此可以在ImageNet数据集中预先训练额外的阶段,如P6。第二,得益于上一阶段的高分辨率特征图,DetNet在定位大对象边界和查找丢失的小对象方面更强大。
要打造一个高效的目标检测主干网络,有两个挑战。一方面,保持深度神经网络的空间分辨率需要耗费大量的时间和内存。另一方面,降低下采样因子等于降低有效感受野,这将对许多视觉任务有害,例如图像分类和语义分割。
DetNet从第一阶段到第四阶段遵循与ResNet相同的设置。区别从第五阶段开始,如下图2D所示。DetNet可以很容易地用深层扩展,比如ResNet101。DetNet59的详细设计如下所示:
DetNet(D)和基于DetNet的特征金字塔网络(E)的详细结构。DetNet中使用的不同瓶颈块如(A,B)所示。原始瓶颈如(C)所示。DetNet在第4阶段之前遵循与ResNet相同的设计,而在第4阶段之后保持空间大小(例如第5和第6阶段)。
在这里插入图片描述

作者将在主干中引入额外的阶段,例如P6,稍后将用于FPN中的目标检测。同时,将空间分辨率固定为16倍下采样,即使在第4阶段之后也是如此。
由于在第4阶段之后空间大小是固定的,为了引入一个新的阶段,在每个阶段的开始采用了一个扩张的瓶颈,带有1x1卷积投影(图2b)。发现图2b中的模型对于FPN这样的多级探测器很重要。
作者将膨胀卷积作为基本网络块,有效地扩大了感受。由于膨胀卷积仍然很耗时,第5阶段和第6阶段与第4阶段保持相同的通道(瓶颈块为256个输入通道)。这与传统的主干网设计不同,后者将在后期实现双通道。
DetNet很容易与任何带/不带特征金字塔的探测器集成。作者采用了FPN作为基线来验证DetNet的有效性。由于DetNet只改变FPN的主干,作者固定了FPN中除主干之外的其他结构。因为在Resnet-50的第4阶段之后,不减少空间大小,所以简单地以自上而下的路径方式对这些阶段的输出求和。

二、实验结果

在这里插入图片描述
在这里插入图片描述

三、实验分析

目标检测评估有两个关键点,一个是平均精度(AP),另一个是平均召回率(AR)。AR表示我们能找到多少对象,AP表示正确预测了多少对象(正确的分类标签)。AP和AR通常根据不同的IoU阈值进行评估,以验证目标位置的回归能力。IOU越大,回归就越准确。AP和AR也会在不同范围的边界框区域(小、中、大)上进行评估,以发现细节对缩放对象的影响。
在这里插入图片描述

在这里插入图片描述
与ResNet-50相比,DetNet-59在查找丢失的小对象方面更强大,在小对象的AR50中获得6.4点增益(66.4 vs 60.0)。DetNet在更深的阶段比ResNet保持更高的分辨率,因此可以在更深的阶段找到更小的对象。由于我们使用了图1A中的采样路径,浅层也可以包含查找小对象的上下文线索。然而AR85@small在ResNet50和DetNet-59之间具有可比性(18.7比19.6)。这是合理的。DetNet不适用于小对象定位,因为基于ResNet的FPN已经为小对象使用了大特征映射。
DetNet适用于大型对象的定位,在AR85中,大型对象的定位精度为56.3(vs 50.2)。然而,大型对象中的AR50变化不大(95.4 vs 95.0)。一般来说,DetNet会找到更精确的大对象,而不是丢失大对象。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值