论文阅读【检测】AAAI2019 | M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

现在性能较好的一阶段物体探测器(如DSSD,RetinaNet,RefineDet)和两阶段物体探测器(如Mask RCNN,DetNet)都广泛使用了特征金字塔,从而缓解对象实例的比例大小变化带来的差异问题。尽管这些具有特征金字塔的物体探测器获得了不错的结果,但它们也有一定的局限性:它们只是简单地根据内在的多尺度构造特征金字塔,这种骨干网络的金字塔架构本是为了分类任务而设计。最近,在这项工作中,提出了多层次特征金字塔网络(MLFPN)来构建更有效的特征金字塔,用于检测不同尺度的对象。首先,融合由骨干网络提取的多级特征(即多层)作为基本特征。然后,将上述基本特征送入一组交替连接的简化U形模块和特征融合模块,并利用每个U形模块的解码器层作为检测对象的特征。最后,将具有等效尺度(大小)的解码器层集合(组合)起来,形成一个用于目标检测的特征金字塔,其中每个特征图由多个层次的层(特征)组成。

一、Introduction

实例之间的尺度差异是对象检测任务的主要挑战之一,通常有两种策略来解决由此挑战引起的问题。第一种是检测图像金字塔中的对象(即一系列已调整输入图像大小的副本),这种方法只能在测试时使用。显然,这种解决方案将大大增加内存和计算复杂性,因此这种对象检测器的效率急剧下降。第二种是检测从输入图像中提取的特征金字塔中的对象,可以在训练和测试阶段进行利用。与使用图像金字塔的第一种解决方案相比,第二种方案需要更少的内存和计算成本。此外,特征金字塔构建模块可以很容易地嵌入到基于深度神经网络的最先进检测器中,从而产生端到端的解决方案。

由于他们只是根据内在多尺度金字塔结构的骨架网络构建了特征金字塔,这种骨架网络实际上是为物体分类任务设计的,因此这些方法仍然存在一些局限性。

首先,金字塔中的特征图对于对象检测任务而言不够典型(表达能力不够),它们只是简单地从为对象分类任务设计的骨干网络的层(特征)中构造。其次,金字塔中的每个特征图(用于检测特定大小范围内的对象)主要或甚至仅从骨干网络的单层构建,即,它主要或仅包含单层信息。通常,较深层中的高级特征对分类子任务更具区别性,而较浅层中的低级特征可有助于对象位置回归子任务。此外,低级特征更适合于表征具有简单外观的对象,而高级特征适合于具有复杂外观的对象。实际上,具有相似大小的对象实例的外观可能完全不同。例如,交通灯和遥远的人可能具有相当的尺寸,但是人的外观要复杂得多。因此,金字塔中的每个特征图(用于检测特定尺寸范围内的对象)主要或仅由单级特征组成将致使检测性能欠佳。

本文的目的是构建一个更有效的特征金字塔,用于检测不同尺度的物体,同时避免上述现有方法的局限性。如图2所示,为了实现这个目标,我们首先融合由骨干网络提取的多级特征(即多个层)作为基本特征,然后将其馈送到交替连接的简化U形模块(TUM)和特征融合模块(FFM),从而提取更具代表性的多级多尺度特征。值得注意的是,每个U形模块中的解码器层共享相似的深度。最后,我们收集(组合,融合)具有等效尺度的特征图,以构建用于对象检测的最终特征金字塔。显然,形成最终特征金字塔的解码器层比骨干中的层深得多,即它们更具代表性。此外,最终特征金字塔中的每个特征图都包含来自多个级别的解码器层。因此,我们将我们的特征金字塔块称为多级特征金字塔网络(MLFPN)。
在这里插入图片描述

图二

二、Proposed Method

特征融合模块FFM

FFM用于融合M2Det中不同级别的特征,先通过1x1卷积压缩通道数,再进行拼接。具体而言:

  • FFMv1使用两种不同scale的feature map作为输入,所以在拼接操作之前加入了上采样操作来调整大小;
  • FFMv2的两个输入的scale相同,所以比较简单。两种FFM的细节如下图所示。

在这里插入图片描述

细化U型模块TUM

TUM使用了比FPN和RetinaNet更薄的U型网络。在上采样和元素相加操作之后加上1x1卷积来加强学习能力和保持特征平滑度。TUM中每个解码器的输出共同构成了该TUM的multi-scale输出。每个TUM的输出共同构成了multi-level&multi-scale特征,前面的TUM提供low level feature,后面的TUM提供high level feature.TUM的细节如下图所示:
在这里插入图片描述

尺度特征聚合模块SFAM

SFAM旨在聚合TUMs产生的多级多尺度特征,以构造一个多级特征金字塔。在first stage,SFAM沿着channel维度将拥有相同scale的feature map进行拼接,这样得到的每个scale的特征都包含了多个level的信息。然后在second stage,借鉴SENet的思想,加入channel-wise attention,以更好地捕捉有用的特征。SFAM的细节如下图所示:
在这里插入图片描述

总结

作为一阶段的检测算法,速度真的不敢恭维。相当于把neck,整的有多复杂就多复杂。我不认为用U型结构可以有多大作用。感觉是多尺度的特征concat起的作用。没必要弄那么复杂的U型结构,消耗大量的计算量。感觉这篇论文有点牵强,不过故事说的挺好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值