M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network AAAI2019

最新推荐文章于 2024-10-20 22:08:32 发布

hb_ma

最新推荐文章于 2024-10-20 22:08:32 发布

阅读量705

点赞数

分类专栏：目标检测计算机视觉

本文链接：https://blog.csdn.net/qq_20481015/article/details/96016708

版权

计算机视觉同时被 2 个专栏收录

37 篇文章 0 订阅

订阅专栏

目标检测

1 篇文章 0 订阅

订阅专栏

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

Single-shot目标检测新模型，使用multi-level特征，收录于AAAI2019.

这篇论文吸引我的地方，是对目标检测模型不同层次特征的适应性的描述。

code:https://github.com/qijiezhao/M2Det

paper:https://arxiv.org/abs/1811.04533

摘要

特征金字塔被最先进的一级one-stage检测子（如DSSD、Retinanet、Refinedt）和two-stage检测子（如Mask RCNN、Detnet）广泛利用，以缓解目标实例之间的尺度变化带来的问题。尽管这些具有特征金字塔的目标探测器取得了令人鼓舞的效果，由于它们只是简单地根据原始设计用于对象分类任务的骨架固有的多尺度金字塔结构构造特征金字塔，因而存在一定的局限性。在这项工作中，我们提出了多层次特征金字塔网络（MLFPN），以构造更有效的特征金字塔来检测不同尺度的物体。首先，我们将主干提取的多级特征（即多层）融合为基础特征。第二，将基本特征输入交替的关节细化U形模块和特征融合模块，利用每个USHAPE模块的译码器层作为目标检测的特征。最后，我们将具有等效尺度（大小）的译码器层集合起来，构造一个用于目标检测的特征金字塔，其中每个特征映射都由多个层次的层（特征）组成。为了评估所提出的MLFPN的有效性，我们设计并训练了一个功能强大的端到端one-stage检测子，我们称之为M2DET，将其集成到固态硬盘的架构中，并实现了比最先进的one-stage检测子更好的检测性能。具体来说，在MS-COCO基准测试中，M2DET采用单尺度推理策略，以11.8 fps的速度达到了41.0的AP，采用多尺度推理策略，达到了44.2的AP，这是one-stage检测子的最优成果。

介绍

对象实例之间的尺度变化是目标检测任务的主要挑战之一，通常有两种策略来解决这一挑战带来的问题。第一种方法是利用图像金字塔中检测目标，这一策略只能在测试时使用。显然，这种解决方案将大大增加内存和计算的复杂性，因此这种目标检测子的效率将大幅下降。第二种方法是从输入图像中提取特征金字塔，在训练和测试阶段使用。与第一种使用图像金字塔的解决方案相比，它的内存和计算成本更低。此外，特征金字塔模块可以很容易地集成到最先进的基于深度神经网络的检测子中，从而得到端到端的解决方案。

虽然带有特征金字塔的目标探测器取得了令人鼓舞的效果，但由于它们只是根据固有的多尺度金字塔结构来构造特征金字塔，而这种结构实际上是为分类任务而设计的。例如，如图1所示，SSD直接独立地使用两层主干（即vgg16）和通过步长2的卷积获得的四个额外层来构造特征金字塔；STDN仅使用densenet的最后一个dense块通过池和尺度变换来构造特征金字塔；FPN通过自上而下融合深层和浅层来构造特征金字塔。一般来说，上述方法有以下两个局限性。首先，金字塔中的特征图对于对象检测任务来说不够有代表性，因为它们只是由为对象分类任务设计的主干的层（特征）构建的。其次，金字塔中的每个特征图（用于检测特定范围内的对象）主要或甚至完全由主干的单层层构成，也就是说，它主要或仅包含单层信息。一般而言，较深层次的高层次特征对分类子任务的识别性更强，而较浅层次的低层次特征对目标定位回归子任务的识别性更强。此外，低层次特征更适合描述外观简单的物体，而高层次特征更适合描述外观复杂的物体（此处对于特征的把握值得注意）。在实践中，具有类似大小的对象实例的外观可能非常不同。例如，一个红绿灯和一个遥远的人可能有相当的大小，而且这个人的外表要复杂得多。因此，金字塔中的每个特征图（用于检测特定尺寸范围内的物体）主要或仅由单层特征组成，将导致检测性能不理想。

本文的目标是在避免现有方法的局限性的同时，构造一个更有效的特征金字塔来检测不同尺度的目标。如图2所示，为了实现这一目标，我们首先将主干提取的多级特征（即multiple layers）融合为基础特征，然后将其输入U形模块（TUM）和特征融合模块（FFM）中，提取出更具代表性的多级多层次特征。值得注意的是，每个U形模块中的解码器层具有相似的深度。最后，我们聚合了具有等效尺度的特征图，构建了目标检测的最终特征金字塔。显然，构成最终特征金字塔的解码器层要比主干中的层深得多，也就是说，它们更具代表性。此外，最终特征金字塔中的每个特征图都由来自多个级别的解码器层组成。因此，我们称特征金字塔块为多级特征金字塔网络（MLFPN）

为了评估所提出的MLFPN的有效性，我们设计并训练了一种功能强大的端到端单级目标探测器，我们称之为M2DET（根据它是建立在多级和多尺度特征之上的），将MLFPN集成到SSD的体系结构中。M2DET实现了最新的最先进的结果（即单尺度推理策略下的AP为41.0，速度为11.8 fps，多尺度推理策略下的AP为44.2），在MS-COCO上由于现有one-stage检测子。