M2Det

最新推荐文章于 2022-12-03 16:38:23 发布

dekiang

最新推荐文章于 2022-12-03 16:38:23 发布

阅读量374

点赞数

分类专栏： Object Detection

本文链接：https://blog.csdn.net/weixin_41560402/article/details/109361738

版权

Object Detection 专栏收录该内容

55 篇文章 17 订阅

订阅专栏

1. Motivation

目前利用多尺度特征进行目标检测的算法，都是直接在分类网络所提取的特征进行转换，作者指出这种做法具有局限性：

分类网络一般都是bottom up结构，这种结构所提取的特征可能无法很好地进行目标检测；
每个输出特征层只是从一次bottom up网络中的某一层或某几层提取，这些特征只包含single-level information。
目前，研究者所持的观点是：深层特征由于具有较强的语义信息，更适合目标检测的分类子任务；浅层特征由于具有丰富的细节信息，更适合目标检测的定位子任务。另外，深层特征更适合检测具有复杂外观的物体，而浅层特征只能检测外观较简单的物体。
上述观点其实存在一个问题，尺寸相近但外观复杂程度相差较大的小物体，应该由深层特征来预测还是由浅层特征来预测呢？比如，交通灯和远处的行人在图像中占据相同大小的区域，但远处的行人具有复杂的外观，而交通灯的外观则相对简单。
对此，作者提出Multi-Level Feature Pyramid Network (MLFPN)来构造不同尺寸不同层级的特征图。如上图(d)所示，相同尺寸的特征是由不同层级的特征聚合而来的，这样，交通灯可由来自浅层的小尺寸特征检测，远处的行人可由来自深层的小尺寸特征检测。
FPN的大尺寸特征同时来源于浅层特征和深层特征，但是小尺寸特征只来源于深层特征，实际上FPN只考虑尺寸层面的特征；MLFPN则同时考虑尺寸和层级两个方面，这样MLFPN大尺寸特征和小尺寸特征均同时来源于浅层特征和深层特征。
论文在SSD中加入新提出的MLFPN，得到新的目标检测器M2Det。

2. M2Det

2.1 overview

Backbone network提取输入图像的深度特征backbone feature $\to$ MLFPN对图像特征转化成多尺寸多层级的输出特征图 $\to$ one stage anchor-based detection head进行分类和定位。M2Det的核心模块就是MLFPN。
在这里插入图片描述

2.2 MLFPN

MLFPN包含3个模块：

Feature Fusion Module (FFM)
Thinned U-shape Module (TUM)
Scale-wise Feature Aggregation Module (SFAM)

2.2.1 Feature Fusion Module (FFM)

FFMv1将backbone network中的浅层特征和深层特征（如VGG的conv4_3和conv5_3）融合成具有较强语义信息的单尺度特征base feature。
FFMv2将不同层级的特征（前一个TUM输出特征中尺寸最大的特征）与base feature融合成具有不同尺寸不同层级的特征。

2.2.2 Feature Fusion Module (FFM)

TUM的作用是对某一层级的特征生成不同尺寸的特征图。如下图所示，TUM以FFMv2的输出特征图 $(256, 40, 40)$ 作为输入，经过一系列的类FPN结构，生成多尺寸的特征图。
记base feature为 $X_{base}$ ，FFMv2对应的映射函数为 $F ()$ ，第 $l$ 个TUM所对应的映射函数为 $T_l()$ ， $x_i^l$ 表示第 $l$ 个TUM所输出的第 $i$ 个尺寸的特征图，则有：

2.2.3 Scale-wise Feature Aggregation Module (SFAM)

scale-wise feature concatenation operation：对所有不同层级的特征金字塔，取出具有相同尺寸的特征图沿通道方向进行拼接，得到多尺度特征图。
adaptive attention mechanism：使用全局池化层将尺寸压缩为1，使用两个全连接层进行权重学习，在根据权重对输入特征图进行重新调整。这一处理过程本质上是自注意力机制，模型可以根据实际情况自动对特征进行调整。