目录
论文:M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network
来源:AAAI 2019
1. Motivation
目前利用多尺度特征进行目标检测的算法,都是直接在分类网络所提取的特征进行转换,作者指出这种做法具有局限性:
- 分类网络一般都是bottom up结构,这种结构所提取的特征可能无法很好地进行目标检测;
- 每个输出特征层只是从一次bottom up网络中的某一层或某几层提取,这些特征只包含single-level information。
- 目前,研究者所持的观点是:深层特征由于具有较强的语义信息,更适合目标检测的分类子任务;浅层特征由于具有丰富的细节信息,更适合目标检测的定位子任务。另外,深层特征更适合检测具有复杂外观的物体,而浅层特征只能检测外观较简单的物体。
- 上述观点其实存在一个问题,尺寸相近但外观复杂程度相差较大的小物体,应该由深层特征来预测还是由浅层特征来预测呢?比如,交通灯和远处的行人在图像中占据相同大小的区域,但远处的行人具有复杂的外观,而交通灯的外观则相对简单。
- 对此,作者提出Multi-Level Feature Pyramid Network (MLFPN)来构造不同尺寸不同层级的特征图。如上图(d)所示,相同尺寸的特征是由不同层级的特征聚合而来的,这样,交通灯可由来自浅层的小尺寸特征检测,远处的行人可由来自深层的小尺寸特征检测。
- FPN的大尺寸特征同时来源于浅层特征和深层特征,但是小尺寸特征只来源于深层特征,实际上FPN只考虑尺寸层面的特征;MLFPN则同时考虑尺寸和层级两个方面,这样MLFPN大尺寸特征和小尺寸特征均同时来源于浅层特征和深层特征。
- 论文在SSD中加入新提出的MLFPN,得到新的目标检测器M2Det。
2. M2Det
2.1 overview
Backbone network提取输入图像的深度特征backbone feature
→
\to
→MLFPN对图像特征转化成多尺寸多层级的输出特征图
→
\to
→one stage anchor-based detection head进行分类和定位。M2Det的核心模块就是MLFPN。
2.2 MLFPN
MLFPN包含3个模块:
- Feature Fusion Module (FFM)
- Thinned U-shape Module (TUM)
- Scale-wise Feature Aggregation Module (SFAM)
2.2.1 Feature Fusion Module (FFM)
- FFMv1将backbone network中的浅层特征和深层特征(如VGG的conv4_3和conv5_3)融合成具有较强语义信息的单尺度特征base feature。
- FFMv2将不同层级的特征(前一个TUM输出特征中尺寸最大的特征)与base feature融合成具有不同尺寸不同层级的特征。
2.2.2 Feature Fusion Module (FFM)
- TUM的作用是对某一层级的特征生成不同尺寸的特征图。如下图所示,TUM以FFMv2的输出特征图
(
256
,
40
,
40
)
(256,40,40)
(256,40,40)作为输入,经过一系列的类FPN结构,生成多尺寸的特征图。
- 记base feature为
X
b
a
s
e
X_{base}
Xbase,FFMv2对应的映射函数为
F
(
)
F()
F(),第
l
l
l个TUM所对应的映射函数为
T
l
(
)
T_l()
Tl(),
x
i
l
x_i^l
xil表示第
l
l
l个TUM所输出的第
i
i
i个尺寸的特征图,则有:
2.2.3 Scale-wise Feature Aggregation Module (SFAM)
- scale-wise feature concatenation operation:对所有不同层级的特征金字塔,取出具有相同尺寸的特征图沿通道方向进行拼接,得到多尺度特征图。
- adaptive attention mechanism:使用全局池化层将尺寸压缩为1,使用两个全连接层进行权重学习,在根据权重对输入特征图进行重新调整。这一处理过程本质上是自注意力机制,模型可以根据实际情况自动对特征进行调整。
3. 实验
- 从下图可以看出MLFPN同时考虑尺寸和层级,解决了文章开头提出的问题。不同尺寸不同类别的物体在不同尺寸不同层级的特征图中有不同的响应。