M2Det论文解读:A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

(AAAI 2019)

目前主流的目标检测算法均广泛使用特征金字塔结构来解决物体尺度变化带来的差异。这篇论文提出了多层次金字塔网络(MLFPN),解决之前特征金字塔设计的局限性:只是简单地根据内在多尺度构造金字塔结构,被设计用于识别任务。MLFPN是一种更加高效的特征金字塔。

网络中常见的特征金字塔结构和MLFPN结构对比如下图。

目标检测现在面临的一个主要挑战是物体间的尺度差异(Scale variation across object instances),通常采用两种策略解决:image pyramid 图像金字塔和 feature pyramid特征金字塔。image pyramid在测试时使用,会大大增加内存和计算复杂性,效率急剧下降。与image pyramid相比, feature pyramid占用的内存和计算成本更少,而且便于嵌入到各类现有的检测算法中。现有的特征金字塔多被设计用来处理识别任务,例如上图中SSD网络直接单独使用两层主干网络(VGG16)的中间特征,通过S为2的卷积获得4个额外的特征层,共同构建特征金字塔。FPN通过自上而下的方式融合深层和浅层的特征构造特征金字塔。STDN基于主干网络DenseNet的最后一个Dense块,通过池化和尺度变换操作构建特征金字塔。作者指出了以上FP的局限性,主要在于两个方面。一是金字塔中的特征图只是简单地从分类任务的主干网络中提取,对目标检测任务来说不够典型(表达能力不够)。二是金字塔中的每个特征图主要会甚至仅包含主干网络的单层信息。

在论文中,分析了各层特征图的特性。较深层中的高级特征对分类任务更有效,较浅层中的低级特征对检测定位任务更敏感。低级特征更适合于表征具有简单外观的对象,而高级特征适合于具有复杂外观的对象。实际上,具有相似大小的对象实例的外观可能完全不同。例如,交通灯和遥远的人可能具有相当的尺寸,但是人的外观要复杂得多。因此,feature pyramid性能欠佳的主要原因是金字塔中每个特征图主要由单级特征组成。为解决上述局限,MLFPN融合主干网络中的多尺度特征,得到基础特征;然后,将基础特征送入一组交替连接的简化U型模块和特征融合模块,每个简化U型模块中decoder layers输出一组多尺度特征图;最后,将多组多尺度特征图中的等尺寸特征组合,得到多层次特征金字塔,用于目标检测。为测试效果,将MLFPN集成到SSD中,得到M2Det。

MLFPN的作用就是将基础网络得到的多尺度特征叠加组合,得到新的多层次多尺度特征,以聚合浅层信息定位能力强、深层信息分类能力强的特点。所以MLFPN模块可以作为独立组件拼接到各类目标检测网络中。MLFPN包含三个模块,FFM(Feature Fusion Module,特征融合模块),TUM(Thinned U-shape Module,简化U型模块)和SFAM(Scale-wise Feature Aggregation Module,多尺度特征增强模块)。总的来说,通过不同的U型模块,得到不同深度相同对应尺度的特征(如shallow,medium,deep)三种,再进行相同尺度特征图的拼接,随后经SE attention模块进行特征增强,得到最终的特征金字塔,示意图如下图所示。

上图中的FFMv1、FFMv2和TUM具体的结构如下图所示。

由公式所示,Xbase为主干网络提取出来的基础特征,除第一个TUM模块外,接下来的每个TUM接受基础特征和最邻近的TUM模块输出特征进行融合后作为输入。

主流one-stage和two-stage目标检测算法在COCO testdev上结果对比。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值