M2Det

《M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid》
简介:
在本文中,我们提出了多层特征金字塔网络(MLFPN)来构造更有效的特征金字塔来检测不同尺度的目标。
1:FFMv1 fuses feature maps of the backbone to generate the base feature.
2:Each TUM generates a group of multi-scale features, and then the alternating joint TUMs and FFMv2s extract multi-level multi-scale features(每个TUM生成一组多尺度特征,然后交替联合Tum和ffmv2s提取多级多尺度特征。)
3:SFAM aggregates the features into a multi-level feature pyramid
大致流程如下:首先,对主干网络提取到的特征进行融合;然后通过TUM和FFM提取更有代表性的Multi-level&Mutli-scale特征;最后通过SFAM融合多级特征,得到多级特征金字塔用于最终阶段的预测

贡献:
1提出多级特征金字塔网络MLFPN
2基于提出的MLFPN,结合SSD,提出一种新的Single-shot目标检测模型M2Det
3在MS-COCO benchmark上,M2Det的单尺度版本和多尺度版本AP分别达到41.0和44.2

介绍:
为了解决目标实例的尺度变化问题,主流做法有两种:
一是在测试阶段使用图像金字塔(如Cascade RCNN),即将原始图像进行一系列缩放,毫无疑问这会大幅增加内存和计算开销;
二是在从输入图像提取出的特征金字塔上进行检测,该方法可以同时用于训练和测试阶段中,相对开销较小,易于集成,适合end-to-end。

在这里插入图片描述
整体结构:
在这里插入图片描述
方法:
特征融合模块FFM
FFM用于融合M2Det中不同级别的特征,先通过1x1卷积压缩通道数,再进行拼接。具体而言:
FFMv1使用两种不同scale的feature map作为输入,所以在拼接操作之前加入了上采样操作来调整大小;
FFMv2的两个输入的scale相同,所以比较简单。两种FFM的细节如下图所示
在这里插入图片描述
TUM:
在这里插入图片描述
尺度特征聚合模块SFAM:
SFAM旨在聚合TUMs产生的多级多尺度特征,以构造一个多级特征金字塔。在first stage,SFAM沿着channel维度将拥有相同scale的feature map进行拼接,这样得到的每个scale的特征都包含了多个level的信息。然后在second stage,借鉴SENet的思想,加入channel-wise attention,以更好地捕捉有用的特征。SFAM的细节如下图所示:
在这里插入图片描述
网络配置:
M2Det的主干网络采用VGG-16和ResNet-101
MLFPN的默认配置包含有8个TUM,每个TUM包含5个跨步卷积核5个上采样操作,所以每个TUM的输出包含了6个不同scale的特征。
在检测阶段,为6组金字塔特征每组后面添加两个卷积层,以分别实现位置回归和分类。
后处理阶段,使用soft-NMS来过滤无用的包围框。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值