M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

名称:M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

文献类型:目标检测

年份:2018

要解决的问题:提出了更快更好的网络

问题存在的原因:目前的目标检测网络都有局限性,原因在于它们只是基于物体分类的主干网络的固有尺度,简单地构建特征金字塔

解决的途径/方法:

提出了MLFPN(Multi-level Feature Pyramid Network)用以更好地提取特征:

FFMv1融合backbone网络两个不同尺度的特征图,生成Base feature,再将Base feature送入TUM中:

                                                                                      图:TUM

生成最浅层的特征金字塔。将TUM的最大尺度的特征图输出再与Base feature利用FFMv2融合,再次送入下一个TUM:

                                                                                      图:FFMv2

生成下一层次的特征金字塔。

如此一来,可以生成大小相同而语义信息完全不同的特征金字塔。

最后在SFAM模块进行特征融合:

                                                                                      图:SFAM

将相同尺度,不同深度的特征图堆叠在一起,经过Global Average Pooling和Reweighting等操作产生最终的特征图。

为何MLFPN有用?

在今年来的目标检测网络结构中,我们可以看到一个矛盾:语义信息更强的特征图总是尺度过小。科研工作者们一直致力于解决这个问题,而MLFPN或许就是一个答案。在每一个尺度上,网络都利用不同深度的多层的特征去检测物体。即作者认为,物体的语义复杂度与它在图中的大小没有必然关系,还是物体本身起了决定性的作用。

讨论:

在文章的最后,作者也利用卷积可视化技术讨论(证明)了MLFPN起作用的原因:

在图中,人、车、红绿灯的大小是类似的,而红绿灯在很浅的层激活值很大,车次之,人在很深的层激活度最大。相同大小的物体为何有如此区别?答案即为物体本身的复杂度不同,因此检测需要的深度不同。很明显的人复杂度最高,车次之,红绿灯最低。检测人的存在需要在语义信息很重的深层特征图中去检测!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值