名称:M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network
文献类型:目标检测
年份:2018
要解决的问题:提出了更快更好的网络
问题存在的原因:目前的目标检测网络都有局限性,原因在于它们只是基于物体分类的主干网络的固有尺度,简单地构建特征金字塔
解决的途径/方法:
提出了MLFPN(Multi-level Feature Pyramid Network)用以更好地提取特征:
FFMv1融合backbone网络两个不同尺度的特征图,生成Base feature,再将Base feature送入TUM中:
图:TUM
生成最浅层的特征金字塔。将TUM的最大尺度的特征图输出再与Base feature利用FFMv2融合,再次送入下一个TUM:
图:FFMv2
生成下一层次的特征金字塔。
如此一来,可以生成大小相同而语义信息完全不同的特征金字塔。
最后在SFAM模块进行特征融合:
图:SFAM
将相同尺度,不同深度的特征图堆叠在一起,经过Global Average Pooling和Reweighting等操作产生最终的特征图。
为何MLFPN有用?
在今年来的目标检测网络结构中,我们可以看到一个矛盾:语义信息更强的特征图总是尺度过小。科研工作者们一直致力于解决这个问题,而MLFPN或许就是一个答案。在每一个尺度上,网络都利用不同深度的多层的特征去检测物体。即作者认为,物体的语义复杂度与它在图中的大小没有必然关系,还是物体本身起了决定性的作用。
讨论:
在文章的最后,作者也利用卷积可视化技术讨论(证明)了MLFPN起作用的原因:
在图中,人、车、红绿灯的大小是类似的,而红绿灯在很浅的层激活值很大,车次之,人在很深的层激活度最大。相同大小的物体为何有如此区别?答案即为物体本身的复杂度不同,因此检测需要的深度不同。很明显的人复杂度最高,车次之,红绿灯最低。检测人的存在需要在语义信息很重的深层特征图中去检测!