大的背景
- 特征金字塔网络似乎已经成为了相关目标检测比赛的一些标配,而且不论是one-stage(DSSD, RetinaNet),还是two-stages(Mask RCNN)
- 铝型材表面瑕疵识别-Are you OK?队-1-解决方案 就用到了Faster-RCNN+FPN
- 但是这个也并不是无往不利的利器,它也有着它的缺陷:
- 金字塔中提取的feature map往往没有足够的特征表达能力,因为这些feature map只是简单的根据主干网络的结构构成,但是这些主干网络起初是为目标识别而设计的。
- 用来检测物体的每一个feature map,往往主要是single-level layers构成,这也导致了只能包含single-level信息。
论文中主要工作做了什么?
- 基于SSD,设计了Multi-Level Feature Pyramid Network(MLFPN),具体来讲,提出了3个模块层
- FFM(Feature Fusion Module)(FFMv1, FFMv2)
- TUMs(Thinned U-shape Modules)
- SFAM(Scale-wise Feature Aggregation Module)
- 这篇论文有个特点,就是写的特别清楚,基本上看它的方法图,就能看懂做了什么,通俗易懂
- 整体框架图:
- FFMv1和FFMv2
- TUMs:
- SFAM:
- 整体框架图:
- 直观感受一下,和其他金字塔的区别:
相比于FPN,有什么优点呢?
从最后作为预测特征前的feature map而言,相比于FPN, MLFPN中的decoder layer比backbone更深,这样可以解决前期提取特征表达能力不足,也可以解决single-level的问题。
相关的资源:
- 性能超FPN!北大、阿里等提多层特征金字塔网络 (写的还可以,有些标题党,不过原文也比较通俗易懂)
- 原文
- GitHub链接(Pytorch0.4)