本文介绍 CVPR 2021 接收的目标检测论文 You Only Look One-level Feature。
原论文作者来自:中科院自动化所、中科院大学人工智能学院、中国科学院脑科学与智能技术卓越创新中心、旷视科技。
0 动机
在高性能的目标检测网络中,特征金字塔网络(Feature Pyramid Network,FPN)是一个不可或缺的组成部分。作者认为FPN主要有2个作用:
其一是多尺度特征融合,提高了特征的丰富程度;
其二是使用分治法(divide-and-conquer),将目标检测任务按照目标尺寸不同,分成若干个检测子任务。
为了探索FPN的上述2个作用对检测器性能的贡献程度,作者做了一个实验,作者将检测器抽象成如下图所示个3个组成部分
编码器(Encoder)处理Backbone提取的特征,将处理结果传输给解码器(Decoder)用于分类和回归。
FPN可以看作一个MiMo(Multiple-in-Multiple-out)编码器,作者还设计了SiMo(Single-in-Multiple-out)、MiSo(Multiple-in-Single-out)、SiSo(Single-in-Single-out)编码器,这4种编码器的结构如下图所示:
上图中图(a)就是RetinaNet中的FPN,方框左侧的C3、C4、C5代表Backbone输出的特征,方框右侧的P3~P7代表传入Decoder的特征。
分别使用图(b)、(c)、(d)中的结构代替RetinaNet中的FPN,使用ResNet-50作为RetinaNet中的Backbone,分别训练4个网络并在COCO验证集上测试,结果如下图所示:
从上图中可以看出,使用MiMo和SiMo作为编码器,性能相近;使用MiSo和SiSo作为编码器,性能较差。这种现象说明了如下问题:
相比于MiMo,SiMo只使用Backbone输出的C5特征作为输入,使用SiMo作为编码器构建的网络性能基本与MiMo相当,说明Backbone输出的C5已经包含了足够的信息用于构建高性能检测器;
相比于MiMo和S