到目前为止(2019.10.24),在COCO数据集上表现最佳的目标检测网络(单模型非ensemble)是CBNet,COCO测试集上的mAP为53.3。
作者声称,合并功能更强大的backbone可提高目标检测器的性能。为此,他们提出了一种新颖的策略,通过相邻backbone之间的复合连接(Composite Connection)来组合多个相同的backbone。这样他们搞出了一个更强大的backbone,称为复合骨干网络(Composite Backbone Network)。
如上图所示,CBNet由多个相同的backbone网络和相邻backbone网络之间的复合连接组成。从左到右,助理backbone中每个阶段的输出,也可以看作是更高级别的features。每个feature级别的输出作为输入的一部分,通过复合连接流到后续backbone的并行阶段。这样将多个高级和低级特征融合在一起以生成更丰富的feature表示。
论文介绍了两种类型的结构:双backbone(DB)和三重backbone(TB)。从命名可以猜到,DB由两个相同的backboone组成,而TB由三个相同的backbone组成。性能差异将在后面讨论。
为了组合来自backbone的多个输出,论文引入了一个复合连接模块。该块由一个1x1卷积和一个batch normalization层组成。添加这些层以减少通道数并执行上采样操作。
最后的backbone(在图中最右侧)被称为"Lead Backbone",用于目标检测。每个辅助backbone的输出作为其相邻backbone的输入, Lead Backboone输出的feature则作为RPN /dete