大年初一也不忘检测新框架!CBNetV2:复合主干网络的目标检测(附源代码)

6541c08c388ff9c0114f7b5c57938f06.gif

计算机视觉研究院专栏

作者:Edison_G

现代性能最佳的目标检测器在很大程度上依赖于主干网络,其进步通过探索更有效的网络结构带来一致的性能提升。然而,设计或搜索新的主干并在ImageNet上对其进行预训练可能需要大量的计算资源,这使得获得更好的检测性能成本很高。

ada9c8743528d9348be36a0c14186f70.png

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

6a11f0570aef652c936368911fd1ffb1.png

论文:

https://arxiv.org/pdf/2107.00420.pdf

1

 简要

现代性能最佳的目标检测器在很大程度上依赖于主干网络,其进步通过探索更有效的网络结构带来一致的性能提升。然而,设计或搜索新的主干并在ImageNet上对其进行预训练可能需要大量的计算资源,这使得获得更好的检测性能成本很高。

026e85d990ea8b3821609cd5adc6748b.png

今天分享中,研究者通过构建现有开源预训练主干的组合,提出了一种新的主干网络,即 CBNetV2。特别是,CBNetV2 架构将多个相同的主干分组,这些主干通过复合连接连接。研究者还为基于CBNet的检测器提出了一个更好的训练策略与辅助监督。无需额外的预训练,CBNetV2可以集成到主流检测器中,包括一级和两级检测器,以及基于Anchor和Anchor Free的检测器,并在COCO的基线上显着提高其性能3.0%以上。此外,实验提供了强有力的证据,表明复合主干比预训练的更广泛和更深的网络更高效和资源友好,包括基于手动和基于NAS的网络,以及基于CNN和基于Transformer。

2

 背景

5b9f62865d497d1aa8e9aa922851e7bb.png

如上图所示,研究者的解决方案名为Composite Backbone Network V2 (CBNetV2),将多个相同的主干网络组合在一起。具体而言,并行主干网络(称为辅助主干和引导主干)通过复合连接连接。在上图中从左到右,辅助主干中每个阶段的输出流向其后续主干的并行和较低级别的阶段。最后,将主干的特征馈送到neck和检测头,用于边界框回归和分类。与简单的网络深化或拓宽相反,CBNetV2 整合了多个主干网络的高低层特征,逐渐扩大感受野以更高效地进行目标检测。

3

 新框架

9e173f43f0147d292794f66a973fb129.png

  • Same Level Composition (SLC)

一种直观而简单的复合风格是融合来自主干同一阶段的输出特征。

  • Adjacent Higher-Level Composition (AHLC)

受特征金字塔网络的启发,自上而下的pathway引入了空间上更粗糙但语义上更强大的高级特征,以增强自下而上pathway中的低级特征。在之前的CBNet中,研究者进行了相邻的高级组合(AHLC),将前一个主干的相邻更高级别阶段的输出馈送到后续的主干。

  • Adjacent Lower-Level Composition (ALLC)

与AHLC不同,研究者引入了一种自下而上的pathway,将前一个主干的相邻低级阶段的输出提供给后续主干。

  • Dense Higher-Level Composition (DHLC)

在DenseNet中,每一层都连接到所有后续层以构建综合特征。受此启发,研究者在CBNet架构中利用密集复合连接。

  • Full-connected Composition (FCC)

与DHLC不同,研究者将辅助主干网络的所有阶段的特征组合起来,并将它们馈送到主干中的每个阶段。如上图e所示,在比较DHLC的情况下,在低层次的情况下添加连接。

1e5d3353dc6266fb9989fb11badaa1a1.png

新提出的CBNet架构(K = 2)与RCNN的展开架构之间的比较。

5363a7bb5d765d3d3471cfe767de2625.png

CBNetV2的一个例子如上图b所示。除了使用主干特征训练检测头1的原始损失外,另一个检测头2将辅助主干特征作为输入来产生辅助监督。请注意,检测头1和检测头2是权重共享。辅助监督有助于优化学习过程,而开始的主干原始损失承担了最多的责任。 研究者增加权重来平衡助理监督,其中总损失表示为:

4c3d19d6406812f9fb17aaa997a8d293.png

4

 实验

83d319f0f2ee1c86d180302b011a41a6.png

新提出的方法与最先进的检测器在COCO目标检测和实例分割方面的比较结果。

7213fcf62dc13d3ec519d3c4d389268c.png

Visualization of class activation APping, using ResNet50 and Dual-ResNet50 as backbone. The baseline detector is Faster R-CNN ResNet50 with 800 × 500 input size. For each backbone, we visualize the stage 2 viewed in color.

915b348773d4ebf5f963d04d7786bb40.png

© THE END 

转载请联系本公众号获得授权

8b597235f52f3cc862296863ed97a8d2.gif

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

dc0689708e0b8dc09b81c0d4c4fae202.png

扫码关注

计算机视觉研究院

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

源代码|关注回复“CBN2”获取

 往期推荐 

🔗

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值