大年初一也不忘检测新框架！CBNetV2：复合主干网络的目标检测（附源代码）

最新推荐文章于 2024-08-18 10:29:25 发布

计算机视觉研究院

最新推荐文章于 2024-08-18 10:29:25 发布

阅读量676

点赞数

文章标签：网络计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/gzq0723/article/details/122767313

版权

计算机视觉研究院专栏

作者：Edison_G

现代性能最佳的目标检测器在很大程度上依赖于主干网络，其进步通过探索更有效的网络结构带来一致的性能提升。然而，设计或搜索新的主干并在ImageNet上对其进行预训练可能需要大量的计算资源，这使得获得更好的检测性能成本很高。

公众号ID｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

论文：

https://arxiv.org/pdf/2107.00420.pdf

简要

现代性能最佳的目标检测器在很大程度上依赖于主干网络，其进步通过探索更有效的网络结构带来一致的性能提升。然而，设计或搜索新的主干并在ImageNet上对其进行预训练可能需要大量的计算资源，这使得获得更好的检测性能成本很高。

今天分享中，研究者通过构建现有开源预训练主干的组合，提出了一种新的主干网络，即 CBNetV2。特别是，CBNetV2 架构将多个相同的主干分组，这些主干通过复合连接连接。研究者还为基于CBNet的检测器提出了一个更好的训练策略与辅助监督。无需额外的预训练，CBNetV2可以集成到主流检测器中，包括一级和两级检测器，以及基于Anchor和Anchor Free的检测器，并在COCO的基线上显着提高其性能3.0%以上。此外，实验提供了强有力的证据，表明复合主干比预训练的更广泛和更深的网络更高效和资源友好，包括基于手动和基于NAS的网络，以及基于CNN和基于Transformer。

背景

如上图所示，研究者的解决方案名为Composite Backbone Network V2 (CBNetV2)，将多个相同的主干网络组合在一起。具体而言，并行主干网络（称为辅助主干和引导主干）通过复合连接连接。在上图中从左到右，辅助主干中每个阶段的输出流向其后续主干的并行和较低级别的阶段。最后，将主干的特征馈送到neck和检测头，用于边界框回归和分类。与简单的网络深化或拓宽相反，CBNetV2 整合了多个主干网络的高低层特征，逐渐扩大感受野以更高效地进行目标检测。

新框架

Same Level Composition (SLC)

一种直观而简单的复合风格是融合来自主干同一阶段的输出特征。

Adjacent Higher-Level Composition (AHLC)

受特征金字塔网络的启发，自上而下的pathway引入了空间上更粗糙但语义上更强大的高级特征，以增强自下而上pathway中的低级特征。在之前的CBNet中，研究者进行了相邻的高级组合（AHLC），将前一个主干的相邻更高级别阶段的输出馈送到后续的主干。

Adjacent Lower-Level Composition (ALLC)

与AHLC不同，研究者引入了一种自下而上的pathway，将前一个主干的相邻低级阶段的输出提供给后续主干。

Dense Higher-Level Composition (DHLC)

在DenseNet中，每一层都连接到所有后续层以构建综合特征。受此启发，研究者在CBNet架构中利用密集复合连接。

Full-connected Composition (FCC)

与DHLC不同，研究者将辅助主干网络的所有阶段的特征组合起来，并将它们馈送到主干中的每个阶段。如上图e所示，在比较DHLC的情况下，在低层次的情况下添加连接。

新提出的CBNet架构（K = 2）与RCNN的展开架构之间的比较。

CBNetV2的一个例子如上图b所示。除了使用主干特征训练检测头1的原始损失外，另一个检测头2将辅助主干特征作为输入来产生辅助监督。请注意，检测头1和检测头2是权重共享。辅助监督有助于优化学习过程，而开始的主干原始损失承担了最多的责任。研究者增加权重来平衡助理监督，其中总损失表示为：

实验

新提出的方法与最先进的检测器在COCO目标检测和实例分割方面的比较结果。

Visualization of class activation APping, using ResNet50 and Dual-ResNet50 as backbone. The baseline detector is Faster R-CNN ResNet50 with 800 × 500 input size. For each backbone, we visualize the stage 2 viewed in color.

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！