【YOLOv8改进 - 注意力机制】ContextAggregation : 上下文聚合模块，捕捉局部和全局上下文，增强特征表示

最新推荐文章于 2024-10-28 22:37:23 发布

YOLO大师

最新推荐文章于 2024-10-28 22:37:23 发布

阅读量271

点赞数

分类专栏： YOLOV8基础解析+创新改进+实战案例文章标签： YOLO 目标检测网络 yolov8 神经网络

原创文章，禁止任何形式转载！

本文链接：https://blog.csdn.net/shangyanaf/article/details/140664662

版权

YOLOV8基础解析+创新改进+实战案例专栏收录该内容

该专栏为热销专栏榜第28名

138 篇文章 141 订阅 ¥89.90 ¥99.00

订阅专栏

YOLOv8目标检测创新改进与实战案例专栏

专栏目录： YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例

专栏链接: YOLOv8基础解析+创新改进+实战案例

介绍

摘要

卷积神经网络（CNNs）在计算机视觉中无处不在，具有众多高效的变体。最近，最初在自然语言处理（NLP）中引入的Transformers越来越多地被应用于计算机视觉领域。尽管早期采用者继续使用CNN骨干网络，但最新的网络是端到端的、无CNN的Transformer解决方案。一个最近令人惊讶的发现表明，基于简单多层感知机（MLP）的解决方案，即使没有传统的卷积或Transformer组件，也能生成有效的视觉表示。虽然CNNs、Transformers和MLP-Mixers可以被认为是完全不同的架构，但我们提供了一个统一的视角，表明它们实际上是神经网络堆栈中聚合空间上下文的一种更普遍的方法的特例。我们提出了CONTAINER（CONText AggregatIon NEtwoRk），这是一个多头上下文聚合的通用构建模块，能够像Transformers一样利用长程交互，同时仍然利用局部卷积操作的归纳偏差，从而实现更快的收敛速度，这通常在CNNs中可见。我们的CONTAINER架构在ImageNet上使用22M参数实现了82.7%的Top-1准确率，相比DeiT-Small提高了2.8个百分点，并且只需200个epoch就能收敛到79.9%的Top-1准确率。与基于Transformer的方法相比，后者在依赖更大输入图像分辨率的下游任务中不具备良好的扩展性，我们的高效网络CONTAINER-LIGHT可以应用于DETR、RetinaNet和Mask-RCNN等目标检测和实例分割网络，获得令人印象深刻的检测mAP分别为38.9、43.8、45.1，和掩码mAP为41.3，相比使用可比计算和参数规模的ResNet-50骨干分别提高了6.6、7.3、6.9和6.6个点。与DeiT在DINO框架上的自监督学习相比，我们的方法也取得了可喜的结果。代码已在GitHub发布。