【YOLOv8改进】 MSDA：多尺度空洞注意力

YOLO大师

已于 2024-07-15 14:37:28 修改

阅读量5.8k

点赞数 1

分类专栏： YOLOV8基础解析+创新改进+实战案例文章标签： YOLO 论文阅读 microsoft

于 2024-02-21 16:33:39 首次发布

原创文章，禁止任何形式转载！

本文链接：https://blog.csdn.net/shangyanaf/article/details/136215149

版权

YOLOV8基础解析+创新改进+实战案例专栏收录该内容

138 篇文章 129 订阅 ¥89.90 ¥99.00

订阅专栏

本文介绍了YOLOv8中引入的MSDA（多尺度空洞注意力）机制，该机制通过在不同头部设置不同扩张率来聚合多尺度语义信息，减少了自注意力机制的冗余，提高了模型效率。文章详细阐述了MSDA的工作原理，提供了代码链接和YOLOv8的引入步骤。

摘要由CSDN通过智能技术生成

YOLOv8目标检测创新改进与实战案例专栏

专栏目录： YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例

专栏链接: YOLOv8基础解析+创新改进+实战案例

介绍

摘要

作为事实上的解决方案，标准的视觉变换器（ViTs）被鼓励模拟任意图像块之间的长距离依赖性，而全局关注的接受域导致了二次计算成本。视觉变换器的另一个分支受到CNNs启发，利用局部注意力，只模拟小邻域内块之间的交互。尽管这样的解决方案降低了计算成本，但它自然会受到小的关注接受域的限制，这可能会限制性能。在这项工作中，我们探索有效的视觉变换器，以追求计算复杂性和关注接受域大小之间的理想折衷。通过分析ViTs中全局注意力的块交互，我们观察到浅层中的两个关键属性，即局部性和稀疏性，表明在ViTs的浅层中全局依赖性建模的冗余。因此，我们提出多尺度扩张注意力（MSDA），在滑动窗口内模拟局部和稀疏的块交互。通过金字塔架构，我们通过在低级阶段堆叠MSDA块和在高级阶段堆叠全局多头自注意力块，构建了多尺度扩张变换器（DilateFormer）。我们的实验结果表明，我们的DilateFormer在各种视觉任务上实现了最先进的性能。在ImageNet-1K分类任务上，与现有的最先进模型相比，DilateFormer实现了相当的性能，而计算成本减少了70%。我们的DilateFormer-Base在ImageNet-1K分类任务上实现了85.6%的顶级准确率，在COCO对象检测/实例分割任务上实现了53.5%的框mAP/46.1%的掩码mAP，在ADE20K语义分割任务上实现了51.1%的MS mIoU。