【YOLOv8改进 - 注意力机制】 CascadedGroupAttention：级联组注意力，增强视觉Transformer中多头自注意力机制的效率和有效性

最新推荐文章于 2024-11-02 15:21:28 发布

YOLO大师

最新推荐文章于 2024-11-02 15:21:28 发布

阅读量366

点赞数

分类专栏： YOLOV8基础解析+创新改进+实战案例文章标签： YOLO transformer 深度学习

原创文章，禁止任何形式转载！

本文链接：https://blog.csdn.net/shangyanaf/article/details/140138885

版权

YOLOV8基础解析+创新改进+实战案例专栏收录该内容

138 篇文章 137 订阅 ¥89.90 ¥99.00

订阅专栏

YOLO目标检测创新改进与实战案例专栏

专栏目录： YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例

专栏链接: YOLO基础解析+创新改进+实战案例

介绍

摘要

视觉Transformer由于其强大的模型能力，已经展示了巨大的成功。然而，其显著的性能伴随着高计算成本，这使得它们不适合实时应用。在本文中，我们提出了一系列高速视觉Transformer，命名为EfficientViT。我们发现现有Transformer模型的速度通常受限于内存效率低的操作，尤其是MHSA中的张量重塑和元素级函数。因此，我们设计了一个新的构建块，采用三明治布局，即在高效的FFN层之间使用单个内存绑定的MHSA，以提高内存效率同时增强通道通信。此外，我们发现注意力图在不同头部之间具有高度相似性，导致计算冗余。为了解决这一问题，我们提出了一个级联分组注意力模块，为不同的注意力头提供完整特征的不同拆分，这不仅节省了计算成本，还提高了注意力的多样性。全面的实验表明，EfficientViT在速度和准确性之间取得了良好的平衡，优于现有的高效模型。例如，我们的EfficientViT-M5在准确性上超过了MobileNetV3-Large 1.9%，同时在Nvidia V100 GPU和Intel Xeon CPU上的吞吐量分别提高了40.4%和45.2%。与最近的高效模型MobileViT-XXS相比，EfficientViT-M2的准确性高出1.8%，在GPU/CPU上的运行速度分别快5.8倍/3.7倍，并且在转换为ONNX格式时速度快7.4倍。代码和模型可以在这里获取。