改进YOLOv5系列：结合CVPR2021：多头注意力Efficient Multi-Head Self-Attention

一休哥※

已于 2023-06-01 20:20:46 修改

阅读量1.4k

点赞数 1

分类专栏： YOLOv8、YOLO5系列改进专栏文章标签： YOLO 深度学习计算机视觉

于 2023-06-01 20:20:28 首次发布

本文链接：https://blog.csdn.net/qq_44224801/article/details/130995134

版权

44 篇文章 20 订阅 ¥119.90 ¥299.90

订阅专栏

本文介绍了ResT，一个用于图像识别的高效多尺度视觉变换器，解决了Transformer骨干网络在低级特征提取、计算开销和位置编码灵活性上的问题。ResT通过深度卷积压缩内存并实现空间注意，动态调整感受野，提高性能。代码和参数结果也进行了分享。

摘要由CSDN通过智能技术生成

在这里插入图片描述

Efficient注意力介绍

本文提出了一个高效的多尺度视觉变换器，称为ResT，它可以作为图像识别的通用支柱。可以作为图像识别的通用骨干。不同于
现有的变换器方法，采用标准的变换器模块来处理具有固定分辨率的原始图像。
我们的ResT有几个优点：

构建了一个内存高效的多头自关注，它通过简单的深度卷积压缩了内存。
构建了一个内存高效的多头自我注意，它通过一个简单的深度卷积来压缩内存，并将交互作用投射到整个
注意力-头的维度，同时保持多头的多样性能力；(2)
位置编码被构建为空间注意，它更加灵活，可以处理任意的输入图像。
位置编码是以空间注意的形式构建的，它更加灵活，可以处理任意大小的输入图像，不需要插值或微调；
我们没有在每个阶段的开始直接进行标记化，而是将补丁嵌入设计为堆栈式。
而不是在每个阶段的开始直接进行标记化，我们把补丁嵌入设计成一个叠加的卷积操作，并在标记图上有一个跨度。
符号图上的跨度。我们在图像分类中全面验证了ResT和下游任务上进行全面验证。实验结果表明，提出的ResT可以在很大程度上超过了最近的最先进的骨干网࿰

了解本专栏

关注