【YOLOv8改进 - Backbone主干】清华大学CloFormer AttnConv ：利用共享权重和上下文感知权重增强局部感知，注意力机制与卷积的完美融合

YOLO大师

已于 2024-07-27 11:14:16 修改

阅读量129

点赞数

分类专栏： YOLOV8基础解析+创新改进+实战案例文章标签： YOLO 人工智能目标检测 yolov8

于 2024-06-20 10:07:17 首次发布

原创文章，禁止任何形式转载！

本文链接：https://blog.csdn.net/shangyanaf/article/details/139824105

版权

YOLOV8基础解析+创新改进+实战案例专栏收录该内容

该专栏为热销专栏榜第18名

137 篇文章 95 订阅 ¥79.90 ¥99.00

订阅专栏

YOLOv8目标检测创新改进与实战案例专栏

专栏目录： YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例

专栏链接: YOLOv8基础解析+创新改进+实战案例

介绍

摘要

视觉变换器（Vision Transformers，ViTs）已被证明在各种视觉任务中具有高效性。然而，将其缩小到移动设备友好的尺寸会导致性能显著下降。因此，开发轻量级视觉变换器成为了一个重要的研究方向。本文介绍了CloFormer，这是一种利用上下文感知局部增强的轻量级视觉变换器。CloFormer探讨了在传统卷积操作中常用的全局共享权重与在注意力机制中出现的特定于token的上下文感知权重之间的关系，并提出了一种高效且简单的模块来捕获高频局部信息。在CloFormer中，我们引入了AttnConv，一种在注意力风格下的卷积操作。提出的AttnConv使用共享权重来聚合局部信息，并部署精心设计的上下文感知权重来增强局部特征。AttnConv与使用池化来减少CloFormer中FLOPs的传统注意力相结合，使模型能够感知高频和低频信息。在图像分类、目标检测和语义分割中的大量实验表明了CloFormer的优越性。

文章链接

论文地址：论文地址

代码地址：代码地址

基本原理

AttnConv是CloFormer中引入的一种卷积操作符，它采用了注意力机制的风格。所提出的 AttnConv 有效地融合了共享权重和上下文感知权重，以聚合高频的局部信息。具体地，AttnConv 首先使用深度卷积（DWconv）提取局部表示，其中 DWconv 具有共享权重。然后，其使用上下文感知权重来增强局部特征。与 Non-Local 等生成上下文感知权重的方法不同，AttnConv 使用门控机制生成上下文感知权重，引入了比常用的注意力机制更强的非线性。此外，AttnConv 将卷积算子应用于 Query 和 Key 以聚合局部信息，然后计算 Q 和 K 的哈达玛积，并对结果进行一系列线性或非线性变换，生成范围在 [-1,1] 之间的上下文感知权重。值得注意的是，AttnConv 继承了卷积的平移等变性，因为它的所有操作都基于卷积。具体公式如下：

了解本专栏

YOLO大师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【YOLOv8改进 - Backbone主干】清华大学CloFormer AttnConv ：利用共享权重和上下文感知权重增强局部感知，注意力机制与卷积的完美融合

【YOLOv8改进 - Backbone主干】清华大学CloFormer AttnConv ：利用共享权重和上下文感知权重增强局部感知，注意力机制与卷积的完美融合本文介绍了CloFormer，这是一种利用上下文感知局部增强的轻量级视觉变换器。CloFormer探讨了在传统卷积操作中常用的全局共享权重与在注意力机制中出现的特定于token的上下文感知权重之间的关系，并提出了一种高效且简单的模块来捕获高频局部信息。
复制链接

扫一扫