【YOLOv8改进 - 注意力机制】Gather-Excite : 提高网络捕获长距离特征交互的能力

最新推荐文章于 2024-09-08 15:17:51 发布

丙音

最新推荐文章于 2024-09-08 15:17:51 发布

阅读量849

点赞数 29

文章标签： YOLO 网络人工智能论文阅读深度学习

本文链接：https://blog.csdn.net/m0_63430863/article/details/140668027

版权

YOLOv8目标检测创新改进与实战案例专栏

专栏目录： YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例

专栏链接: YOLOv8基础解析+创新改进+实战案例

介绍

摘要

虽然卷积神经网络（CNNs）中使用自下而上的局部操作符与自然图像的一些统计特性很好地匹配，但这也可能阻止这些模型捕捉上下文的长程特征交互。在这项工作中，我们提出了一种简单且轻量的方法，以更好地在CNNs中利用上下文信息。我们通过引入一对操作符来实现这一目标：聚集（gather），该操作符高效地聚合来自大空间范围的特征响应；激发（excite），将汇集的信息重新分配给局部特征。这些操作符在添加参数数量和计算复杂度方面都很便宜，并且可以直接集成到现有架构中以提高其性能。多个数据集上的实验表明，聚集-激发（gather-excite）操作符可以带来类似于增加CNN深度的好处，但成本仅为其一小部分。例如，我们发现带有聚集-激发操作符的ResNet-50在ImageNet上能够超越其101层的对应模型，而无需额外的可学习参数。我们还提出了一对参数化的聚集-激发操作符，这对进一步提高性能有帮助，并将其与最近引入的挤压-激励网络（Squeeze-and-Excitation Networks）联系起来，并分析这些变化对CNN特征激活统计的影响。

基本原理

Gather-Excite（简称GE）框架旨在增强卷积神经网络（CNNs）中对上下文的利用能力。它引入了两个主要操作符：gather和excite，这两个操作符协同工作，提高了网络捕获长距离特征交互的能力。

技术原理

1. 动机

传统的卷积神经网络主要使用局部操作符，这些操作符虽然高效，但在捕捉长距离依赖关系方面存在局限性。这是因为它们的感受野是局部的。尽管更深的层理论上具有更大的感受野，但实际上有效感受野要小得多。这一限制妨碍了CNN利用整个图像中分布的上下文信息。

2. Gather操作符 (ξG)

Gather操作符用于从较大的空间范围内聚合特征响应。它通过汇集广泛区域的信息，使网络能够收集上下文信息。这个操作符可以通过不同的池化方法实现，如平均池化，它对指定范围内的特征值进行平均。

3. Excite操作符 (ξE)

Excite操作符将聚合的信息重新分配给局部特征。这种重新分配通过根据聚合的上下文信息重新缩放原始输入特征来实现。Excite操作符使用门控机制（通常是sigmoid函数）来调整输入特征，使其受到聚合上下文的调节。

4. 在CNN中的整合

GE操作符轻量且易于整合到现有的CNN架构中。它们被插入到ResNet等网络的残差块中，就在与恒等分支求和之前。这样的整合提高了网络的表示能力，而不会显著增加计算负担。

实现细节

1. 无参数配对

在基础实现（GE-θ−）中，gather操作符使用平均池化来聚合特征，excite操作符使用sigmoid函数来调整这些聚合。这种方法不引入额外的可学习参数，并且显著提高了性能。

2. 参数化配对

为了进一步增强框架，参数化的gather操作符被引入，通过深度卷积来应用空间滤波到独立通道上。这种方法被称为GE-θ，为gather操作符添加了可学习参数，进一步提高了性能。

性能和优势

ImageNet分类：实验表明，将GE操作符集成到ResNet-50中，其性能优于更深的ResNet-101，展示了上下文利用的效率。
泛化能力：GE框架在其他架构和任务中也表现出良好的泛化能力，如在MS COCO上的Faster R-CNN目标检测和CIFAR-10/100上的分类任务。
计算效率：这些操作符计算成本低，不会显著增加网络的参数数量或计算复杂度，适合资源受限的环境。