YOLOv5改进 | 注意力机制 | 添加SimAM注意力机制【全网独家+附完整代码】

kay_545

已于 2024-08-25 12:23:01 修改

阅读量2.3k

点赞数 31

分类专栏： YOLOv5入门 + 改进涨点文章标签： YOLO 目标检测深度学习 python 网络面试 yolov5改进

于 2024-06-04 12:45:00 首次发布

本文链接：https://blog.csdn.net/m0_67647321/article/details/139425928

版权

YOLOv5入门 + 改进涨点专栏收录该内容

96 篇文章

订阅专栏

💡💡💡本专栏所有程序均经过测试，可成功执行💡💡💡

压缩和激励模块（SE）以及空间通道注意力模块（CBAM）的注意力机制取得了巨大成功。本文介绍了一种简单而有效的替代模块，即简单注意力模块（SimAM）。SimAM模块是一个即插即用的模块，无需额外的模态参数。在本文中，给大家带来的教程是在原来的主干网络添加SimAM注意力机制。文章在介绍主要的原理后，将手把手教学如何进行模块的代码添加和修改，并将修改后的完整代码放在文章的最后，方便大家一键运行，小白也可轻松上手实践。以帮助您更好地学习深度学习目标检测YOLO系列的挑战。

专栏地址： YOLOv5改进+入门——持续更新各种有效涨点方法点击即可跳转

1.原理

官方论文：SIMPLE ATTENTION MODULE BASED SPEAKER VERIFICATION WITH ITERATIVE NOISY LABEL DETECTION——点击即可跳转

官方代码：SimAM代码官方仓库——点击即可挑战

SimAM（Simple Attention Module）是一种轻量级的注意力机制，旨在增强神经网络的表示能力，而不会显著增加计算开销。它通过对特征图进行自适应加权，来提高网络对关键特征的关注度。下面是对SimAM的详细讲解。

SimAM的基本概念

SimAM的基本思想是使用一个简单的模块来捕捉特征图中的重要信息。与其他复杂的注意力机制（如SE模块、CBAM等）相比，SimAM通过引入一个自适应加权机制，实现了高效的特征增强。

SimAM的实现

SimAM的实现可以概括为以下几个步骤：

输入特征图：输入特征图记为 $\mathbf{X}$ ，形状为 $C \times H \times W$ ，其中 C 是通道数， H 和 W 是特征图的高度和宽度。
计算通道均值：计算每个通道的均值 $\mu_c$ ，公式如下： $\mu_c = \frac{1}{HW} \sum_{i=1}^{H} \sum_{j=1}^{W} \mathbf{X}_{c, i, j}$
计算通道方差：计算每个通道的方差 $( \sigma_c^2 )$ ，公式如下： $\sigma_c^2 = \frac{1}{HW} \sum_{i=1}^{H} \sum_{j=1}^{W} (\mathbf{X}_{c, i, j} - \mu_c)^2$
计算加权参数：计算加权参数 $( \alpha_c )$ 和 $( \beta_c )$ ： $\alpha_c = \frac{\mu_c}{\sigma_c^2 + \epsilon} \beta_c = \frac{1}{\sigma_c^2 + \epsilon}$ 其中， $\epsilon$ 是一个很小的常数，用于避免除零错误。
计算注意力权重：计算每个像素位置的注意力权重 $\mathbf{A}_{c, i, j}$ ，公式如下： $\mathbf{A}_{c, i, j} = \alpha_c (\mathbf{X}_{c, i, j} - \mu_c) + \beta_c$
应用注意力权重：将注意力权重应用到原始特征图上，得到增强后的特征图 $\mathbf{Y}$ ： $\mathbf{Y}_{c, i, j} = \mathbf{X}_{c, i, j} \cdot \mathbf{A}_{c, i, j}$

SimAM的优点

计算开销低： SimAM不引入额外的卷积层或全连接层，计算量相对较低。
易于实现： SimAM的实现相对简单，可以很容易地嵌入到现有的卷积神经网络中。
有效性：实验表明，SimAM在提高网络性能方面表现出色，能够显著提高图像分类、目标检测等任务的准确性。

总结

SimAM是一种简洁有效的注意力机制，通过自适应加权显著提升神经网络的特征表示能力。其低计算开销和易于实现的特点，使得它在各种计算机视觉任务中具有广泛的应用前景。

2. SimAM的代码实现

2.1 将SimAM添加到YOLOv5中

关键步骤一: 将下面代码粘贴到/projects/yolov5-6.1/models/common.py文件中

import torch
import torch.nn as nn

class SimAM(torch.nn.Module):
    def __init__(self, channels = None, e_lambda = 1e-4):
        super(SimAM, self).__init__()

        self.activaton = nn.Sigmoid()
        self.e_lambda = e_lambda

    def __repr__(self):
        s = self.__class__.__name__ + '('
        s += ('lambda=%f)' % self.e_lambda)
        return s

    @staticmethod
    def get_module_name():
        return "simam"

    def forward(self, x):

        b, c, h, w = x.size()
        
        n = w * h - 1

        x_minus_mu_square = (x - x.mean(dim=[2,3], keepdim=True)).pow(2)
        y = x_minus_mu_square / (4 * (x_minus_mu_square.sum(dim=[2,3], keepdim=True) / n + self.e_lambda)) + 0.5

        return x * self.activaton(y)

SimAM（Simple Attention Module）的主要流程：

主要流程

输入特征图：
- 首先，SimAM接收一个输入特征图，该特征图具有多个通道，每个通道包含一个二维的空间特征（高度和宽度）。
计算通道均值：
- 对每个通道计算其所有像素的平均值。这个均值反映了该通道整体的强度水平。
计算通道方差：
- 计算每个通道的方差，反映该通道内像素值的变化程度。方差越大，说明该通道内的像素值变化越大。
计算加权参数：
- 使用计算出的均值和方差来生成两个加权参数。第一个参数（通常称为(\alpha)）表示相对于均值的权重，第二个参数（通常称为(\beta)）表示基础权重。
计算注意力权重：
- 利用加权参数和输入特征图，计算每个像素的位置的注意力权重。这个权重表示了该位置在特征图中的重要性。
应用注意力权重：
- 将计算出的注意力权重应用到输入特征图的每个像素位置上。具体而言，每个像素值乘以其对应的注意力权重，从而得到增强后的特征图。

工作机制

自适应加权：
- 通过计算均值和方差，自适应地调整特征图中每个像素的权重，使得重要的像素被放大，不重要的像素被抑制。
计算效率：
- SimAM不需要额外的卷积操作或全连接层，因此计算开销低，适合在各种卷积神经网络中嵌入使用。

应用场景

SimAM可以用于各种计算机视觉任务，如图像分类、目标检测和语义分割等，通过增强特征图的表达能力来提升模型性能。

通过这些步骤，SimAM实现了对特征图中重要信息的有效提取和增强，提高了神经网络的注意力机制，从而提升了整体性能。

2.2 新增yaml文件

关键步骤二：在下/projects/yolov5-6.1/models下新建文件 yolov5_SimAM.yaml并将下面代码复制进去

# YOLOv5 🚀 by Ultralytics, GPL-3.0 license

# Parameters
nc: 80  # number of classes
depth_multiple: 1.0  # model depth multiple
width_multiple: 1.0  # layer channel multiple
anchors:
  - [10,13, 16,30, 33,23]  # P3/8
  - [30,61, 62,45, 59,119]  # P4/16
  - [116,90, 156,198, 373,326]  # P5/32

# YOLOv5 v6.0 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Conv, [64, 6, 2, 2]],  # 0-P1/2
   [-1, 1, Conv, [128, 3, 2]],  # 1-P2/4
   [-1, 3, C3, [128]],
   [-1, 1, Conv, [256, 3, 2]],  # 3-P3/8
   [-1, 6, C3, [256]],
   [-1, 1, Conv, [512, 3, 2]],  # 5-P4/16
   [-1, 9, C3, [512]],
   [-1, 1, Conv, [1024, 3, 2]],  # 7-P5/32
   [-1, 3, C3, [1024]],
   [-1, 3, SimAM, [1024]],
   [-1, 1, SPPF, [1024, 5]],  # 9
  ]

# YOLOv5 v6.0 head
head:
  [[-1, 1, Conv, [512, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 6], 1, Concat, [1]],  # cat backbone P4
   [-1, 3, C3, [512, False]],  # 13

   [-1, 1, Conv, [256, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 4], 1, Concat, [1]],  # cat backbone P3
   [-1, 3, C3, [256, False]],  # 17 (P3/8-small)

   [-1, 1, Conv, [256, 3, 2]],
   [[-1, 14], 1, Concat, [1]],  # cat head P4
   [-1, 3, C3, [512, False]],  # 20 (P4/16-medium)

   [-1, 1, Conv, [512, 3, 2]],
   [[-1, 10], 1, Concat, [1]],  # cat head P5
   [-1, 3, C3, [1024, False]],  # 23 (P5/32-large)

   [[17, 20, 23], 1, Detect, [nc, anchors]],  # Detect(P3, P4, P5)
  ]

温馨提示：本文只是对yolov5l基础上添加swin模块，如果要对yolov8n/l/m/x进行添加则只需要指定对应的depth_multiple 和 width_multiple。

# YOLOv5n
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.25  # layer channel multiple
 
# YOLOv5s
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.50  # layer channel multiple
 
# YOLOv5l 
depth_multiple: 1.0  # model depth multiple
width_multiple: 1.0  # layer channel multiple
 
# YOLOv5m
depth_multiple: 0.67  # model depth multiple
width_multiple: 0.75  # layer channel multiple
 
# YOLOv5x
depth_multiple: 1.33  # model depth multiple
width_multiple: 1.25  # layer channel multiple

2.3 注册模块

关键步骤三：在yolo.py中注册, 大概在260行左右添加 ‘SimAM’

2.4 执行程序

在train.py中，将cfg的参数路径设置为yolov5_SimAM.yaml的路径

建议大家写绝对路径，确保一定能找到

🚀运行程序，如果出现下面的内容则说明添加成功🚀

3. 完整代码分享

https://pan.baidu.com/s/1E-5qdtYXVVqN3fBgHQiLVw?pwd=t7ys

提取码: t7ys

4. GFLOPs

关于GFLOPs的计算方式可以查看：百面算法工程师 | 卷积基础知识——Convolution

未改进的GFLOPs

改进后的GFLOPs

5. 进阶

你能在不同的位置添加SimAM注意力机制吗？这非常有趣，快去试试吧

6.总结

SimAM（Simple Attention Module）的原理是通过计算每个通道的均值和方差来生成自适应的加权参数，这些参数用于计算每个像素位置的注意力权重。该权重反映了像素在特征图中的重要性，重要像素被放大，而不重要像素被抑制，从而增强特征图的表示能力。SimAM的优势在于其计算开销低且易于实现，可以有效地提升神经网络在各种计算机视觉任务中的性能。