YOLOv8 改进 008：添加 EMAttention 注意力机制

Keqi19

已于 2024-09-09 15:04:17 修改

阅读量521

点赞数 5

文章标签： YOLO yolov8 深度学习

于 2024-09-09 12:53:49 首次发布

本文链接：https://blog.csdn.net/m0_46496775/article/details/142055511

版权

论文题目：《Efficient Multi-Scale Attention Module with Cross-Spatial Learning》

摘要：这篇论文提出了一种新颖的高效多尺度注意力（EMA）模块。EMA 模块旨在保留每个通道的信息，同时减少计算开销。它通过重塑部分通道到批次维度，并将通道维度分组为多个子特征，使得空间语义特征在每个特征组内均匀分布。此外，EMA 模块通过编码全局信息来重新校准每个并行分支中的通道权重，并通过跨维度交互来捕获像素级別的成对关系。作者在图像分类和目标检测任务上进行了广泛的消融研究和实验，证明了其性能。

论文地址：https://arxiv.org/pdf/2208.03641v1

官方源码：GitHub - YOLOonMe/EMAttention-module

1. 项目环境

解释器：3.9.19
框架：Pytorch 2.0.0 + CUDA 11.8
系统：Win10 / Ubuntu 20.04

2. 核心代码

import torch
from torch import nn

class EMA(nn.Module):
    def __init__(self, channels, c2=None, factor=32):
        super(EMA, self).__init__()
        self.groups = factor
        assert channels // self.groups > 0
        self.softmax = nn.Softmax(-1)
        self.agp = nn.AdaptiveAvgPool2d((1, 1))
        self.pool_h = nn.AdaptiveAvgPool2d((None, 1))
        self.pool_w = nn.AdaptiveAvgPool2d((1, None))
        self.gn = nn.GroupNorm(channels // self.groups, channels // self.groups)
        self.conv1x1 = nn.Conv2d(channels // self.groups, channels // self.groups, kernel_size=1, stride=1, padding=0)
        self.conv3x3 = nn.Conv2d(channels // self.groups, channels // self.groups, kernel_size=3, stride=1, padding=1)

    def forward(self, x):
        b, c, h, w = x.size()
        group_x = x.reshape(b * self.groups, -1, h, w)  # b*g,c//g,h,w
        x_h = self.pool_h(group_x)
        x_w = self.pool_w(group_x).permute(0, 1, 3, 2)
        hw = self.conv1x1(torch.cat([x_h, x_w], dim=2))
        x_h, x_w = torch.split(hw, [h, w], dim=2)
        x1 = self.gn(group_x * x_h.sigmoid() * x_w.permute(0, 1, 3, 2).sigmoid())
        x2 = self.conv3x3(group_x)
        x11 = self.softmax(self.agp(x1).reshape(b * self.groups, -1, 1).permute(0, 2, 1))
        x12 = x2.reshape(b * self.groups, c // self.groups, -1)  # b*g, c//g, hw
        x21 = self.softmax(self.agp(x2).reshape(b * self.groups, -1, 1).permute(0, 2, 1))
        x22 = x1.reshape(b * self.groups, c // self.groups, -1)  # b*g, c//g, hw
        weights = (torch.matmul(x11, x12) + torch.matmul(x21, x22)).reshape(b * self.groups, 1, h, w)
        return (group_x * weights.sigmoid()).reshape(b, c, h, w)

3. 添加方法

第 1 步：在 ultralytics/nn/add_modules/ 目录下新建 Python 源文件 EMA.py，将以上 EMA 高效多尺度注意力模块的核心代码复制粘贴至 EMA.py 文件中。

在这里，我只为大家演示三种添加方式，具体哪一种有效果，需要大家自己多做实验尝试。大家也可以尝试其他的添加位置。

代码1

import torch
import torch.nn as nn

__all__ = ['EMA', 'C2f_EMA']

class EMA(nn.Module):
    def __init__(self, channels, c2=None, factor=32):
        super(EMA, self).__init__()
        self.groups = factor
        assert channels // self.groups > 0
        self.softmax = nn.Softmax(-1)
        self.agp = nn.AdaptiveAvgPool2d((1, 1))
        self.pool_h = nn.AdaptiveAvgPool2d((None, 1))
        self.pool_w = nn.AdaptiveAvgPool2d((1, None))
        self.gn = nn.GroupNorm(channels // self.groups, channels // self.groups)
        self.conv1x1 = nn.Conv2d(channels // self.groups, channels // self.groups, kernel_size=1, stride=1, padding=0)
        self.conv3x3 = nn.Conv2d(channels // self.groups, channels // self.groups, kernel_size=3, stride=1, padding=1)

    def forward(self, x):
        b, c, h, w = x.size()
        group_x = x.reshape(b * self.groups, -1, h, w)  # b*g,c//g,h,w
        x_h = self.pool_h(group_x)
        x_w = self.pool_w(group_x).permute(0, 1, 3, 2)
        hw = self.conv1x1(torch.cat([x_h, x_w], dim=2))
        x_h, x_w = torch.split(hw, [h, w], dim=2)
        x1 = self.gn(group_x * x_h.sigmoid() * x_w.permute(0, 1, 3, 2).sigmoid())
        x2 = self.conv3x3(group_x)
        x11 = self.softmax(self.agp(x1).reshape(b * self.groups, -1, 1).permute(0, 2, 1))

最低0.47元/天解锁文章

Keqi19

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
YOLOv8 改进 008：添加 EMAttention 注意力机制

本文详细介绍了如何在 YOLOv8 中添加 EMAttention 注意力机制，以提升模型性能。通过本文你将会学习到 EMAttention 注意力机制的原理、核心代码实现，并跟随步骤在 YOLOv8 中注册和应用该模块。EMAttention 能够有效增强模型的特征表示能力，提高计算机视觉任务的准确性。
复制链接

扫一扫