【有啥问啥】通道与空间的双重增强的CBAM注意力机制是什么？

Chauvin912

已于 2024-09-04 09:26:23 修改

阅读量1.3k

点赞数 14

分类专栏：大模型视觉感知算法科普文章标签：人工智能 ai

于 2024-08-10 14:00:00 首次发布

本文链接：https://blog.csdn.net/mieshizhishou/article/details/141056298

版权

科普同时被 3 个专栏收录

81 篇文章 3 订阅

订阅专栏

大模型

55 篇文章 4 订阅

订阅专栏

视觉感知算法

14 篇文章 0 订阅

订阅专栏

CBAM

通道与空间的双重增强的CBAM注意力机制是什么？

在卷积神经网络（CNN）中，如何提升模型对特征的关注度是提高模型性能的关键之一。传统的CNN在提取特征时，无法有效地区分重要和不重要的特征，导致模型在处理复杂的视觉任务时，性能可能受限。为了解决这个问题，各种注意力机制被提出，其中，CBAM（Convolutional Block Attention Module）是一种轻量级且有效的注意力机制，通过引入通道注意力和空间注意力，使模型能够更精确地捕捉和利用关键信息。本文将详细解析CBAM的内部结构及其工作原理，并通过代码示例帮助理解其实现方式。

一、CBAM模块概述

CBAM模块由两个相互独立但串联使用的子模块组成：通道注意力模块（Channel Attention Module）和空间注意力模块（Spatial Attention Module）。这两个模块分别在通道维度和空间维度上对特征进行增强。

通道注意力模块：主要关注特征图中哪些通道（即特征的类别）对最终结果更重要，从而对这些通道赋予更高的权重。
空间注意力模块：主要关注特征图中哪些空间位置包含更为关键的信息，从而对这些位置赋予更高的权重。

通过这两个模块的逐步处理，CBAM能够细化特征的表达，提高模型的预测能力。

二、通道注意力模块详解

1.1 背景与动机

在深度神经网络中，特征图的每一个通道往往代表了一类特征，例如边缘、纹理或颜色的某一方面。然而，并非每一个通道的特征都对当前任务同等重要。通道注意力机制旨在为每一个通道分配一个权重，突出那些对当前任务更为重要的通道，同时抑制不重要的通道。这可以视作一种全局的信息筛选过程。

个人理解：想象一下，你正在听一首音乐。在音乐中，有很多不同的乐器在演奏，但其中某些乐器（如主旋律的吉他或人声）比其他的更吸引你的注意力。通道注意力模块就像是帮助你调高那些重要乐器的音量，减少背景乐器的干扰。

1.2 具体实现步骤

通道注意力模块通过全局池化操作从特征图中提取全局信息，然后使用共享的多层感知器（MLP）网络生成每个通道的注意力权重。其主要步骤如下：

全局平均池化：
- 对输入特征图 $\mathbf{F} \in \mathbb{R}^{C \times H \times W}$ （其中 $C$ 是通道数， $H$ 和 $W$ 分别是高度和宽度）在空间维度上进行平均池化，得到一个全局的特征描述 $\mathbf{F}_{\text{avg}} \in \mathbb{R}^{C \times 1 \times 1}$ 。
- 公式为：
  $\mathbf{F}_{\text{avg}}(c) = \frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} \mathbf{F}(c, i, j)$
  其中， $\mathbf{F}_{\text{avg}}(c)$ 表示第 $c$ 个通道的平均池化结果。
全局最大池化：
- 对输入特征图 $\mathbf{F}$ 在空间维度上进行最大池化，得到另一个全局特征描述 $\mathbf{F}_{\text{max}} \in \mathbb{R}^{C \times 1 \times 1}$ 。
- 公式为：
  $\mathbf{F}_{\text{max}}(c) = \max_{i=1}^{H} \max_{j=1}^{W} \mathbf{F}(c, i, j)$
  其中， $\mathbf{F}_{\text{max}}(c)$ 表示第 $c$ 个通道的最大池化结果。
共享的多层感知器（MLP）：
- 将这两个池化结果分别输入到共享参数的两层全连接网络中，生成两个通道注意力向量。
- 网络结构可以表示为：
  $\text{MLP}(\mathbf{x}) = \mathbf{W}_1 \cdot \text{ReLU}(\mathbf{W}_0 \cdot \mathbf{x})$
  其中， $\mathbf{W}_0$ 和 $\mathbf{W}_1$ 是可学习的权重矩阵，ReLU 是非线性激活函数。
- 通过这个过程，模型能够捕获更复杂的通道间关系。
融合与激活：
- 将两个通道注意力向量相加后，通过sigmoid函数进行归一化，生成最终的通道注意力权重 $\mathbf{M}_c \in \mathbb{R}^{C \times 1 \times 1}$ 。
- 公式为：
  $\mathbf{M}_c = \sigma(\text{MLP}(\mathbf{F}_{\text{avg}}) + \text{MLP}(\mathbf{F}_{\text{max}}))$
  其中， $\sigma$ 是sigmoid函数，确保输出在 $0$ 到 $1$ 之间。
加权特征图：
- 最后，将原始特征图 $\mathbf{F}$ 与通道注意力权重 $\mathbf{M}_c$ 逐通道相乘，得到加权后的特征图 $\mathbf{F}'$ ：
  $\mathbf{F}' = \mathbf{M}_c \odot \mathbf{F}$
  其中， $\odot$ 表示逐元素相乘。

个人理解：通道注意力模块就像是给一幅图片中的每个颜色通道（例如红、绿、蓝）设置不同的亮度。通过全局池化操作，模型会分析每种颜色在整个图片中的重要性，然后对重要的颜色通道进行增强，而对不重要的通道进行削弱。

1.3 直观理解与实际效果

通道注意力模块通过关注哪些通道的重要性来提升模型的判别能力。例如，在图像分类任务中，某些通道可能更关注纹理，而另一些通道则关注颜色。通道注意力模块可以使模型更专注于那些对特定分类任务至关重要的特征，从而提高分类准确率。

个人理解：这就像是在做决策时，把注意力集中在更重要的因素上，而忽略那些不那么重要的因素。模型通过通道注意力模块可以更好地理解哪些特征对任务有帮助，从而做出更准确的决策。

1.4 代码实现

以下是通道注意力模块的PyTorch实现代码：

import torch
import torch.nn as nn

class ChannelAttention(nn.Module):
    def __init__(self, in_planes, ratio=16):
        super(ChannelAttention, self).__init__()
        # 全局平均池化和最大池化
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.max_pool = nn.AdaptiveMaxPool2d(1)

        # 两层全连接网络 (共享的MLP)
        self.fc = nn.Sequential(
            nn.Conv2d(in_planes, in_planes // ratio, 1, bias=False),
            nn.ReLU(),
            nn.Conv2d(in_planes, in_planes, 1, bias=False)
        )
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        # 平均池化和最大池化的MLP输出
        avg_out = self.fc(self.avg_pool(x))
        max_out = self.fc(self.max_pool(x))
        
        # 将两者相加并通过sigmoid激活
        out = avg_out + max_out
        return self.sigmoid(out)

在这个实现中，ChannelAttention类包括了平均池化和最大池化操作，并通过共享的MLP网络生成注意力权重。注意力权重经过sigmoid激活后用于调整输入特征图的通道权重。

三、空间注意力模块详解

3.1 背景与动机

在卷积神经网络中，空间信息的利用是至关重要的。特征图中的某些位置往往包含比其他位置更有用的上下文信息。例如，在物体检测任务中，特定位置的边缘信息可能对于正确识别物体类别至关重要

。空间注意力机制旨在为特征图中的每一个空间位置分配一个权重，从而突出那些具有关键上下文信息的位置。

个人理解：想象你在看一张复杂的图片，虽然图片的每个部分都有信息，但某些部分（如人的脸）更吸引你的注意力。空间注意力模块就像是帮助你聚焦在这些重要的部分上，而忽略背景或其他次要的部分。

3.2 具体实现步骤

空间注意力模块通过对特征图在通道维度上进行池化操作，再经过卷积和激活函数处理，生成空间维度上的注意力权重。其主要步骤如下：

通道平均池化：
- 对输入特征图 $\mathbf{F} \in \mathbb{R}^{C \times H \times W}$ 在通道维度上进行平均池化，得到一个空间特征图 $\mathbf{F}_{\text{avg}}^{\text{spatial}} \in \mathbb{R}^{1 \times H \times W}$ 。
- 公式为：
  $\mathbf{F}_{\text{avg}}^{\text{spatial}}(i, j) = \frac{1}{C} \sum_{k=1}^{C} \mathbf{F}(k, i, j)$
  其中， $\mathbf{F}_{\text{avg}}^{\text{spatial}}(i, j)$ 表示位置 $(i, j)$ 的通道平均值。
通道最大池化：
- 对输入特征图 $\mathbf{F}$ 在通道维度上进行最大池化，得到另一个空间特征图 $\mathbf{F}_{\text{max}}^{\text{spatial}} \in \mathbb{R}^{1 \times H \times W}$ 。
- 公式为：
  $\mathbf{F}_{\text{max}}^{\text{spatial}}(i, j) = \max_{k=1}^{C} \mathbf{F}(k, i, j)$
  其中， $\mathbf{F}_{\text{max}}^{\text{spatial}}(i, j)$ 表示位置 $(i, j)$ 的通道最大值。
拼接操作：
- 将通道平均池化图和通道最大池化图在通道维度上进行拼接，得到一个具有两个通道的特征图 $\mathbf{F}_{\text{concat}}^{\text{spatial}} \in \mathbb{R}^{2 \times H \times W}$ 。
- 公式为：
  $\mathbf{F}_{\text{concat}}^{\text{spatial}} = [\mathbf{F}_{\text{avg}}^{\text{spatial}}; \mathbf{F}_{\text{max}}^{\text{spatial}}]$
  其中， $[;]$ 表示通道维度上的拼接操作。
卷积操作：
- 将拼接后的特征图通过一个 $\times 7$ 的卷积核进行卷积操作，得到一个空间注意力图 $\mathbf{M}_s \in \mathbb{R}^{1 \times H \times W}$ 。
- 公式为：
  $\mathbf{M}_s = \sigma(f^{7 \times 7}(\mathbf{F}_{\text{concat}}^{\text{spatial}}))$
  其中， $\sigma$ 是sigmoid函数， $f^{7 \times 7}$ 是 $\times 7$ 卷积操作。
加权特征图：
- 最后，将输入特征图 $\mathbf{F}$ 与空间注意力图 $\mathbf{M}_s$ 逐元素相乘，得到加权后的特征图 $\mathbf{F}''$ ：
  $\mathbf{F}'' = \mathbf{M}_s \odot \mathbf{F}$

个人理解：空间注意力模块就像是在看一张照片时，你的眼睛自动对焦在某些关键区域（如人的面部或物体的边缘），而忽略了其他不太重要的背景信息。这个模块通过分析每个空间位置的重要性，帮助模型更好地关注那些关键区域。

3.3 直观理解与实际效果

空间注意力模块的核心是通过在通道维度上进行平均和最大池化，捕捉每个空间位置的重要性。随后通过卷积操作，生成一个关注特定位置的权重图。这种机制确保模型能够更好地理解图像中每个位置的上下文，从而在图像分类、目标检测等任务中表现得更为出色。

个人理解：这就像在一张复杂的图像中，你首先会看到一些显眼的特征（例如脸或重要物体），这些特征吸引了你的注意力，而其他部分则相对被忽略。空间注意力模块能够帮助模型更好地模仿这种关注重要位置的能力。

3.4 代码实现

以下是空间注意力模块的PyTorch实现代码：

import torch
import torch.nn as nn

class SpatialAttention(nn.Module):
    def __init__(self, kernel_size=7):
        super(SpatialAttention, self).__init__()
        # 确保卷积核大小为3或7
        assert kernel_size in (3, 7), 'kernel size must be 3 or 7'
        padding = 3 if kernel_size == 7 else 1

        # 7x7 卷积层
        self.conv1 = nn.Conv2d(2, 1, kernel_size, padding=padding, bias=False)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        # 计算通道平均和最大池化
        avg_out = torch.mean(x, dim=1, keepdim=True)
        max_out, _ = torch.max(x, dim=1, keepdim=True)
        
        # 拼接并卷积
        x = torch.cat([avg_out, max_out], dim=1)
        x = self.conv1(x)
        
        return self.sigmoid(x)

这个实现使用了一个卷积层来处理拼接后的通道平均池化和最大池化结果，通过sigmoid激活生成空间注意力图。

四、CBAM模块的整体架构与实现

4.1 CBAM的整体流程

CBAM通过将通道注意力模块和空间注意力模块串联在一起，对特征图进行两次增强处理。整个流程如下：

通道注意力增强：
- 首先，输入特征图 $\mathbf{F}$ 经过通道注意力模块，生成通道注意力权重 $\mathbf{M}_c$ 并进行加权处理，得到增强后的特征图 $\mathbf{F}_c$ 。
空间注意力增强：
- 接着，经过通道增强后的特征图 $\mathbf{F}_c$ 被传入空间注意力模块，生成空间注意力权重 $\mathbf{M}_s$ 并进行加权处理，得到最终输出的特征图 $\mathbf{F}'$ 。

整个CBAM模块的处理流程可以表示为：
$\mathbf{F}' = \mathbf{M}_s(\mathbf{M}_c(\mathbf{F}) \odot \mathbf{F}) \odot \mathbf{F}$

个人理解：CBAM模块就像是给你一个两步的聚焦过程。首先，你确定哪些颜色（通道）更重要，并增强这些颜色的亮度；然后，你决定图片的哪些部分（空间位置）是你最应该关注的，并进一步提升这些部分的清晰度。最终，你得到了一张在重要颜色和关键区域上都被增强的图片。

4.2 代码实现

以下是完整的CBAM模块的PyTorch实现：

import torch
import torch.nn as nn

class CBAM(nn.Module):
    def __init__(self, in_planes, ratio=16, kernel_size=7):
        super(CBAM, self).__init__()
        # 通道注意力模块
        self.ca = ChannelAttention(in_planes, ratio)
        # 空间注意力模块
        self.sa = SpatialAttention(kernel_size)

    def forward(self, x):
        # 通道注意力增强
        out = self.ca(x) * x
        # 空间注意力增强
        out = self.sa(out) * out
        return out