Python训练营打卡Day47-CBAM注意力

原创

于 2025-08-29 08:00:00 发布 · 356 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

知识点回顾：

通道注意力模块复习
空间注意力模块
CBAM的定义

作业：尝试对今天的模型检查参数数目，并用tensorboard查看训练过程

CBAM 是一种能够集成到任何卷积神经网络架构中的注意力模块。它的核心目标是通过学习的方式，自动获取特征图在通道和空间维度上的重要性，进而对特征图进行自适应调整，增强重要特征，抑制不重要特征，提升模型的特征表达能力和性能。简单来说，它就像是给模型装上了 “智能眼镜”，让模型能够更精准地看到图像中关键的部分。

CBAM 由两个主要部分组成：通道注意力模块（Channel Attention Module）和空间注意力模块（Spatial Attention Module）。这两个模块顺序连接，共同作用于输入的特征图。

SE 通道注意力的局限：仅关注 “哪些通道重要”，未考虑 “重要信息在空间中的位置”。CBAM 的突破：通道注意力（Channel Attention）：分析 “哪些通道的特征更关键”（如图像中的颜色、纹理通道）。空间注意力（Spatial Attention）：定位 “关键特征在图像中的具体位置”（如物体所在区域）。二者结合：让模型同时学会 “关注什么” 和 “关注哪里”，提升特征表达能力。

输入特征图 → 通道注意力模块 → 空间注意力模块 → 输出增强后的特征图

轻量级设计：仅增加少量计算量（全局池化 + 简单卷积），适合嵌入各种 CNN 架构（如 ResNet、YOLO）。即插即用：无需修改原有模型主体结构，直接作为模块插入卷积层之间。双重优化：同时提升通道和空间维度的特征质量，尤其适合复杂场景（如小目标检测、语义分割）。

这些模块相较于cnn都属于即插即用。

import torch
import torch.nn as nn

# 定义通道注意力
class ChannelAttention(nn.Module):
    def __init__(self, in_channels, ratio=16):
        """
        通道注意力机制初始化
        参数:
            in_channels: 输入特征图的通道数
            ratio: 降维比例，用于减少参数量，默认为16
        """
        super().__init__()
        # 全局平均池化，将每个通道的特征图压缩为1x1，保留通道间的平均值信息
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        # 全局最大池化，将每个通道的特征图压缩为1x1，保留通道间的最显著特征
        self.max_pool = nn.AdaptiveMaxPool2d(1)
        # 共享全连接层，用于学习通道间的关系
        # 先降维（除以ratio），再通过ReLU激活，最后升维回原始通道数
        self.fc = nn.Sequential(
            nn.Linear(in_channels, in_channels // ratio, bias=False),  # 降维层
            nn.ReLU(),  # 非线性激活函数
            nn.Linear(in_channels // ratio, in_channels, bias=False)   # 升维层
        )
        # Sigmoid函数将输出映射到0-1之间，作为各通道的权重
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        """
        前向传播函数
        参数:
            x: 输入特征图，形状为 [batch_size, channels, height, width]
        返回:
            调整后的特征图，通道权重已应用
        """
        # 获取输入特征图的维度信息，这是一种元组的解包写法
        b, c, h, w = x.shape
        # 对平均池化结果进行处理：展平后通过全

最低0.47元/天解锁文章