混合域注意力机制（空间+通道）

fsoule

已于 2024-08-06 21:21:08 修改

阅读量3k

点赞数 12

分类专栏： CV论文文章标签：深度学习计算机视觉人工智能

于 2024-08-03 14:35:38 首次发布

本文链接：https://blog.csdn.net/kuailezzf/article/details/140879724

版权

CV论文专栏收录该内容

4 篇文章

订阅专栏

在计算机视觉任务中，空间域注意力通常关注图像中不同位置的重要性，例如突出图像中的关键对象或区域。而通道域注意力则侧重于不同通道（特征图）的重要性，决定哪些特征对于任务更具判别力。混合域注意力机制结合了空间域注意力机制与通道注意力机制。它同时考虑空间和通道维度的重要性，通过学习每个空间位置和通道的权重，动态调整特征图中不同位置和通道的重要性，以增强模型对视觉任务的表达能力和性能。
具体来说，它通常会经过以下步骤实现：
1. 输入：假设输入特征图的尺寸为C×H×W，其中C是通道数，H和W分别是高度和宽度。
2. 计算空间域注意力：空间注意力权重通过对特征图的空间位置进行分析得到。
3.计算通道注意力： 通道注意力权重则通过对特征图的通道进行分析，例如使用全局平均池化或全局最大池化来汇总通道信息，然后经过全连接层等操作生成权重。
4. 特征加权融合：将得到的空间和通道注意力权重与原始特征图相乘，实现对特征的重新加权和聚焦。

下面分享几篇经典的混合域注意力机制论文。

1.CBAM: Convolutional Block Attention Module

论文地址：https://arxiv.org/abs/1807.06521

文章中提出注意力机制不仅能够提示网络应该关注那些区域，还能够增强这些区域的重要性。所以，本文结合注意力机制提出了一个新的网络模块（CBAM），通过关注通道和空间信息，来达到增强有效的特征，抑制不太有效的特征。

如图1所示，CBAM的结构由两部分组成。一是通道注意力模块（Channel attention module），二是空间注意力模块（Spatial attention module）。下面就来看看这两部分的结构。

1.通道注意力模块（Channel attention module）

如图2所示，通道空间注意力模块由三个操作组成。具体来说，首先分别使用全局平均池化和全局最大池化生成两个不同的空间描述符 $F_{avg}^C$ 和 $F_{max}^C$ ，用来代表空间信息。然后，将 $F_{avg}^C$ 和 $F_{max}^C$ 送入到一个共享的MLP当中去生成不同的通道注意力分数。最后，将MLP输出的两个不同的注意力分数相加，并通过Sigmoid函数激活便得到了最终的通道注意力权重。

2.空间注意力模块（Spatial attention module）

如图3所示，空间注意力模块由三个操作组成。与通道注意力模块不同的是，空间注意力模块首先分别使用全局平均池化和全局最大池化沿通道轴生成两个不同的特征图 $F_{avg}^s \in R^{1 \times H \times W}$ 和 $F_{max}^s \in R^{1 \times H \times W}$ 。然后，将 $F_{avg}^s$ 和 $F_{max}^s$ 沿通道拼接在一起，并通过一个 $7 \times 7$ 的卷积去生成空间注意力图。最后，通过Sigmoid函数激活便得到了最终的空间注意力权重。

此外，文章中还在ResBlock（ResNet）中集成了CBAM，结构如下图4所示。

2.Dual Attention Network for Scene Segmentation

论文地址：https://arxiv.org/abs/1809.02983

文章中提出了一种双注意网络(Dual Attention Network, DANet，网络结构如下图5所示)来自适应地整合局部特征及其全局依赖关系。具体来说，它结合了自注意力机制（transformer）设计了两个模块（Position Attention Module和Channel Attention Module），用来捕获空间和通道维度上的特征依赖关系，然后将这两个模块的输出进行融合，进一步增强特征的表达。下面就来看看这两个模块的结构。