【CBAM||目标识别||注意力机制||gated卷积】Convolutional Block Attention Module

最新推荐文章于 2024-05-24 00:06:53 发布

MengYa_DreamZ

最新推荐文章于 2024-05-24 00:06:53 发布

阅读量2k

点赞数 2

分类专栏：【科研探索】文章标签：深度学习计算机视觉神经网络

本文链接：https://blog.csdn.net/MengYa_Dream/article/details/128208786

版权

【科研探索】专栏收录该内容

20 篇文章 3 订阅

订阅专栏

这篇是2018年的paper，已经有很多中文资料可以学习，因而不做重复工作~
记录一下核心要点，后续可阅。
【学习资源】CBAM：卷积注意力机制模块
【学习资源】论文阅读-CBAM: Convolutional Block Attention Module

CBMA:卷积注意力机制模块- 结合了空间（spatial）和通道（channel）的注意力机制模块。

给定一个中间特征图，CBAM模块会沿着两个独立的维度（通道和空间）以此推断注意力图，然后将注意力与输入特征图相乘以进行自适应特征优化。由于CBAM是轻量级的通用模块，因此可以忽略的该模块的开销而将其无缝集成到任何CNN架构中，并且可以与基础CNN一起进行端到端训练。

1.整体结构：

卷积层输出的结果，会先通过一个通道注意力模块，得到加权结果之后，会再经过一个空间注意力模块，最终进行加权得到结果。

2.通道注意力模块：

通道注意力图主要是由通道之间的关系得到，过去人们常用平均池化来聚合空间信息，但论文认为最大池化或许能捕获到另外一些重要的特征，所以论文同时使用了平均池化与最大池化。

输入的特征图

分别经过基于width和height的global max pooling 和global average pooling；
分别经过MLP；
将MLP输出的特征进行基于element-wise的add操作；
经过sigmoid激活操作，生成最终的channel attention featuremap；
将该channel attention featuremap和input featuremap做element wise乘法操作；
生成Spatial attention模块需要的输入特征。

通道注意力机制（Channel Attention Module）是将特征图在空间维度上进行压缩，得到一个一维矢量后再进行操作。

在空间维度上进行压缩时，不仅考虑到了平均值池化（Average Pooling）还考虑了最大值池化（Max Pooling）。平均池化和最大池化可用来聚合特征映射的空间信息，送到一个共享网络，压缩输入特征图的空间维数，逐元素求和合并，以产生通道注意力图。

单就一张图来说，通道注意力，关注的是这张图上哪些内容是有重要作用的。

平均值池化对特征图上的每一个像素点都有反馈，
最大值池化在进行梯度反向传播计算时，只有特征图中响应最大的地方有梯度的反馈。

3.空间注意力模块:

设问：通道注意力关注的是什么，而空间注意力则关注的是什么？二者可以相互补充？

将Channel attention模块输出的特征图作为本模块的输入特征图

首先做一个基于channel的global max pooling 和global average pooling；
然后将这2个结果基于channel 做concat操作；
然后经过一个卷积操作，降维为1个channel；
再经过sigmoid生成spatial attention feature
最后将该feature和该模块的输入feature做乘法；
得到最终生成的特征。

空间注意力机制（Spatial Attention Module）是对通道进行压缩，在通道维度分别进行了平均值池化和最大值池化。

最大池化的操作就是在通道上提取最大值，提取的次数是高乘以宽；
平均的操作就是在通道上提取平均值，提取的次数也是是高乘以宽；

接着将前面所提取到的特征图（通道数都为1）合并得到一个2通道的特征图。

4.注意力注意到了什么？【可视化】

MengYa_DreamZ

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
1
评论
【CBAM||目标识别||注意力机制||gated卷积】Convolutional Block Attention Module

CBMA:卷积注意力机制模块-结合了空间（spatial）和通道（channel）的注意力机制模块。给定一个中间特征图，CBAM模块会沿着两个独立的维度（通道和空间）以此推断注意力图，然后将注意力与输入特征图相乘以进行自适应特征优化。由于CBAM是轻量级的通用模块，因此可以忽略的该模块的开销而将其无缝集成到任何CNN架构中，并且可以与基础CNN一起进行端到端训练。
复制链接

扫一扫