【目标检测】|CBAM

最新推荐文章于 2024-03-28 10:22:02 发布

rrr2

最新推荐文章于 2024-03-28 10:22:02 发布

阅读量902

点赞数 1

分类专栏：目标检测

本文链接：https://blog.csdn.net/qq_35608277/article/details/117932130

版权

目标检测专栏收录该内容

90 篇文章 5 订阅

订阅专栏

本文介绍了一种名为CBAM的高效注意力模块，它通过通道和空间注意力自适应调整特征图。文章详细阐述了模块工作原理，包括平均池化、最大池化和MLP的设计，以及其在不同领域的应用，如分类和检测任务。实验表明顺序排列注意力模块优于并行，提升了模型性能。

摘要由CSDN通过智能技术生成

本文提出了卷积块的注意力模块（Convolutional Block Attention Module），简称CBAM，该模块是一个简单高效的前向卷积神经网络注意力模块。给定一张特征图，CBAM沿着通道（channel）和空间（spatial）两个单独的维度依次推断注意力图，然后将注意力图和输入特征图相乘，进行自适应特征细化。因为CBAM是一个轻量级的通用模块，可以无缝的集成到任何CNN架构中，几乎对效率，算力没有影响，能够实现端到端的训练。

特征图在这里插入图片描述

2D spatial attention map $Ms∈ R^{1×H×W}$

表示为：
在这里插入图片描述
⊗ 像素乘法

通道

在这里插入图片描述

输入：C维 feature map

输出：1x1xC channel attention map

步骤：

（1）对于输入feature map，分别进行平均池化和最大值池化聚合空间信息，得到两个C维池化特征图，F_avg和F_max。

（2）将F_avg和F_max送入包含一个隐层的多层感知器MLP里，得到两个1x1xC的通道注意力图。其中，为了减少参数量，隐层神经元的个数为C/r，r也被称作压缩比。

（3）将经过MLP得到的两个通道注意力图进行对应元素相加，激活，得到最终的通道注意力图Mc。

在这里插入图片描述

（1）为什么要对输入特征进行平均池化和最大池化两种处理方式？

为了更好的聚合feature map的信息并减少参数量，池化是必不可少的步骤，对于空间信息的聚合，目前普遍采用的是平均池化的方法，但作者认为，最大池化会收集到不同于平均池化的，关于不同目标特征的表示，这对于后续得到更精细的注意力通道图是有帮助的。实验也表明，对于平均池化和最大池化的综合运用，是有助于性能提升的。

在这里插入图片描述

（2）MLP的结构是如何设计的？

本文用到的是只有一层hidden layer的MLP，非常简单，以W0和W1分别表示隐层权重和输出层共享的权重，那么属性可以表示为：在这里插入图片描述

空间

核心思想：利用特征间的空间关系生成空间注意图在这里插入图片描述

输入：Channel-refined feature F’（经过通道注意力图细化后的feature map）

输出：HxW的spatial map

（1）对于F’首先沿着通道方向进行最大池化和平均池化，得到两个二维的feature map F_avg和F_max，属性都是1xHxW，将得到的两个feature map进行维度拼接（concatenate），得到拼接后的feature map。

（2）对于拼接后的feature map，利用size为7x7的卷积层生成空间注意力图Ms。

几个答疑：

（1）为什么要沿着维度通道进行平均池化和最大池化？

作者借鉴ICLR2017的论文《Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer》，认为沿着通道轴应用池化操作可以有效地突出显示含有关键信息的区域。作者的实验也支持这一观点。

在这里插入图片描述

（2）维度拼接（Concatenate）具体操作过程？

Concatenate的具体操作是将两个size相同的feature map，在维度方向进行拼接，拼接完成后，新的特征图的通道会是原来两个特征图通道之和。这种操作是进行特征融合的普遍做法。

组合方法

Arrangement of attention modules
我们介绍了通道注意力模块和空间注意力模块，两个模块用什么方式组合是最优的呢？并行还是连续，不同的组合方式会影响网络的表现，作者做了一系列实验表明，顺序排列比并行排列的结果更好。
在这里插入图片描述

结果

分类

在这里插入图片描述

Grad-CAM可视化

在这里插入图片描述

检测

在这里插入图片描述

https://zhuanlan.zhihu.com/p/83665899?from=groupmessage

rrr2

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
【目标检测】|CBAM

本文提出了卷积块的注意力模块（Convolutional Block Attention Module），简称CBAM，该模块是一个简单高效的前向卷积神经网络注意力模块。给定一张特征图，CBAM沿着通道（channel）和空间（spatial）两个单独的维度依次推断注意力图，然后将注意力图和输入特征图相乘，进行自适应特征细化。因为CBAM是一个轻量级的通用模块，可以无缝的集成到任何CNN架构中，几乎对效率，算力没有影响，能够实现端到端的训练。特征图2D spatial attention map Ms
复制链接

扫一扫

专栏目录