空间注意力机制和通道注意力机制详解

最新推荐文章于 2025-04-21 23:58:09 发布

vodka、

最新推荐文章于 2025-04-21 23:58:09 发布

阅读量10w+

点赞数 134

文章标签：计算机视觉

原文链接：https://blog.csdn.net/YPP0229/article/details/98347695

版权

本文深入探讨了注意力机制在计算机视觉领域的应用，如显著目标检测，介绍了空间注意力模型如Spatial Transformer Networks和Dynamic Capacity Networks，以及通道注意力模型如SENet。这些模型通过定位关键信息和调整特征通道权重，提高了模型性能。同时，还讨论了融合空间和通道注意力的CBAM模块。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Attention机制在近几年来在图像，自然语言处理等领域中都取得了重要的突破，被证明有益于提高模型的性能。

Attention机制本身也是符合人脑和人眼的感知机制，这次我们主要以计算机视觉领域为例，讲述Attention机制的原理，应用以及模型的发展。

何为Attention机制？

所谓Attention机制，便是聚焦于局部信息的机制，比如，图像中的某一个图像区域。随着任务的变化，注意力区域往往会发生变化。
在这里插入图片描述
面对上面这样的一张图，如果你只是从整体来看，只看到了很多人头，但是你拉近一个一个仔细看就了不得了，都是天才科学家。

图中除了人脸之外的信息其实都是无用的，也做不了什么任务，Attention机制便是要找到这些最有用的信息，可以想到，最简单的场景就是从照片中检测人脸了。

基于Attention的显著目标检测

和注意力机制相伴而生的一个任务便是显著目标检测，即salient object detection。它的输入是一张图，输出是一张概率图，概率越大的地方，代表是图像中重要目标的概率越大，即人眼关注的重点，一个典型的显著图如下：
在这里插入图片描述
右图就是左图的显著图，在头部位置概率最大，另外腿部，尾巴也有较大概率，这就是图中真正有用的信息。

显著目标检测需要一个数据集，而这样的数据集的收集便是通过追踪多个实验者的眼球在一定时间内的注意力方向进行平均得到，典型的步骤如下：
(1) 让被测试者观察图。

(2) 用eye tracker记录眼睛的注意力位置。

(3) 对所有测试者的注意力位置使用高斯滤波进行综合。

(4) 结果以0～1的概率进行记录。

于是就能得到下面这样的图，第二行是眼球追踪结果，第三行就是显著目标概率图。

在这里插入图片描述
上面讲述的都是空间上的注意力机制，即关注的是不同空间位置，而在CNN结构中，还有不同的特征通道，因此不同特征通道也有类似的原理 ，下面一起讲述。

Attention模型架构

注意力机制的本质就是定位到感兴趣的信息，抑制无用信息，结果通常都是以概率图或者概率特征向量的形式展示，从原理上来说，主要分为空间注意力模型，通道注意力模型，空间和通道混合注意力模型三种，这里不区分soft和hard attention。

1.空间注意力模型(spatial attention)

不是图像中所有的区域对任务的贡献都是同样重要的，只有任务相关的区域才是需要关心的，比如分类任务的主体，空间注意力模型就是寻找网络中最重要的部位进行处理。

我们在这里给大家介绍两个具有代表性的模型，第一个就是Google DeepMind提出的STN网络(Spatial Transformer Network[1])，它通过学习输入的形变，从而完成适合任务的预处理操作，是一种基于空间的Attention模型，网络结构如下：

在这里插入图片描述
这里的Localization Net用于生成仿射变换系数，输入是C×H×W维的图像，输出是一个空间变换系数，它的大小根据要学习的变换类型而定，如果是仿射变换，则是一个6维向量。

这样的一个网络要完成的效果如下图：
在这里插入图片描述
即定位到目标的位置，然后进行旋转等操作，使得输入样本更加容易学习。这是一种一步调整的解决方案，当然还有很多迭代调整的方案，感兴趣可以去有三知识星球星球中阅读。

相比于Spatial Transformer Networks 一步完成目标的定位和仿射变换调整，Dynamic Capacity Networks[2]则采用了两个子网络，分别是低性能的子网络(coarse model)和高性能的子网络(fine model)。

低性能的子网络(coarse model)用于对全图进行处理，定位感兴趣区域，如下图中的操作fc。
高性能的子网络(fine model)则对感兴趣区域进行精细化处理，如下图的操作ff。
两者共同使用，可以获得更低的计算代价和更高的精度。

由于在大部分情况下我们感兴趣的区域只是图像中的一小部分，因此空间注意力的本质就是定位目标并进行一些变换或者获取权重。