计算机视觉中的注意力机制_空间注意力取消池化层-CSDN博客

本文链接：https://blog.csdn.net/CLOUD_J/article/details/105844865

本篇文章用简单的语言告诉你什么是注意力机制~~

Step 1 什么是注意力机制？

注意力就是关注点，一幅图或者一堆数据，可能有些位置是没有那么重要的，有些地方是极其需要我们关注的。比如戴口罩的人脸检测，相比于传统的人脸检测丢失了鼻子以及以下的信息，只剩下眼睛了，这个时候我们可以只关注眼睛部分，忽略口罩的部分，这就是注意力机制。

Step 2 计算机视觉中有哪些注意力机制？

就注意力关注的域可以划分为：

空间域(spatial domain)
通道域(channel domain)
层域(layer domain)
混合域(mixed domain)
时间域(time domain)

Step 2.1 空间域

Spatial Transformer Networks（STN）模型是15年NIPS上的文章，这篇文章通过注意力机制，将原始图片中的空间信息变换到另一个空间中并保留了关键信息。
下面这张图，简单理解，就是前面卷积出来的特征单独再开一路，输出一个矩阵，每个矩阵代表一个权重，然后与之前的特征相乘，也就是说去预测一个权重注意力，去预测空间内哪个需要注意。
在这里插入图片描述

Step 2.2 通道注意力

通道注意力的关注点主要去生成一个chanel维度的权重，却决定哪一层比较重要。可以把卷积理解成傅里叶变换，生成的（W,H,C）有C层图，每层的信息其实反映着不同问题，我们给每层有一个权重，那么就可以关注有用的feature

Step 2.3 混合注意力

了解前两种注意力域的设计思路后，简单对比一下。首先，空间域的注意力是忽略了通道域中的信息，将每个通道中的图片特征同等处理，这种做法会将空间域变换方法局限在原始图片特征提取阶段，应用在神经网络层其他层的可解释性不强。

而通道域的注意力是对一个通道内的信息直接全局平均池化，而忽略每一个通道内的局部信息，这种做法其实也是比较暴力的行为。所以结合两种思路，就可以设计出混合域的注意力机制模型

Step 2.4 点注意力机制

放一个YOLOV4的图，说是吧注意力机制从空间改为点注意力机制了。
a是空间注意力机制，上面单独出来一个卷积池化操作，结果是和原来的尺寸相同，所以是空间注意力机制，这里的池化操作是对通道做的池化。
b是点注意力机制，相当于单独卷积出来一个和原来同尺寸，同深度的weight，每个点都有关注力。
在这里插入图片描述