论文笔记38：SA-Net: Shuffle Attention for Deep Convolutional Neural Networks(考虑引进论文)

love_lqz

已于 2022-05-20 17:56:12 修改

阅读量549

点赞数

分类专栏：论文笔记文章标签：深度学习神经网络 cnn

于 2021-02-05 23:03:48 首次发布

本文链接：https://blog.csdn.net/weixin_41553159/article/details/113702549

版权

论文笔记专栏收录该内容

41 篇文章 30 订阅

订阅专栏

参考

GCNet: Non-local networks meet squeeze-excitation networks and beyond
CBAM: convolutional block attention module
ECA-Net: Efﬁcient channel attention for deep convolutional neural networks
SGE: Spatial group-wise enhance: Improving semantic feature learning in convolutional networks
Shufﬂenet: An extremely efﬁcient convolutional neural network for mobile devices
Shufﬂenet V2: practical guidelines for efﬁcient CNN architecture design
DANet: Dual attention network for scene segmentation
SENet: Squeeze-and-excitation networks

方法

在这里插入图片描述
Feature Grouping：将X沿着通道维数分组， $X=\left[X_{1}, \cdots, X_{G}\right], X_{k} \in \mathbb{R}^{C / G \times H \times W}$ ，然后，我们通过注意力模块为每个子特征生成相应的重要系数。具体来说，在每个注意单元的开始， $X_k$ 的输入沿着通道维度被分成两个分支 $X_{k 1}, X_{k 2} \in \mathbb{R}^{C / 2 G \times H \times W}$ ，一个分支用于通过利用通道的相互关系来产生通道注意力映射，而另一个分支用于通过利用特征的相互空间关系来产生空间注意力映射，使得模型可以关注“什么”和“哪里”是有意义的。

Channel Attention：首先通过简单地使用全局平均池化(GAP)来嵌入全局信息，以生成通道方式的统计信息 $s\in \mathbb{R}^{C / 2 G \times 1 \times 1}$ ，即 $s=\mathcal{F}_{g p}\left(X_{k 1}\right)=\frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} X_{k 1}(i, j)$

此外，还创建了一个紧凑的特征，以便为精确和自适应的选择提供指导。这是通过sigmoid激活的简单门控机制实现的。然后，可以通过以下方式获得通道注意的最终输出 $X_{k 1}^{\prime}=\sigma\left(\mathcal{F}_{c}(s)\right) \cdot X_{k 1}=\sigma\left(W_{1} s+b_{1}\right) \cdot X_{k 1}$

其中 $W_{1} \in \mathbb{R}^{C / 2 G \times 1 \times 1}$ 和 $b_{1} \in \mathbb{R}^{C / 2 G \times 1 \times 1}$ 为用于缩放和移动s的参数。

Spatial Attention：空间注意力侧重于“何处”这一信息性部分，是对通道注意力的补充。首先，我们使用 $X_{k 2}$ 上的群归一化(Group normalization)来获得空间方式统计。然后，采用 $\mathcal{F}_{c}()$ 来增强 ${X}_{k 2}$ 的表示。空间注意力的最终输出通过以下方式获得 $X_{k 2}^{\prime}=\sigma\left(W_{2} \cdot G N\left(X_{k 2}\right)+b_{2}\right) \cdot X_{k 2}$

其中 $W_{1} \in \mathbb{R}^{C / 2 G \times 1 \times 1}$ 和 $b_{1} \in \mathbb{R}^{C / 2 G \times 1 \times 1}$ .

然后将两个分支连接起来，使通道数与输入的相同， $X_{k}^{\prime}=\left[X_{k 1}^{\prime}, X_{k 2}^{\prime}\right] \in \mathbb{R}^{C / G \times H \times W}$ .

Aggregation：之后，所有子特征被聚集。最后，与ShuffleNet v2类似，我们采用了一个“通道shuffle”操作符，使跨组信息流能够沿着通道维度流动，来进行不同子特征之间的信息交流。SA模块的最终输出与X相同大小，使得SA相当容易与现代架构集成。单个SA模块中，每个分支的通道数为C/2G，因此总参数是3C/G(G通常是32或64)。
在这里插入图片描述
可视化与解释见图4和5.