注意力模块

只想睡觉111

已于 2023-11-29 09:14:49 修改

阅读量1.9k

点赞数 9

文章标签： pytorch 深度学习人工智能

于 2023-11-27 12:47:53 首次发布

本文链接：https://blog.csdn.net/qq_44199379/article/details/134642485

版权

文章目录

1. 通道/空间注意力
2. 自注意力机制

1. 通道/空间注意力

1.1 SE(2017)

原论文：Squeeze-and-Excitation Networks—CVPR2018
特点：通过两个全连接层实现了跨通道注意力机制。
在这里插入图片描述

1.2 BAM(2018)

原论文：BAM: Bottleneck Attention Module—BMCV2018
特点：在SE的基础上，并行加入空间注意力机制。
在这里插入图片描述

1.3 CBAM(2018)

原论文：CBAM: Convolutional Block Attention Module—ECCV2018
特点：串行实现通道注意力机制和空间注意力机制，两个方面都并行使用了全局池化和平均池化。在该论文中，作者实验验证了通道注意力机制在前具有更好的效果。
在这里插入图片描述

1.4 GAM(2021)

原论文：Global Attention Mechanism: Retain Information to Enhance Channel-Spatial Interactions
特点：平均池化会造成信息丢失，产生负向贡献，因此删除了CBAM中的池化层。
在这里插入图片描述

1.5 ECA(2020)

原论文：ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks—CVPR2020
特点：ECA论文认为SENet中采用的降维操作会对通道注意力的预测产生负面影响；同时获取所有通道的依赖关系是低效的，而且不必要的。
设计：ECA在SE模块的基础上，把SE中使用全连接层FC学习通道注意信息，改为1*1卷积学习通道注意信息；通过一维卷积layers.Conv1D 来完成跨通道间的信息交互，卷积核的大小通过一个函数来自适应变化，使得通道数较大的层可以更多地进行跨通道交互。
作用：使用1*1卷积捕获不同通道之间的信息，避免在学习通道注意力信息时，通道维度减缩；降低参数量；（FC具有较大参数量；1*1卷积只有较小的参数量）
在这里插入图片描述

1.6 CA(2021)

原论文：Coordinate Attention for Efficient Mobile Network Design —CVPR 2021
特点：对于输入X，使用池化内核的两个空间范围(H,1)和(1,W)，分别沿着水平坐标和垂直坐标对每个通道进行编码
在这里插入图片描述

1.7 SA(Shuffle Attention, 2021)

原论文：SA-NET: SHUFFLE ATTENTION FOR DEEP CONVOLUTIONAL NEURAL NETWORKS
在这里插入图片描述

1.8 SK(2019)

原论文：Selective Kernel Networks
在这里插入图片描述

1.9 EPSA(2021)

原论文：EPSANet: An Efficient Pyramid Split Attention Block on Convolutional Neural Network
特点：利用多个卷积核进行组卷积，得到不同尺度的特征图，再利用SE模块，得到每个组的权重，利用元素点积修正各组的权值，得到最后的C通道的特征。
在这里插入图片描述

1.10 TA(2020)

原论文：Rotate to Attend: Convolutional Triplet Attention Module—CVPR 2021
特点：提出三分支并行结构，用于捕获不同平行分支的跨维相互作用。
在这里插入图片描述

1.11 MSA(2023)

原论文：Efficient Multi-Scale Attention Module with Cross-Spatial Learning
特点：特征分组；多分支网络；多尺度融合。
提出一种不降维的有效多尺度注意力，结合CA的并行子网，并添加3x3分支，捕获多尺度特征表示。
在这里插入图片描述

2. 自注意力机制

2.1 SA(Self-Attention, 2017)

原论文：Attention Is All You Need—NIPS2017
特点：首次提出自注意力机制
在这里插入图片描述

2.2 BSA(2021)

原论文：Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks—arXiv 2021.05.05
在这里插入图片描述

2.3 EMSA(2021)

原论文：ResT: An Efficient Transformer for Visual Recognition

2.4 FSA(2021)

原论文：Focal Self-attention for Local-Global Interactions in
Vision Transformers
在这里插入图片描述
其中，文中做了三个定义：
Focal levels $L$ ：提取的标记的粒度级别的数量；
Focal window size $s_w^l$ ：子窗口大小；
Focal region size $s_r^l$ ： $L$ 层中参与区域的水平、垂直子窗口数量。