目录
- 1,BAM: Bottleneck Attention Module
- 2 ,Dual Attention Network for Scene Segmentation
- 3,ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks
- 4,Improving Convolutional Networks with Self-Calibrated Convolutions
- 5,Pyramid Split Attention
- 6,ResT: An Efficient Transformer for Visual Recognition
1,BAM: Bottleneck Attention Module
BAM
作者将BAM放在了Resnet网络中每个stage之间。通过可视化我们可以看到多层BAMs形成了一个分层的注意力机制,这有点像人类的感知机制。BAM在每个stage之间消除了像背景语义特征这样的低层次特征,然后逐渐聚焦于高级的语义–明确的目标。
2 ,Dual Attention Network for Scene Segmentation
提出了Dual Attention Networks (DANet)在spatial和channle维度来捕获全局特征依赖。
提出position attention module去学习空间特征的相关性,提出channel attention module去建模channle的相关性。
在三个数据集Cityscapes, PASCAL Context和COCO Stuff上实现了state-of-the-art的结果。
网络架构如下
3,ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks
作者表示,最近基于SE-Net的扩展,大多都只致力于开发复杂的attention模型,以得到更好的性能,这不可避免的增加了模型复杂度。而本文的方法ECA-Net只涉及少数的参数,可以达到两个目的:(1)避免特征维度的缩减;(2)增加channel间信息的交互,在降低复杂度的同时保持性能(通过一维卷积)。
SE block的结构由两部分组成:(1)global avg pooling产生1 ∗ 1 ∗ C 11C1∗1∗C大小的feature maps;(2)两个fc层(中间有维度缩减)来产生每个channel的weight。
ECA-Net的结构如下图所示:(1)global avg pooling产生1 ∗ 1 ∗ C 11C1∗1∗C大小的feature maps;(2)计算得到自适应的kernel_size;(3)应用kernel_size于一维卷积中,得到每个channel的weight。
4,Improving Convolutional Networks with Self-Calibrated Convolutions
他们提出了一种新颖的自校准卷积(self-calibrated convolution),它通过内部通信来显式地扩展每个卷积层的视野,进而丰富输出特征。具有自校准卷积的网络分别命名为 SCNet、SCNeXt 和 SE-SCNet。
具体来说,与使用小核(如 3×3)融合空间和通道信息的标准卷积不同,研究者提出的自校准卷积通过新型自校准运算(self-calibration operation)围绕每个空间位置自适应地构建远程空间和通道间依赖。如此,通过整合更丰富的信息,CNN 可以生成判别性更强的标准。这种自校准卷积在设计上简单且具有通用性,同时在不引入额外参数和复杂度的情况下可以轻松地运用于扩增的标准卷积层。
5,Pyramid Split Attention
Pyramid Split Attention (PSA)在SENet的基础上提出多尺度特征图提取策略,整体结构图如下所示。具体可分为如下四个步骤:
Split and Concat (SPC)模块用于获得空间级多尺度特征图;
SEWeight(SENet中的模块)被用于获得空间级视觉注意力向量来抽取多尺度响应图的目标特征;
使用Softmax函数用于再分配特征图权重向量;
元素相乘操作用于权重向量与原始特征图来获得最终结果响应图。
SPA模块
SPC模块
ESPANet中的block如下所示,相比于ResNet,其就是使用PSA模块取代3x3的卷积,ESPANet block整体结构如下图所示
6,ResT: An Efficient Transformer for Visual Recognition
本文提出了一种高效的多尺度视觉transformer,称为ResT,它可以作为图像识别的通用主干。与已有的采用标准transformer块处理固定分辨率原始图像的transformer方法不同,本文的方法具有以下优点:(1)构造了一种内存高效的多头自关注算法,它通过简单的深度卷积压缩内存,在保持多头多样性的同时,将交互作用投射到注意头维度上;(2)位置编码被构造为空间注意力,更灵活,可以处理任意大小的输入图像,而不需要插值或微调;(3)不再在每个阶段开始时直接进行标记化,而是将patch embedding设计为在标记图上带有stride的重叠卷积操作堆栈。我们全面验证了REST在图像分类和下游任务上的有效性。实验结果表明,提出的ResT算法比目前最先进的骨干网有很大的优势,显示了ResT作为强健骨干网的潜力