文章目录
- 1、(2021) Polarized Self-Attention 极化自注意力
- 2、(TPAMI 2021) Contextual Transformer Block
- 3、(ICCV 2021) MSCA 多光谱通道注意力
- 4、(CVPR 2023) Super Token Attention
- 5、(TMM 2023) MSDA 多尺度膨胀注意力
- 6、(ICCV 2023) MSLA 多尺度线性注意力
- 7、(ICME 2023) Bilinear Attention 双线性注意力
- 8、(TIM 2023) AGCA 自适应图通道注意力
- 9、(ECCA 2023) GMSA 分组多尺度自注意力
- 10、(ICCV 2023) EAA 有效附加注意力
1、(2021) Polarized Self-Attention 极化自注意力
原文地址:(即插即用模块-Attention部分) 二十一、(2021) Polarized Self-Attention 极化自注意力
paper:Polarized Self-Attention: Towards High-quality Pixel-wise Regression
像素级回归是细粒度计算机视觉任务中的常见问题。回归问题往往具有挑战性,因为需要在低计算开销的情况下,对高分辨率输入/输出进行建模,以估计高度非线性的像素级语义。尽管深度卷积神经网络(DCNN)中的注意力机制已被广泛用于增强长距离依赖性,但元素特定的注意力(例如非局部块)高度复杂且对学习噪声敏感。而大多数简化的注意力混合方法则试图在多种类型任务之间达到最佳折衷。为了解决这些问题,论文提出了极化自注意力(Polarized Self-Attention),其包含两个关键设计:(1)Polarized filtering: 在通道和空间注意力计算中保持高内部分辨率,同时完全沿着它们的对应维度折叠输入张量。(2)Enhancement: 通过 Softmax 和 Sigmoid 函数的组合,增强了注意力机制的表达能力,从而更好地拟合像素级回归的输出分布。
Polarized Self-Attention 结构图:
2、(TPAMI 2021) Contextual Transformer Block
原文地址:(即插即用模块-Attention部分) 二十二、(TPAMI 2021) Contextual Transformer Block
paper:Contextual Transformer Networks for Visual Recognition
论文首先分析了目前大多数现有的设计都是直接利用二维特征映射上的自注意力来获得基于每个空间位置上的孤立查询和关键字对的注意矩阵,而没有充分利用相邻关键字之间的丰富上下文信息。于是为了解决视觉任务中 CNN 模型难以建模全局/长距离依赖关系的问题。论文提出了一种以注意力为核心的 CoT Block(Contextual Transformer Block)。该设计充分利用了输入键间的上下文信息来指导动态注意矩阵的学习,增强了视觉表征能力。CoT block 的核心思想是利用输入键(keys)之间的丰富上下文信息来指导自注意力学习,从而提升视觉表示能力。
Contextual Transformer Block 结构图:
3、(ICCV 2021) MSCA 多光谱通道注意力
原文地址:(即插即用模块-Attention部分) 二十三、(ICCV 2021) MSCA 多光谱通道注意力
论文首先论述了目前注意力机制存在的两个问题,即(1)传统通道注意力机制的局限性: 传统通道注意力机制通常使用全局平均池化 (GAP) 来压缩通道信息,但这会导致大量信息丢失,难以有效捕捉复杂信息。(2)压缩通道信息的挑战: 如何用单个标量有效压缩通道信息,同时保留通道的整体表示能力,是通道注意力机制的关键问题。为了缓解这些问题,论文提出了一种增强型的“SE 通道注意力”,即 多光谱通道注意力(Multi-Spectral Channel Attention)。
MSCA 结构图:
4、(CVPR 2023) Super Token Attention
原文地址:(即插即用模块-Attention部分) 二十四、(CVPR 2023) Super Token Attention
现有的传统视觉 ViTs 在浅层网络中倾向于捕获局部特征,会导致大量冗余计算。同时, 为了降低计算成本,现有的许多方法采用局部注意力或早期卷积,但牺牲了全局建模能力。所以这篇论文从超像素分割中得到启发,在后续处理中减少了图像基元的数量,并在视觉Transformer中引入了一种Super Token Attention。Super Token Attention试图提供一个语义上有意义的视觉内容的镶嵌,从而减少在自我注意力的token,以及保留全局建模。STA 通过将视觉内容划分为超 token,在超 token 空间进行自注意力操作,从而有效地学习全局表示,同时降低计算成本。
Super Token Attention 结构图:
5、(TMM 2023) MSDA 多尺度膨胀注意力
原文地址:(即插即用模块-Attention部分) 二十五、(TMM 2023) MSDA 多尺度膨胀注意力
paper:DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition
为了解决 Vision Transformers (ViTs) 中浅层全局注意力机制冗余计算的问题。论文中分析到在浅层全局注意力机制中,注意力矩阵呈现出局部性和稀疏性的特点,这意味着浅层网络中大部分远距离 patch 之间在语义建模上是无关的,因此全局注意力机制存在大量冗余计算。所以,基于这些存在的短处,论文提出一种 多尺度膨胀注意力 (Multi-Scale Dilated Attention) 。
MSDA 结构图:
6、(ICCV 2023) MSLA 多尺度线性注意力
原文地址:(即插即用模块-Attention部分) 二十六、(ICCV 2023) MSLA 多尺度线性注意力
paper:EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction
现有模型的局限性存在以下短处:计算成本高: 现有的高分辨率密集预测模型往往依赖于复杂的模型结构,例如 softmax 注意力机制、大卷积核等,这会导致计算成本高昂,难以在硬件设备上部署。性能提升有限: 一些轻量级的模型虽然计算成本较低,但性能提升有限,难以满足实际应用的需求。为了解决现有高分辨率密集预测模型在效率和性能之间的权衡问题。这篇论文提出一种新的多尺度线性注意力(Multi-Scale Linear Attention)。与以往的高分辨率稠密预测模型依赖于繁重的softmax注意力、硬件效率低的大核卷积或复杂的拓扑结构来获得良好性能不同,多尺度线性注意力仅需轻量级和硬件效率高的操作即可实现全局感受野和多尺度学习。
MSLA 结构图:
7、(ICME 2023) Bilinear Attention 双线性注意力
原文地址:(即插即用模块-Attention部分) 二十七、(ICME 2023) Bilinear Attention 双线性注意力
paper:ABC: Attention with Bilinear Correlation for Infrared Small Target Detection
传统 CNN 模型缺乏全局建模能力,容易受到噪声干扰,且容易在网络深层丢失目标特征。除此之外,Transformer 模型具有强大的全局特征表征能力,但可能无法有效检测缺乏明显特征的红外小目标。针对这些问题,论文提出了一种双线性注意力(Bilinear Attention),并顺势提出一种 **Convolution Linear Fusion Transformer(CLFT)**模块进行特征提取和融合,有效地增强了目标特征,抑制了噪声。
Bilinear Attention 结构图:
8、(TIM 2023) AGCA 自适应图通道注意力
原文地址:(即插即用模块-Attention部分) 二十八、(TIM 2023) AGCA 自适应图通道注意力
paper:AGCA: An Adaptive Graph Channel Attention Module for Steel Surface Defect Detection
论文首先指出现有的注意力模块的一些不足之处,即无法有效区分钢铁表面图像和自然图像之间的差异。因此,论文提出了一种自适应图通道注意力(AGCA)模块,AGCA 通过将图卷积理论引入通道注意力。将每个通道作为特征顶点,之间的关系用邻接矩阵来表示。论文中通过分析图来对特征进行非局部(NL)操作,大大提高了特征表示能力。
AGCA 结构图:
9、(ECCA 2023) GMSA 分组多尺度自注意力
原文地址:(即插即用模块-Attention部分) 二十九、(ECCA 2023) GMSA 分组多尺度自注意力
paper:Efficient Long-Range Attention Network for Image Super-resolution
传统自注意力机制的计算复杂度随特征图尺寸呈平方级增长,限制了其在超分辨率等低层次视觉任务中的应用。并且传统自注意力机制通常在小尺寸窗口内计算,难以有效建模图像中像素之间的长距离依赖关系,从而影响超分辨率效果。所以,这篇论文提出一种 分组多尺度自注意力 (Group-wise Multi-scale Self-Attention) 。旨在解决传统自注意力机制在图像超分辨率任务中计算复杂度高、感受野受限的问题。
GMSA 结构:
10、(ICCV 2023) EAA 有效附加注意力
原文地址:(即插即用模块-Attention部分) 三十、(ICCV 2023) EAA 有效附加注意力
paper:SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications
在现有的研究中,传统的 Multi-Head Self-Attention (MHSA) 计算 复杂度高,难以在移动设备上实时运行。而现有的 Additive Attention 则需要计算 key 和 value 之间的显式交互,这限制了其效率和灵活性。所以,这篇论文进一步提出一种 有效附加注意力(Efficient Additive Attention) 。旨在解决 Transformer 模型在移动设备上部署时遇到的效率问题。
tion 则需要计算 key 和 value 之间的显式交互,这限制了其效率和灵活性。所以,这篇论文进一步提出一种 有效附加注意力(Efficient Additive Attention) 。旨在解决 Transformer 模型在移动设备上部署时遇到的效率问题。
EAA 结构图: