论文阅读二：Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation

最新推荐文章于 2025-01-13 16:26:20 发布

几夏经秋

最新推荐文章于 2025-01-13 16:26:20 发布

阅读量1.2k

点赞数 1

分类专栏：神经网络优化计算机视觉

本文链接：https://blog.csdn.net/qq_38296005/article/details/125339088

版权

深度学习计算机视觉神经网络

计算机视觉同时被 2 个专栏收录

11 篇文章

订阅专栏

神经网络优化

2 篇文章

订阅专栏

本文提出了一种名为Axial-Attention的新型注意力机制，旨在解决卷积神经网络（CNN）在长程上下文建模方面的局限性。通过将2D自注意力分解为1D注意力，作者构建了能够在大或全局范围内执行注意力的独立模型，同时保持较低的计算复杂性。此外，他们引入了位置敏感的自注意力层，增强了模型对位置信息的利用。实验结果表明，Axial-Attention在ImageNet上取得优异表现，并在COCO、Mapillary Vistas和Cityscapes等数据集的全景分割任务上超越了现有最先进的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation

Abstract
1.Introduction
2 Related Work
3.Method
- 3.1 Position-Sensitive Self-Attention
- 3.2 Axial-Attention
4 Experimental Results
- 4.1 ImageNet

Abstract

为了体现论文的目的，介绍一下卷积的优点以及缺陷
- 卷积利用局部性提高效率，代价是丢失了长程上下文。【正是由于卷积存在着长程距离依赖提取较弱的问题，所以一些响应的改进策略被提出。】
- 自注意力机制已被用来通过非局部相互作用来增强CNN【这里应该意思是通过自注意力机制进行长程建模，来补充CNN】
- 最近的研究证明，通过将注意力限制在局部区域来堆叠自注意力层以获得完全注意网络是可能的【这里应该是VIT之前的类似VIT中的patch机制内进行注意力】
介绍一下本文的工作，目的是解决上面存在的问题
- 在本文中，我们试图通过将2D自注意分解为两个1D自注意来消除这一限制。这降低了计算复杂性，并允许在更大甚至全局区域内执行注意力。【即通过降维的形式增大整体的区域，实现所谓的全局注意力，这里操作与深度可分离卷积的思想类似】
- 同时，我们还提出了一种位置敏感型的自注意力设计。两者结合在一起产生了位置敏感的轴向注意力层，这是一种新的构建块，可以堆叠起来形成用于图像分类和密集预测的轴向注意力模型。【密集预测我的理解应该是语义分割】
我们的实验情况，即证明整体思路的有效性
- 我们在四个大规模数据集上验证了我们的模型的有效性。特别是，我们的模型比ImageNet上现有的所有独立自注意模型都要好。
- 我们的Axial-DeepLab在COCO测试开发上比自下而上的最先进水平提高了2.8%的PQ。
- 以前最先进的是通过我们的小变体实现的，它具有3.8倍参数效率和27倍计算效率。Axis-DeepLab还在地图景观和城市景观上取得了最先进的结果。

1.Introduction

首先要开始介绍传统的CNN的缺陷在那里，以及别人在解决这一缺陷上做出的努力
- 卷积是计算机视觉的核心构件。早期的算法使用卷积滤波来模糊图像、提取边缘或检测特征。
- 与完全连接的模型相比，由于其效率和泛化能力，它在现代神经网络中得到了广泛的开发。卷积的成功主要来源于两个性质：平移等价性和局部性。
  - 平移等价性，虽然不是精确的，但很好地符合成像的性质，从而将模型推广到不同位置或不同大小的图像。
  - 另一方面，局部性减少了参数计数和M的增加。然而，这使得对长程关系的建模具有挑战性。【即卷积存在优点的同时也存在缺点，特别是局部性这一块，能一定程度提升效率，但是也意味着损失了长程依赖关系的建模】
介绍别人在对于CNN建模长程依赖上做出的努力
- 大量文献讨论了卷积神经网络(CNNs)中长程相互作用的建模方法。有些采用空洞卷积，更大卷积核，图像金字塔。要么手工设计，要么通过算法搜索。
- 另一类作品采用了注意力机制。注意力在语言建模、语音识别和神经字幕中显示其对远程交互进行建模的能力。
- 自那以后，注意力已经扩展到视觉上，对图像分类、目标检测、语义分割、视频分类和对抗性防御给予了显著的提升。这些工作通过非局部性和长程注意力模块丰富了CNN。
介绍国内外在注意力机制这块做出的贡献以及存在的问题，引出本文的工作
- 最近，有人提出将注意力层堆叠为没有任何空间卷积的独立模型，并显示了有希望的结果。然而，单纯的注意力在计算上是昂贵的，尤其是在大的输入上。
- 有人提出对注意力应用局部约束可以降低成本，并能够构建完全注意力模型。然而，局部约束限制了模型感受野，而感受野对于分割等任务至关重要，尤其是在高分辨率输入上。
- 在这项工作中，我们建议采用轴向注意，这不仅可以进行有效的计算，而且可以恢复独立注意模型中的大感受野。·
  - 其核心思想是将二维注意力按高度和宽度轴顺序分解为两个一维注意力。它的效率使我们能够参与大范围的活动，并构建模型来学习远程甚至全局相互作用。
  - 此外，以前的大多数注意力模块都没有利用位置信息，这降低了注意力对位置依赖相互作用的建模能力，比如在多尺度的形状和目标
  - 最近的作品引入了位置信息到注意力中，但以一种上下文无关的方式。在本文中，我们增加了位置项，使其与上下文相关，使我们的注意力对位置敏感，具有较小的成本。
介绍本文的工作以及本文提出的模块的优越性
- 我们在ImageNet上的分类以及三个用于全景分割、实例分割、语义分割的数据集（COCO、地图远景和城市景观）上展示了轴向注意模型的有效性
- 特别是在ImageNet上，我们通过使用位置敏感轴向注意层替换所有残差块中的3x3卷积来构建轴向ResNet，并通过在“stem”中采用轴向注意层进一步使其完全注意。【这里大致意思就是取消了所有的卷积，仅仅用注意力构建了一个模型】
- 因此，我们的轴向ResNet在ImageNet上的独立注意力模型中获得了最先进的结果。对于分割任务，我们通过将轴向ResNet转换为轴向DeepLab，替换Panopic DeepLab中的主干，。在COCO上，我们的轴向DeepLab在测试开发集上的性能优于当前自下而上的最先进的全景式DeepLab，提升的PQ为2.8%。我们还展示了地图远景和城市景观的最新分割结果。
总结一下全文的贡献，即本文存在的贡献点
- 总之，我们的贡献有四个方面：
  - 该方法首次尝试构建具有大或全局感受野的独立注意力模型。
  - 我们提出了位置敏感注意层，它可以更好地利用位置信息，而不会增加太多的计算成本。
  - 我们表明，轴向注意力效果很好，不仅作为图像分类的独立模型，而且作为全景分割、实例分割和分段分割的主干。
  - 我们的Axial-DeepLab在coco上比自下而上的最先进的方法有显著的改进，实现了与两阶段方法相当的性能。我们还在地图景观和城市景观上超过了以前的最先进的方法。

2 Related Work

介绍任务的相关工作
- 至上而下的全景分割
  - 大多数最先进的全景分割模型采用两阶段方法，首先生成目标建议，然后对每个建议进行顺序处理。我们将这种方法称为自上而下或基于建议的方法。例如，Mask R-CNN通常使用在实例分割管道中，与轻权重分割分支配对。
    - 例如，全景FPN集成了语义分割头来到Mask R-CNN，
    - 而Porzi等人将轻型DeepLab启发模块添加到FPN的多尺度特征图里面。
  - 此外，一些额外的模块被设计用于解决Mask R-CNN的重叠实例预测。
    - TASCNet和AUNet提出了一个模块来指导“事物”和“东西”预测之间的融合，而Liu等人采用空间排名模块。
    - UPSNet开发了一种有效的用于融合“事物”和“东西”的无参数全景头，Li等人进一步探讨了这一点
    - 有的文章用于全景分割模型的端到端训练。AdaptIS使用点建议来生成实例掩码。
- 至下而上的全景分割
  - 与自上而下的方法不同，用于全景分割的自下而上或无建议的方法通常从语义分割预测开始，然后将物体的像素分组成簇以获得实例分割
    - DeeperLab预测用于类别无关实例分割的边界框四个角和目标中心。
      SSAP利用了由特定的图划分方法实现的像素对等度金字塔。
    - BBFNet通过分水岭变换和霍夫投票得到实例分割结果。
    - 最近，全景DeepLab，一种简单、快速且强大的自下而上全景分割方法，使用了一种与类无关的实例分割分支，包括简单实例中心回归，以及DeepLab语义分割输出。
    - 全景-DeepLab已经在几个基准上取得了最先进的结果，我们的方法建立在它的基础上。
- 自注意力
  - 科学家为神经序列到序列模型中的编解码器引入的注意力，被发展为捕获两个序列之间的标记的对应关系。相比之下，自我注意的定义是将注意力集中在单一背景下，而不是跨越多个通道。它能够直接编码远程交互，其可并行化为各种任务带来了最先进的性能。
  - 最近，自注意力被应用于计算机视觉，通过使用非局部或远程模块来增强CNN。非局部神经网络表明，自我注意是非局部方法的实例化，并在许多视觉任务上获得了收益，例如视频分类和目标检测。
  - 此外，文献通过结合来自自注意力和卷积的特征，显示了图像分类的提升。视频动作识别任务的最新结果也是以这种方式实现的。
  - 在语义分割方面，自我注意被开发为一个语境聚合模块，它捕获多尺度语境。人们提出了有效的注意方法来降低算法的复杂度。
  - 此外，用非局部方法增强的CNN被证明对对手攻击更健壮。除辨别性任务外，自我注意也被用于图像的生成性建模。
  - 最近，文献表明，通过将自注意力的感受野限制在局部正方形区域，单独的自我注意层可以被堆叠起来，形成一个完全注意的模型。在图像分类和目标检测上都取得了令人振奋的结果。
  - 在本研究中，我们遵循这一研究方向，提出了一个具有较大或全局接受性年龄的独立自我注意模型，使自我注意模型再次非局部化。我们的模型在自下而上的全景分割上进行了评估，并显示出显著的提升。

3.Method

介绍本文提出的方法
- 我们首先正式介绍我们对位置敏感的自我注意机制。然后，我们讨论了如何将其应用于轴注意，以及如何使用轴关注层构建独立的Axial-ResNet和Axial-DeepLab。

3.1 Position-Sensitive Self-Attention

Self-Attention 介绍什么是自注意力机制以及其缺陷在哪
- 自注意力机制通常被应用于视觉模型，作为增加CNN输出的附加机制。给定具有高度h、宽度w和通道 $d_{i n}$ 的输入特征图 $\in \mathbb{R}^{h \times w \times d_{i n}}$ ，位置 $y_{o} \in \mathbb{R}^{d_{\text {out }}}$ 处的输出通过将投影输入合并为：
  $y_{o}=\sum_{p \in \mathcal{N}} \operatorname{softmax}_{p}\left(q_{o}^{T} k_{p}\right) v_{p}$
  这里 $\mathcal{N}$ 是整个位置点阵, 查询 $q_{o}=W_{Q} x_{o}$ , 键 $k_{o}=W_{K} x_{o}$ , 值 $v_{o}=W_{V} x_{o}$ 是输入 $x_{o} \forall o \in \mathcal{N}$ 的线性投影 . $W_{Q}, W_{K} \in$ $\mathbb{R}^{d_{q} \times d_{i n}}$ a和 $W_{V} \in \mathbb{R}^{d_{\text {out }} \times d_{\text {in }}}$ 是所有可学习的矩阵。softmax ${ }_{p}$ 代表一个被用于所有可能 $p = (a, b)$ 位置的softmax 函数, 在这种情况下，它也是整个2D格子。
- 这个机制基于仿射 $x_{o}^{T} W_{Q}^{T} W_{K} x_{p}$ 汇集了全局的值 $v_{p}$ , 允许我们在整个特征地图中捕获相关但非本地的上下文，而不是仅能捕获局部关系的卷积。
- 然而，当输入的空间维度很大时，自我注意的计算成本非常高(O(H2w2))，它一般被限制使用在高层级的CNN中(即，下采样特征图)或小图像。另一个缺点是，全局池化不利用位置信息，而位置信息对于捕捉视觉任务中的空间结构或形状至关重要。
介绍解决自注意力机制的方法或者方案
- 这两个问题可以通过在自注意力中添加局部约束和位置编码进行缓解【这里的局部约束应该指的是在一定范围内进行计算】
- 对于每个位置o，提取局部m×m个正方形区域以用作计算输出Yo的存储体。这显著地将其计算量减少到O(Hwm2)，允许自注意模块被部署为独立的层以形成完全自注意的神经网络。
- 此外，一个学习到的相对位置编码项被纳入密切关系，产生在感受野中观察位置的动态先验（例如：局部的mxm方形区域），形式化的表示为： $y_{o}=\sum_{p \in \mathcal{N}_{m \times m}(o)} \operatorname{softmax}_{p}\left(q_{o}^{T} k_{p}+q_{o}^{T} r_{p-o}\right) v_{p}$
  这里 $\mathcal{N}_{m \times m}(o)$ 是以 $o = (i, j)$ 为中心的局部 $\times m$ 矩形区域,可学习的向量 $r_{p-o} \in \mathbb{R}^{d_{q}}$ 是添加的相对位置编码。内积 $q_{o}^{T} r_{p-o}$ 测量位置 $p = (a, b)$ 到位置 $o = (i, j)$ 的相似性.
- 我们不考虑绝对位置编码 $q_{o}^{T} r_{p}$ , 因为与相对的对应物相比，它们不能很好地概括。在以下段落中，为了简洁起见，我们删除了相对一词。
- 在实践中, $d_{q}$ 和 $d_{\text {out }}$ 比 $d_{i n}$ 小得多, 并且可以在式 in Eq. (2)中扩展单头注意力到多头注意力，以此来捕获亲和力的混合。特别是，通过在 $x_{o}$ (具有不同的 $W_{Q}^{n}, W_{K}^{n}, W_{V}^{n}, \forall n \in\{1,2, \ldots, N\}$ 对于第N个头。上并行应用 $N$ 个单头注意力来计算多头注意力。然后将来自每一个头的结果进行连接获得最终输出 $z_{o}$ 如 $z_{o}=$ concat $_{n}\left(y_{o}^{n}\right)$ .请注意，位置编码通常在头部之间共享，因此它们引入了较少的额外参数。
位置敏感性
- 我们注意到先前的位置偏置仅仅依赖于 $x_{o}$ , 而不是 $x_{p}$ . 然而 $x_{p}$ 也可能具有关于要关注哪个位置的信息。因此除了查询相关偏置 $q_{o}^{T} r_{p-o}^{q}$ .我们也添加了key相关位置偏置项 $k_{p}^{T} r_{p-o}^{k}$ ,
- 相似的，公式2中的值 $v_{p}$ 不包含任何位置信息.在大的感受野或记忆库的情况下， $y_{o}$ 不太可能包含来自 $v_{p}$ 的精确位置。因此，以前的模型必须在使用较小的感受野(i.e., $\times m$ 小区域)和抛弃精确的空间结构之间进行权衡。在本文中, 我们启用输出 $y_{o}$ 来检索相对位置 $r_{p-o}^{v}$ , 除了 $v_{p}$ ,基于 $q_{o}^{T} k_{p}$ .式如下：
  $y_{o}=\sum_{p \in \mathcal{N}_{m \times m}(o)} \operatorname{softmax}_{p}\left(q_{o}^{T} k_{p}+q_{o}^{T} r_{p-o}^{q}+k_{p}^{T} r_{p-o}^{k}\right)\left(v_{p}+r_{p-o}^{v}\right)$
  这里可学习的 $r_{p-o}^{k} \in \mathbb{R}^{d_{q}}$ 是keys的位置编码, $r_{p-o}^{v} \in$ $\mathbb{R}^{d_{\text {out }}}$ 是值. 因为它们在一个层的注意力头之间共享参数，两个向量都没有引入很多的参数，局部像素数 $\left|\mathcal{N}_{m \times m}(o)\right|$ 通常很小。
我们将这种设计称为位置敏感的自我注意，它以合理的计算开销捕获具有精确位置信息的远程交互，正如我们的实验所验证的那样。

3.2 Axial-Attention

介绍轴向注意力的具体情况【通过介绍现有注意力的缺陷，引出我们构建轴向注意力的必要性】
- 由独立的自注意力模型提出的局部约束，在视觉任务中明显的减少了计算成本，能够建立完全自注意力模型，然而，这种约束牺牲了全局连接，使得注意力的感受野不大于具有相同内核大小的深度卷积。【这里就是局部性的注意力的感受野其实与相同大小卷积核的感受野几乎一致】
- 此外，在局部正方形区域中执行的局部自注意力仍然具有与区域长度成二次方的复杂度，引入了另一个超参数来权衡性能和计算复杂度。
介绍本文的工作、
- 在这项工作中，我们建议在独立的自注意中采用轴向注意，以确保全局连接和高效计算。具体地说，我们首先将图像宽轴上的轴向注意层简单地描述为一维位置敏感的自注意,并对高度轴使用类似的定义。具体来说，沿宽度轴的轴向注意力层定义如下。 $y_{o}=\sum_{p \in \mathcal{N}_{1 \times m}(o)} \operatorname{softmax}_{p}\left(q_{o}^{T} k_{p}+q_{o}^{T} r_{p-o}^{q}+k_{p}^{T} r_{p-o}^{k}\right)\left(v_{p}+r_{p-o}^{v}\right)$
- 一个轴向注意力层沿着一个特定的轴传播信息。为了捕获全局信息，我们分别为高度轴和宽度轴连续使用两个轴向注意力层。如上所述，两个轴向注意力层都采用了多头注意力机制。
- Axial-attention 将复杂度降低到 O(hwm)。这启用了全局感受野，这是通过将跨度 m 直接设置为整个输入特征来实现的。或者，也可以使用固定的 m 值，以减少巨大特征图上的内存占用。
Axial-ResNet:
- 为了将 ResNet 转换为 Axial-ResNet，我们将残差瓶颈块中的 3x3 卷积替换为两个多头轴向注意层（一个用于高度轴，另一个用于宽度轴）。
- 在相应的轴向注意力层之后，在每个轴上执行可选的跨步。保留两个 1x1 卷积以调整特征。这形成了我们的（残差）轴向注意力块，如图2所示。将其堆叠多次以获得 Axial-ResNets
- 请注意，我们没有在两个轴向注意力层之间使用 1x1 卷积，因为矩阵乘法 (WQ;WK;WV ) 紧随其后。此外，保留原始 ResNet 中的stem层（即第一个跨步 7 x7 卷积和 3x 3 最大池），产生一个 conv-stem 模型，其中第一层使用卷积，其他任何地方都使用注意力层。在 conv-stem 模型中，我们将跨度 m 设置为来自第一个块的整个输入，其中特征图为 56x56。
- 在我们的实验中，我们还构建了一个全轴向注意力模型，称为 Full Axial-ResNet，它进一步将轴向注意力应用于stem层。
- 而不是设计一个特殊的空间变化注意力stem层，而是简单地堆叠三个轴向注意力瓶颈块。此外，我们在 Full Axial-ResNets 的前几个块中采用局部约束（即 mxm 正方形区域），以降低计算成本.
Axial-DeepLab
- 为了进一步将 Axial-ResNet 转换为 Axial-DeepLab 以进行分割任务，我们进行了一些更改，如下所述。
  - 首先，为了提取密集的特征图，DeepLab改变了 ResNet 中最后一两个阶段的步幅和空洞率。同样，我们删除了最后阶段的步幅，但我们没有实现“atrous”注意力模块，因为我们的轴向注意力已经捕获了整个输入的全局信息。在这项工作中，我们提取输出步幅16（即输入分辨率与最终骨干特征分辨率的比率）的特征图。我们不追求输出步幅 8，因为它的计算量很大。
  - 其次，我们不采用空洞空间金字塔池化模块（ASPP），因为我们的轴向注意块也可以有效地编码多尺度或全局信息。我们在实验中表明，我们的没有 ASPP 的 Axial-DeepLab 在有和没有 ASPP 的情况下都优于 Panoptic-DeepLab 。
  - 最后，在 Panoptic-DeepLab 之后，我们采用了完全相同的三个卷积、双解码器和预测头的茎tem。头部产生语义分割和与类无关的实例分割，并通过多数投票将它们合并以形成最终的全景分割。
  - 在输入非常大（例如，2177x2177）并且内存受限的情况下，我们在所有轴向注意力块中采用大跨度 m = 65。请注意，我们不将轴向跨度视为超参数，因为它已经足以覆盖多个数据集上的远程甚至全局上下文，并且设置较小的跨度并不会显着减少 M-Adds。

4 Experimental Results

介绍实验的总体情况
- 我们对四个大型数据集进行了实验。我们首先在 ImageNet 上使用我们的 Axial-ResNet 报告结果。然后，我们将 ImageNet 预训练的 Axial-ResNet 转换为 Axial-DeepLab，并报告 COCO 、Mapillary Vistas 和 Cityscapes 的全景分割结果，通过全景质量 (PQ) 进行评估。
- 我们还报告了实例分割的平均精度 (AP)，以及 Mapillary Vistas 和 Cityscapes 语义分割的平均 IoU。我们的模型使用 TensorFlow 在 ImageNet 的 128 个 TPU 核心和全景分割的 32 个核心上进行训练。
Training protocol
- 在 ImageNet 上，我们采用与前人相同的训练协议进行公平比较，除了我们对 Full AxialResNets 使用批量大小 512，对所有其他模型使用批量大小 1024，并相应调整学习率
- 对于全景分割，我们严格遵循 Panoptic-DeepLab [20]，除了使用线性预热 Radam [61] Lookahead [96] 优化器（具有相同的学习率 0.001）。我们所有关于全景分割的结果都使用这个设置。我们注意到这种变化不会改善结果，但会平滑我们的训练曲线。 Panoptic-DeepLab 在此设置中产生类似的结果。