Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

最新推荐文章于 2024-08-05 10:42:18 发布

Never_Jiao

最新推荐文章于 2024-08-05 10:42:18 发布

阅读量1.9k

点赞数 5

分类专栏：论文研读文章标签： Transformer论文研读

本文链接：https://blog.csdn.net/Acmer_future_victor/article/details/115789573

版权

论文研读专栏收录该内容

56 篇文章 22 订阅

订阅专栏

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

Abstract

最新的语义分割方法采用具有编解码器结构的全卷积网络(FCN)。编码器逐渐降低空间分辨率，并通过更大的接受视野学习更多抽象/语义视觉概念。由于语境建模对分割至关重要，最新的努力集中在通过扩展/Arous卷积或插入注意模块来增加接受场。然而，基于编解码器的FCN体系结构保持不变。在本文中，我们的目标是通过将语义分割作为序列到序列的预测任务来提供另一种视角。具体地说，我们部署了一个纯transformer(即，没有卷积和分辨率降低)来将图像编码为一系列patch。通过在transformer的每一层中建模全局上下文，该编码器可以与简单的解码器相结合来提供一个强大的分割模型，称为分割 transformer(SETR)。大量实验表明，SETR在ADE20K(50.28%MIoU)、Pascal Context(55.83%MIoU)和城市景观的竞争结果上都达到了新的水平。特别是，我们在提交当天就获得了竞争激烈的ADE20K测试服务器排行榜的第一名。

Introduction

自从[36]的开创性工作以来，现有的语义分割模型一直被基于完全卷积网络(FCN)的模型所主导。标准的FCN分割模型具有编解码器结构：编码器用于特征表示学习，解码器用于对编码器产生的特征表示进行像素级分类。其中，特征表征学习(即编码器)可以说是最重要的模型组成部分[8，28，56，59]。与大多数其他为图像理解而设计的CNN一样，编码器由堆叠的卷积层组成。由于对计算成本的考虑，特征映射的分辨率逐渐降低，因此编码器能够学习更多抽象/语义视觉概念，并且逐渐增加接受范围。这种设计之所以受欢迎，是因为它有两个优点，即翻译等价性和地方性。前者很好地尊重了成像过程的本质[57]，这支持了模型对不可见图像数据的泛化能力。而后者通过跨空间共享参数来控制模型的复杂性。然而，它也提出了一个基本的限制，即学习对于无约束场景图像中的语义分割至关重要的远程依赖信息[2，49]，由于仍然有限的接受场而变得具有挑战性。
为了克服上述限制，最近引入了许多方法。一种方法是直接操作卷积运算。这包括较大的核尺寸[40]、扩展卷积[8，22]和图像/特征金字塔[59]。另一种方法是将注意力模块集成到FCN架构中。这样的模块旨在对特征图[48]中的所有像素的全局交互进行建模。当应用于语义分割[25，29]时，一种常见的设计是将FCN架构的注意力模块与位于顶部的注意力层相结合。无论采用哪种方法，标准编解码器FCN模型体系结构都保持不变。最近，人们试图完全摆脱卷积现象，转而采用注意力独立模型[47]。然而，即使没有卷积，它们也不会改变FCN模型结构的性质：编码器降低输入的空间分辨率，形成有助于区分语义类的低分辨率特征映射，而解码器将特征表示向上采样为全分辨率分割映射。
本文旨在为语义分割模型的设计提供一种反思，为语义分割模型的设计提供一种可供选择的方案。特别地，我们建议用一个纯transformer来代替空间分辨率逐渐降低的基于堆叠卷积层的编码器[45]，从而产生一种新的分割模型，称为segmentation transformer(SETR)。该编码器将输入图像看作由学习块嵌入表示的图像块序列，并利用全局自注意建模对序列进行变换，以进行区分性特征表示学习。具体地说，我们首先将图像分解成固定大小的patch网格，形成一系列patch。将线性嵌入层应用于每个面片的平面化像素向量，然后得到一系列特征嵌入向量作为transformer的输入。给定从编码器transformer学习的特征，然后使用解码器来恢复原始图像分辨率。重要的是，在空间分辨率上没有下采样，而是在编码器转换器的每一层上进行全局上下文建模，从而为语义分割问题提供了一个全新的视角。
这种纯粹的transformer设计灵感来自于它在自然语言处理(NLP)方面的巨大成功[14，45]。最近，纯vision transformer或ViT[16]已被证明对图像分类任务是有效的。因此，它提供了直接证据，表明传统的叠加卷积层(即CNN)设计可以受到挑战，并且不一定需要通过降低空间分辨率从局部到全局逐步学习图像特征。然而，将一个纯粹的转换器从图像分类扩展到空间位置敏感的语义分割任务并不是一件容易的事情。我们的经验表明，SETR不仅在模型设计上提供了一个新的视角，而且在许多基准上也达到了新的艺术水平。
本文的主要贡献如下：(1)从序列到序列学习的角度对图像语义分割问题进行了重新描述，为主流编解码器FCN模型的设计提供了一种选择。(2)作为一个实例，我们利用Transformer框架通过对图像进行序列化来实现我们的完全关注的特征表示编码器。(3)为了更广泛地考察自我注意的特征呈现，我们进一步介绍了三种不同复杂度的解码器设计。大量的实验表明，我们的SETR模型与不同的FCN相比，可以学习到更好的特征表示，在ADE20K(50.28%)、Pascal上下文(55.83%)和城市景观上产生了具有竞争力的结果，并且在ADE20K(50.28%)和PASCAL上下文(55.83%)上产生了新的技术水平。特别值得一提的是，我们的参赛产品在竞争激烈的ADE20K测试服务器排行榜上名列第一。

Related Work

语义分割
随着深度神经网络的发展，语义分割技术在图像分割领域得到了很大的发展。通过去除全连接层，全卷积网络(FCN)[36]能够实现像素级预测。虽然FCN的预测相对粗略，但基于CRF/MRF[6，35，61]的几种方法被开发来帮助精炼粗略的预测。为了解决语义和位置之间的内在紧张关系[36]，编码器和解码器都需要聚合粗细层。这导致了用于多级特征融合的编码器-解码器结构[2，38，42]的不同变体。
最近的许多努力都集中在解决FCN中有限的接受场/上下文建模问题上。为了扩大感受野，DeepLab[7]和Expansion[52]引入了膨胀卷积。或者，上下文建模是PSPNet[59]和DeepLabV2[9]的重点。前者提出了PPM模块来获取不同区域的上下文信息，后者开发了采用不同扩张率的金字塔膨胀卷积的ASPP模块。分解的大内核[40]还用于上下文捕获。最近，基于注意力的模型在获取远程上下文信息方面非常流行。PSANet[60]开发了点式空间注意模块，用于动态捕获远程上下文。DANET[17]嵌入了空间注意和通道注意。CCNet[26]则侧重于节省完全空间注意带来的繁重的计算预算。DGMN[56]为场景建模建立了一个动态图消息传递网络，可以显著降低计算复杂度。注意，所有这些方法仍然是基于FCN的，其中特征编码和提取部分是基于经典的ConvNet，如VGG[43]和ResNet[20]。在这项工作中，我们从不同的角度重新思考语义切分任务。
transformer和自我注意模型使机器翻译和自然语言处理发生了革命性的变化[13，14，45，50]。近年来，也有人对transformer结构在图像识别中的应用进行了一些探索。Non-local网络[48]将transformer风格的注意力附加到卷积主干上。AANet[3]混合了卷积和自我注意来训练骨干。LRNet[24]和独立网络[41]探索局部自我注意，以避免全局自我注意带来的繁重计算。SAN[58]探索了两种类型的自我注意模块。轴向注意[47]将全局空间注意分解为两个单独的轴向注意，从而大大减少了计算量。除了这些基于纯transformer的模型，还有CNN-transformer混合模型。DETR[5]和下面的变形版本利用transformer进行物体检测，其中transformer附加在检测头的内部。STTR[32]和LSTR[34]分别采用变换进行视差估计和车道形状预测。最近，VIT[16]是第一个表明基于纯transformer的图像分类模型可以达到最先进水平的工作。这为在语义分割模型中开发基于纯转换器的编码器设计提供了直接的启发。
最相关的工作是[47]，它也利用注意力进行图像分割。然而，有几个关键的不同之处。首先，尽管在[47]中完全取消了卷积，就像我们的SETR一样，他们的模型仍然遵循传统的FCN设计，即特征地图的空间分辨率逐渐降低。相反，我们的序列到序列预测模型始终保持相同的空间分辨率，因此代表了模型设计中的一步变化。其次，为了最大限度地提高现代硬件加速器的可扩展性和易用性，我们坚持标准的自我关注设计。取而代之的是，[47]采用了专门设计的轴向注意力[21]，这对标准计算设施的可扩展性较差。我们的模型在分割精度上也是优越的(见第4节)。

Method

3.1 FCN-based semantic segmentation

为了与我们的新模型设计形成对比，让我们首先回顾一下传统的FCN[36]图像语义分割方法。FCN编码器由一堆顺序连接的卷积层组成。第一层将图像作为输入，表示为H×W×3，其中H×W以像素为单位指定图像大小。后续层i的输入是三维张量大小h×w×d，其中h和w是特征地图的空间维度，d是特征/通道维度。张量在较高层中的位置是基于它们通过逐层卷积连接到的所有较低层的张量的位置来计算的，该卷积被定义为它们的感受场。由于卷积运算的局部性，感受场沿层的深度线性增加，条件是核大小(通常为3×3)。因此，在此FCN体系结构中，只有具有大接受字段的较高层才能对长期依赖关系进行建模。然而，研究表明，一旦达到一定深度，增加更多层的好处将迅速减弱[20]。因此，上下文建模的接受域有限是普通FCN体系结构的固有限制。
最近，一些最先进的方法[25，55，56]表明，将FCN与注意机制相结合是学习远程上下文信息的一种更有效的策略。由于特征张量的像素数W.r.t的二次复杂度，这些方法仅将注意力学习限制在具有较小输入大小的较高层。这意味着缺乏对较低级别特征张量的依赖学习，导致次优表示学习。为了克服这一局限，我们提出了一种纯自我注意的编码器，称为segmentation transformer(SETR)。

3.2 Segmentation transformer(SETR)

Image to sequence
对于1D序列之间的转换，SETR遵循与NLP中相同的输入-输出结构。因此，在2D图像和1D序列之间存在不匹配。具体地说，如图1(a)所示，转换器接受一维特征嵌入序列Z∈R^(L×C) 作为输入，L是序列长度，C是隐藏通道大小。因此，需要图像序列化来将输入图像x∈R^(H×W×3)转换为Z。

图1.所提出的分割变压器（SETR）（a）的示意图，我们首先将图像分成固定尺寸的patches，线性地嵌入它们中的每一个，添加位置embedding，并将产生的向量序列馈送到标准transformer编码器。要执行像素方面的分割，我们介绍了不同的解码器设计：（b）渐进式上采样（导致称为SETR-PUP的变体）; （c）多级别特征聚合（一个名为SETR-MLA的变体）。
图像序列化的一种直接方法是将图像像素值展平为大小为3xHxW的一维矢量。对于大小为480(高)×480(宽)×3的典型图像，结果向量的长度将为691,200。考虑到transformer的二次型模型复杂性，这样的高维向量不可能同时在空间和时间上处理。因此，将每个像素标记为我们转换器的输入是不可能的。
考虑到典型的语义分割编码器会将二维图像x∈R^(H×W×3)下采样为特征映射Xf∈R^{(H/16×W1/6×C)}，因此我们决定将transformer输入序列长度L设置为H/16×W/16=HW/256。这样，变压器的输出序列可以简单地重塑为目标特征地图Xf。
为了得到HW/256长的输入序列，我们将一幅图像x∈R^(H×W×3)均匀地划分为一个由H/16×W/16块组成的网格，然后将该网格平整成一个序列。通过使用线性投影函数f：p−→e∈R^c将每个矢量化的patch p进一步映射到潜在的C维嵌入空间，我们得到了图像x的一维patch嵌入序列。为了对patch空间信息进行编码，我们为每个位置i的ei特定嵌入pi得到最终序列E={e1+p1，e2+p2，···，eL+pL}。这样，尽管transformer具有无序的自我关注特性，空间信息仍能保持不变。
Transformer
以一维嵌入序列E为输入，采用基于transformer的编码器学习特征表示。这意味着每个transformer层都有一个全局接受场，一劳永逸地解决了现有FCN编码器有限接受场的问题。transformer编码器由多头自关注(MSA)模块和多层感知器(MLP)模块组成46。在每一层l，自我关注的输入是根据输入Z^(l−1)∈R^(L×C)计算得到的三元组(Query，Key，Value)：
公式1
其中WQ、WK、WV∈R^(C×d)是三个线性投影层的可学习参数，d是(Query，Key，Value)的维度。自我注意(SA)然后被表示为
公式2
MSA是具有m个独立SA运算的扩展，并投影它们的串联输出：MSA(Z^l−1)=[SA1(Z^l−1)；SA2(Z^l−1)；···；SAm(Z^l−1)]WO，其中WO∈R^(md×C).d通常被设置为C/m。然后，MSA的输出由带有残差跳跃的MLP块变换得到，
公式3
注意，layer Norm在MSA和MLP块之前应用，为简单起见省略了这一点。我们将{Z¹，Z²，···，Z^Le}表示为transformer层的特征。

3.3 Decoder designs

为了评估SETR的编码器特征表示Z的有效性，我们引入了三种不同的解码器设计来执行像素级分割。由于=解码器的目标是在原始的2D图像空间(H×W)中生成分割结果，因此需要将编码器的特征Z从二维的HW/256×C形状重塑为标准的3D特征映射H/16×W/16×C。
(1)Naive upsampling(Naive)这个简单的解码器首先将transformer特征Z^Le投影到类别号的维度(例如，19用于城市景观实验)。为此，我们采用了简单的2层网络架构：1×1卷积+同步batch norm(w/ReLU)+1×1卷积。在此之后，我们简单地对输出进行双线性上采样，使其达到全图像分辨率，然后进行像素级交叉熵损失的分类层。当使用该解码器时，我们将我们的模型表示为SETR-Naive。
(2)Progressive UPsampling（PUP），我们考虑交替卷积层和上采样操作的渐进式上采样策略，而不是可能引入噪声预测的一步上采样。为了最大限度地减轻对抗效应，我们将上采样限制在2×。因此，从大小为H /16×W/16的Z^Le达到全分辨率总共需要4次操作。图1(B)给出了这一过程的更多细节。在使用该解码器时，我们将我们的模型表示为SETR-PUP。
(3)Multi-Level feature Aggregation（MLA）
第三种设计的特点是多级特征聚合（图1（c）），具有图片金字塔网络的类似精神[27,33]。但是，我们的解码器基本不同，因为每个SETR的图层Z^l都有相同的分辨率而没有金字塔形状。
具体地说，我们将来自M个层的特征表示{Z^m}(m∈{Le/M，2Le/M，···，MLe/M})作为输入，其中步骤Le/M到解码器。然后部署M个流，每个流集中在一个特定的选定层上。在每个码流中，我们首先将编码器的特征Z^l从二维的HW/256×C重塑为3D特征图H/16×W/16×C。采用3层(核大小分别为1×1、3×3和3×3)的网络，第一层和第三层的特征通道分别减半，第三层之后通过双线性运算将空间分辨率提高4倍。为了增强不同流之间的交互，我们引入了自上而下的聚合设计，通过在第一层之后添加元素来实现。在逐个元素添加的特征之后应用额外的3×3卷积。在第三层之后，我们通过通道级联从所有的流中提取融合特征，然后对融合特征进行4倍的双线性上采样到全分辨率。在使用该解码器时，我们将我们的模型表示为SETR-MLA。

4. Experiments

4.1 Experimental setup

我们在三个广泛使用的语义细分基准数据集中进行实验。
Cityscapes 密集标注城市场景图像中的19个对象类别。它包含5000张经过精细注释的图像，分为2975张、500张和1525张，分别用于训练、验证和测试。这些图像都是以2048×1024的高分辨率拍摄的。此外，它还提供19998个粗略标注的图像用于模型训练。
ADE20K是一个具有挑战性的场景解析基准，包含150个细粒度语义概念。它包含20210、2,000和3,352张图像，用于培训、验证和测试。
Pascal Context为整个场景(“物”类和“材料”类)提供了像素级语义标签，并分别包含4998和5105幅图像用于训练和验证。在前人工作的基础上，我们对出现频率最高的59个类和背景类(共60个类)进行了评估。
Implementation details
遵循公共代码库mmSegment的默认设置(例如，数据扩充和训练时间表)[39]，(I)在所有实验的训练过程中，我们应用了比率在0.5到2之间的随机调整大小、随机裁剪(Cityscape、ADE20K和Pascal上下文分别为768、512和480)和随机水平翻转；(Ii)我们将ADE20K和Pascal上下文上的实验的总迭代次数设置为160,000和80,000。对于城市景观，我们将批次大小设置为8，表2、6和7中报告了一些培训计划，以进行公平比较。我们采用多项式学习率衰减调度[59]，并使用SGD作为优化器。对于这三个数据集上的所有实验，动量和权重衰减分别设置为0.9和0。我们在ADE20K和PASCAL上下文上设置了0.001的初始学习率，在城市景观上设置了0.01%的初始学习率。
Auxiliary loss正如[59]一样，我们还发现辅助分割损失有助于模型的训练。每个辅助损失头（没太看懂,什么是辅助分割损失？自己理解的是多个损失函数，一个作为主损失函数，剩下的作为辅助损失函数）遵循2层网络。我们在不同的transformer层增加辅助损耗：SETR-Naive(Z¹⁰，Z¹⁵，Z²⁰)，SETR-PUP(Z¹⁰，Z¹⁵，Z²⁰，Z²⁴)，SETR-Mla(Z⁶，Z¹²，Z¹⁸，Z²⁴)。辅助损失和主损失头同时应用。
Multi-scale test我们使用mmSegment[39]的默认设置。具体地说，首先将输入图像缩放到统一大小。然后使用缩放因子(0.5、0.75、1.0、1.25、1.5、1.75)对图像执行多尺度缩放和随机水平翻转。测试采用滑动窗口(如PASCAL上下文为480×480)。如果较短的边小于滑动窗口的大小，则在保持纵横比的同时，用其较短的边将图像缩放到滑动窗口的大小(例如，480)。解码器和辅助损耗头采用同步BN。为了训练的简单性，我们没有采用广泛使用的技巧，如OHEM[53]在模型训练中的损失。
Baselines
我们采用dilated的FCN[36]和Semantic FPN[27]作为基线，他们的结果取自[39]。我们的模型和基线在相同的设置下进行了训练和测试，以便进行公平的比较。此外，还对目前最先进的模型进行了比较。请注意，扩展后的FCN的输出步幅为8，由于GPU内存的限制，我们在所有型号中都使用输出步幅16。
SETR variants我们模型的三个变种，具有不同的解码器设计(参见3.3小节)，即SETR-Naive、SETR-PUP和SETR-MLA。此外，我们使用了编码器的两个变体“T-Base”和“T-Large”，分别有12层和24层(表1)。除非另有说明，否则我们使用“T-Large”作为SETR-NaiVE、SETRPUP和SETR-MLA的编码器。我们称SETR-Naive-Base为利用SETR-Naive中的“T-base”的模型。

虽然设计为纯transformer编码器的模型，但我们也通过使用基于ResNet-50的FCN编码器并将其输出特征馈送到SETR来设置混合基线混合编码器。为了解决图形处理器内存限制和公平比较，我们只考虑混合模型中的‘T-base’，并将fcn的输出跨度设置为1/16。也就是说，混合模型是Resnet-50和setr-Naive-base的组合。
Pre-training
我们使用VIT[16]或DeiT[44]提供的预先训练的权重来初始化模型中的所有transformer层和输入线性投影层。我们将SETR-Naive-Deit表示为利用SETR-Naive-Base中的DeiT[44]预训练的模型。所有没有预训练的层都被随机初始化。对于混合的FCN编码器，我们使用在ImageNet-1k上预先训练的初始权值。对于transformer部分，我们使用由VIT[16]、DeiT[44]预先训练或随机初始化的权重。
我们对所有实验使用patch大小16×16。我们在预训练的位置嵌入时执行2D插值，根据其原始图像中的位置，用于不同的输入尺寸微调。
Evaluation metric根据标准的评估协议[12]，报告了在所有类上平均的MIoU的度量。对于ADE20K，根据现有实践报告了额外的像素精度。

4.2 Ablation studies

表2和表3显示了消融研究(a)不同训练时间表的不同SETR变体，(b)与FCN [39]和语义FPN [39]的比较，©不同数据的预训练，(d)与混合的比较，(e)与不同预训练的FCN的比较。除非另有规定，表2和表3中的所有实验都在批次大小为8的城市景观训练精细集上进行训练，并使用城市景观验证集的单规模测试方案以平均IoU (%)率进行评估。ADE20K上的实验也遵循单尺度测试协议。

表2 .比较不同训练前策略和主干上的SETR变体。所有实验都在批次大小为8的城市景观训练精细集上进行训练，并在城市景观验证集上使用单规模测试方案以平均IoU (%)率进行评估。“Pre”表示变压器部分的预培训。“R”表示transformer部分随机初始化。
从表2中，我们可以得出以下结论:(1)逐步对要素地图进行上采样，SETR-PUP在城市景观的所有变量中取得了最佳性能。SETR-MLA性能较差的一个可能原因是，不同transformer层的特征输出不像特征金字塔网络(FPN)那样具有分辨率金字塔的优势(见图5)。然而，SETR-MLA的性能比SETR-PUP稍好，并且比在ADE20K值集上将transformer输出特性一次上采样16倍的变体SETRNaive优越得多(表3和表4)。(2)如预期的那样，使用“T-Large”的变异体(如SETR-MLA和SETR-Naive)优于它们的“T-Base”对应体，即SETR-MLA-Base和SETR-Naive-Base。(3)虽然我们的SETR-PUP-Base比Hybrid-Base表现更差，但当用更多的迭代(80k)训练时，它表现出色(78.02)。这表明FCN编码器的设计可以在语义分割中替代，进一步验证了我们模型的有效性。(4)预培训对我们的模式至关重要。随机初始化的SETR-PUP只给出42.27%的城市景观。在ImageNet-1K上用DeiT [44]预训练的模型在城市景观上的性能最好，略好于在ImageNet-21K上用ViT [16]预训练的模型。(5)为了研究预训练的力量并进一步验证我们建议方法的有效性，我们对表3中的预训练策略进行了消融研究。为了与FCN基线进行公平的比较，我们首先在Imagenet-21k数据集上对ResNet-101进行分类任务的预训练，然后在ADE20K或Cityscapes上对语义分割任务采用扩展FCN训练的预训练权重。表3显示，与在ImageNet-1k上预先训练的变体相比，在ImageNet-21k上预先训练的FCN基线有了明显的改善。然而，我们的方法在很大程度上优于FCN的同类方法，验证了我们方法的优势很大程度上来自于提出的序列到序列建模策略，而不是更大的预训练数据。

表3 .在ADE20K值和城市景观值集上，用单尺度推理比较不同预训练的FCN。

表4.ADE20K数据集的最新比较。报告了不同模型变体的性能。SS：单尺度推理。MS：多尺度推理。

4.3 Comparison to state-of-the-art

Results on ADE20K
表4显示了我们在更具挑战性的ADE20K数据集上的结果。我们的SETR-MLA在单尺度(SS)推理下获得了48.64%的优越MIoU值。当采用多尺度推理时，我们的方法达到了一个新的水平，MIoU达到了50.28%（这里的单尺度、多尺度是怎么定义的，训练的时候又是怎么训练的？）。图2显示了我们的模型和扩展的FCN在ADE20K上的定性结果。当在训练+验证集中训练单个模型时，默认迭代次数为160,000次，我们的方法在竞争激烈的ADE20K测试服务器排行榜上排名第一。

Results on Pascal Context
表5比较了PASCAL上下文的分割结果。以ResNet-101为主干的扩容FCN实现了45.74%的MIoU。使用相同的培训时间表，我们提出的SETR大大超过了这一基线，实现了54.40%(SETR-PUP)和54.87%(SETR-MLA)的MIoU。在采用多尺度(MS)推理时，SETR-MLA将性能进一步提高到55.83%，以明显的优势超过了最接近的竞争对手APCNet。图3给出了SETR和扩张FCN的一些定性结果。图6中学习的注意图的进一步可视化显示SETR可以注意到语义上有意义的前景区域，展示了它学习对分割有用的区别性特征表示的能力。

表5.PASCAL Context数据集的最新比较。报告了不同模型变体的性能。SS：单量表推理。MS：多尺度推理。

图3.Pascal Context的定性结果：每对中的SETR(右列)与扩展的FCN基线(左列)。最好以彩色和放大方式查看。

图6. SETR培训的注意力映射的示例在Pascal背景上培训。
Results on Cityscapes
表6和表7分别显示了城市景观验证集和测试集的比较结果。我们可以看到，我们的模型SETR-PUP优于FCN基线，以及FCN加基于注意力的方法，如Non-local[48]和CCNet[25]；它的性能与迄今报道的最好结果不相上下。在这个数据集上，我们现在可以与密切相关的Axial-DeepLab[11，47]进行比较，后者旨在使用单独注意力模型，但仍然遵循FCN的基本结构。请注意，Axial-DeepLab设置的输出步幅与我们的相同。然而，它的完全输入分辨率(1024×2048)远远大于我们的裁剪大小768×768，并且它运行的历元(60k迭代，批大小为32)比我们的设置(80k迭代，批大小为8)要多。尽管如此，在城市景观验证集上采用多尺度推理时，我们的模型仍然优于Axial-DeepLab。仅使用精细集，我们的模型(以100k次迭代训练)的性能优于Axial-DeepLab-XL，在测试集上有明显的边界。图4显示了我们的模型和扩展的FCN在城市景观上的定性结果。

表6 在城市景观验证集上进行最先进的比较。报告了不同训练计划(如40k和80k)的性能。SS：单量表推理。MS：多尺度推理。

表7.城市景观测试集的比较。‡：对经过精细和粗略注释的数据进行培训。

5. Conclusion

在这项工作中，我们通过引入序列到序列预测框架，提出了语义分割的另一种视角。与现有的基于FCN的方法不同，现有方法通常在组件级别通过扩展卷积和注意模块来扩大感受野，我们在体系结构级别进行了一步改变，完全消除了对FCN的依赖，并优雅地解决了有限的接受野挑战。我们用Transformers实现了提出的想法，它可以在特征学习的每个阶段对全局上下文进行建模。与一组不同复杂度的解码器设计一起，建立了强分割模型，而不使用最新方法中的任何花哨。广泛的实验表明，我们的模型在ADE20、Pascal上下文和城市景观的竞争结果上设置了新的艺术状态。令人鼓舞的是，我们的方法在提交当天就在竞争激烈的ADE20K测试服务器排行榜上名列第一。