Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspectivewith Transformers(SETR)翻译

爬行程序猿

于 2024-08-05 10:42:18 发布

阅读量439

点赞数 10

文章标签： transformer 计算机视觉深度学习

本文链接：https://blog.csdn.net/wang6562009/article/details/140918796

版权

摘要

最新的语义分割方法采用具有编码器-解码器架构的全卷积网络（FCN）。编码器逐步降低空间分辨率，并学习具有更大感受野的更抽象/语义化的视觉概念。由于上下文建模对分割至关重要，因此最新的研究重点是通过扩张/空洞卷积或插入注意力模块来增大感受野。然而，基于编码器-解码器的FCN架构保持不变。在本文中，我们旨在通过将语义分割视为序列到序列的预测任务来提供一个不同的视角。具体来说，我们部署了一个纯Transformer（即没有卷积和分辨率降低）来将图像编码为一系列补丁。由于Transformer的每一层都对全局上下文进行了建模，因此可以将此编码器与一个简单的解码器相结合，以提供一个强大的分割模型，称为SEgmentation TRansformer（SETR）。大量实验表明，SETR在ADE20K（50.28% mIoU）、Pascal Context（55.83% mIoU）上取得了最新的最优水平，并在Cityscapes上取得了具有竞争力的结果。特别是，在提交当天，我们在竞争激烈的ADE20K测试服务器排行榜上取得了第一名。

1. 引言

自从[36]的开创性工作以来，现有的语义分割模型大多基于全卷积网络（FCN）。一个标准的FCN分割模型具有编码器-解码器架构：编码器用于特征表示学习，而解码器则用于对编码器产生的特征表示进行像素级分类。在这两者中，特征表示学习（即编码器）可以说是最重要的模型组件[8, 28, 57, 60]。编码器，就像大多数其他为图像理解而设计的卷积神经网络（CNN）一样，由堆叠的卷积层组成。由于计算成本的考虑，特征图的分辨率逐渐降低，因此编码器能够学习具有逐渐增大的感受野的更抽象/语义化的视觉概念。这种设计之所以流行，得益于两个优点，即平移等变性和局部性。前者很好地尊重了成像过程的本质[58]，这是模型能够泛化到未见图像数据的基础。而后者则通过跨空间共享参数来控制模型复杂度。然而，这也带来了一个根本性的限制，即学习长距离依赖信息对于无约束场景图像中的语义分割至关重要[2,50]，但由于感受野仍然有限，因此变得具有挑战性。

为了克服上述限制，最近引入了许多方法。一种方法是直接操作卷积运算，包括大内核尺寸[40]、空洞卷积[8, 22]和图像/特征金字塔[60]。另一种方法是将注意力模块集成到FCN架构中。这样的模块旨在模拟特征图中所有像素的全局交互[48]。当应用于语义分割时[25, 29]，常见的设计是将注意力模块与FCN架构相结合，注意力层位于顶部。无论采用哪种方法，标准的编码器-解码器FCN模型架构都保持不变。最近，有人尝试完全摒弃卷积，转而部署仅使用注意力的模型[47]。但是，即使没有卷积，它们也没有改变FCN模型结构的本质：编码器降低输入的空间分辨率，生成用于区分语义类别的低分辨率特征映射，而解码器则将特征表示上采样为全分辨率分割图。在本文中，我们旨在为语义分割模型设计提供一种新思路，并贡献一种替代方案。特别是，我们建议用纯Transformer[45]替换基于堆叠卷积层的编码器，该编码器逐渐降低空间分辨率，从而得到一种新的分割模型，称为SEgmentation Transformer（SETR）。这种仅使用Transformer的编码器将输入图像视为由学习的补丁嵌入表示的图像补丁序列，并通过全局自注意力建模来转换该序列，以进行判别性特征表示学习。具体来说，我们首先将图像分解为固定大小的补丁网格，形成一个补丁序列。将每个补丁的展平像素向量应用线性嵌入层后，我们得到一系列特征嵌入向量作为Transformer的输入。给定来自编码器Transformer的学习特征，然后使用解码器来恢复原始图像分辨率。至关重要的是，在编码器Transformer的每一层中都没有空间分辨率的下采样，但进行了全局上下文建模，从而为语义分割问题提供了一个全新的视角。

这种纯Transformer设计受到其在自然语言处理（NLP）中巨大成功的启发[15,45]。最近，纯视觉Transformer或ViT[17]已被证明在图像分类任务中有效。这直接证明了传统的堆叠卷积层（即CNN）设计是可以挑战的，并且图像特征不一定需要通过降低空间分辨率来从局部到全局逐渐学习。然而，将纯Transformer从图像分类扩展到对空间位置敏感的语义分割任务并非易事。我们凭经验证明，SETR不仅为模型设计提供了一种新思路，而且在多个基准测试中达到了最新的最优水平。本文的主要贡献如下：（1）我们从序列到序列学习的角度重新定义了图像语义分割问题，为占主导地位的编码器-解码器FCN模型设计提供了一种替代方案。（2）作为实例化，我们利用Transformer框架，通过序列化图像来实现我们的全注意力特征表示编码器。（3）为了广泛考察自注意力特征表示，我们进一步引入了三种不同复杂度的解码器设计。广泛的实验表明，与具有和不具有注意力模块的不同FCN相比，我们的SETR模型能够学习更优越的特征表示，在ADE20K（50.28%）、Pascal Context（55.83%）上达到了最新的最优水平，并在Cityscapes上取得了具有竞争力的结果。特别地，我们的参赛作品在竞争激烈的ADE20K测试服务器排行榜上排名第一。

2.相关工作

语义分割：随着深度神经网络的发展，语义图像分割得到了显著提升。通过移除全连接层，全卷积网络（FCN）[36]能够实现像素级预测。虽然FCN的预测结果相对粗糙，但开发了几种基于CRF/MRF[6, 35, 62]的方法来帮助细化这些粗糙预测。为了解决语义和位置之间的固有矛盾[36]，需要对编码器和解码器的粗层和细层进行聚合。这导致了编码器-解码器结构的不同变体[2, 38, 42]，用于多级特征融合。

许多最近的研究工作都集中在解决FCN中感受野有限/上下文建模问题。为了扩大感受野，DeepLab[7]和Dilation[53]引入了空洞卷积。另外，上下文建模是PSPNet[60]和DeepLabV2[9]的焦点。前者提出了PPM模块来获取不同区域的上下文信息，而后者开发了ASPP模块，该模块采用具有不同扩张率的金字塔空洞卷积。还利用分解的大内核[40]进行上下文捕获。最近，基于注意力的模型在捕获长距离上下文信息方面很受欢迎。PSANet[61]开发了逐点空间注意力模块，用于动态捕获长距离上下文。DANet[18]嵌入了空间注意力和通道注意力。CCNet[26]则专注于减少由全空间注意力引入的繁重计算预算。DGMN[57]构建了一个动态图消息传递网络用于场景建模，可以显著降低计算复杂度。请注意，所有这些方法仍然基于FCN，其中特征编码和提取部分基于经典的卷积神经网络，如VGG[43]和ResNet[20]。在本文中，我们从不同的角度对语义分割任务进行了重新思考。

Transformer：Transformer和自注意力模型彻底改变了机器翻译和自然语言处理（NLP）[14,15,45,51]。最近，也有一些关于在图像识别中使用Transformer结构的研究。Non-local网络[48]在卷积主干上附加了Transformer风格的注意力。AANet[3]将卷积和自注意力混合用于主干训练。LRNet[24]和独立网络[41]探索了局部自注意力，以避免全局自注意力带来的繁重计算。SAN[59]探索了两种类型的自注意力模块。Axial-Attention[47]将全局空间注意力分解为两个独立的轴向注意力，从而大大减少了计算量。除了这些基于纯Transformer的模型外，还有CNN-Transformer混合模型。DETR[5]及其后续的可变形版本利用Transformer进行目标检测，其中变Transformer被附加在检测头内部。STTR[32]和LSTR[34]分别采用Transformer进行视差估计和车道形状预测。最近，ViT[17]是第一个展示基于纯Transformer的图像分类模型可以达到最先进水平的工作。它为在语义分割模型中利用基于纯Transformer的编码器设计提供了直接灵感。

最相关工作：与我们的工作最相关的是[47]，它也利用注意力进行图像分割。然而，有几个关键差异。首先，尽管[47]和我们的SETR一样完全移除了卷积，但他们的模型仍然遵循传统的FCN设计，即特征图的空间分辨率逐渐降低。相比之下，我们的序列到序列预测模型在整个过程中保持相同的空间分辨率，从而在模型设计上实现了根本性的变化。其次，为了最大限度地提高在现代硬件加速器上的可扩展性并便于使用，我们坚持使用标准的自注意力设计。相反，[47]采用了专门设计的轴向注意力[21]，这种注意力对标准计算设施的可扩展性较差。我们的模型在分割精度上也优于[47]（见第4节）。

3. 方法

3.1 基于FCN的语义分割

为了与我们的新模型设计进行对比，我们首先回顾一下传统的FCN[36]在图像语义分割中的应用。FCN编码器由一系列顺序连接的卷积层组成。第一层以图像作为输入，表示为H×W×3，其中H×W指定了图像的像素大小。后续层i的输入是一个三维张量，大小为h×w×d，其中h和w是特征图的空间维度，d是特征/通道维度。更高层中张量的位置是根据所有较低层张量的位置通过逐层卷积计算得出的，这些卷积定义了它们的感受野。由于卷积操作的局部性，感受野随着层数的增加而线性增加，这取决于卷积核的大小（通常是3×3）。因此，在这种FCN架构中，只有具有较大感受野的更高层才能建模长距离依赖关系。然而，研究表明，一旦达到一定深度，增加更多层的收益会迅速减少[20]。因此，上下文建模中感受野有限是原始FCN架构的一个固有局限性。

最近，许多最先进的方法[25, 56, 57]表明，将FCN与注意力机制相结合是学习长距离上下文信息的更有效策略。这些方法由于特征张量像素数量的二次复杂性，将注意力学习限制在具有较小输入大小的较高层上。这意味着较低层特征张量的依赖关系学习不足，导致次优的表示学习。为了克服这一局限性，我们提出了一种基于纯自注意力的编码器，命名为SEgmentation TRansformers（SETR）。

3.2 分割Transformer（SETR）

图像到序列 SETR遵循与NLP中相同的输入输出结构，用于一维序列之间的转换。因此，二维图像和一维序列之间存在不匹配。具体来说，如图1(a)所示，Transformer接受一个长度为L、通道大小为C的特征嵌入序列Z∈RL×C作为输入。因此，需要将输入图像x∈RH×W×3转换为Z。

图像序列化的一种直接方法是将图像像素值展平为一维向量，大小为3HW。对于典型大小为480(H)×480(W)×3的图像，结果向量的长度将为691,200。鉴于Transformer的二次模型复杂性，这样的高维向量在空间和时间上都是无法处理的。因此，将每个像素作为Transformer的输入是不可能的。

考虑到为语义分割设计的典型编码器会将二维图像x∈RH×W×3下采样为特征图xf∈R16H×W16×C，我们决定将Transformer输入序列长度L设置为H/16×W/16=HW/256。这样，Transformer器的输出序列可以简单地重塑为目标特征图xf。

为了获得长度为HW/256的输入序列，我们将图像x∈RH×W×3均匀分割成16/H×W/16的网格，然后将该网格展平为序列。通过进一步将每个向量化补丁p映射到潜在的C维嵌入空间中，使用线性投影函数f: p ---> e∈RC，我们获得了一个图像的一维补丁嵌入序列。为了编码补丁的空间信息，我们为每个位置i学习一个特定的嵌入pi，并将其添加到ei中以形成最终的序列输入E={e1+p1, e2+p2, ..., eL+pL}。这样，尽管Transformer具有无序自注意力的特性，但空间信息仍然得以保留。

给定1D嵌入序列E作为输入，我们采用一个基于纯Transformer的编码器来学习特征表示。这意味着每个Transformer层都具有全局感受野，从而一次性地解决了现有FCN编码器感受野有限的问题。Transformer编码器由多层多头自注意力（MSA）和多层感知机（MLP）块组成，共有Le层（如图1(a)所示）。在每一层l中，自注意力的输入是由前一层的输出Zl-1（大小为RL×C）计算得到的三元组（查询、键、值）：

其中，WQ/WK/WV ∈ RC×d 是三个线性投影层的可学习参数，d 是（查询、键、值）的维度。然后，自注意力（SA）被定义为：

MSA是多头自注意力（Multi-Head Self-Attention）的缩写，它是通过执行m次独立的自注意力（SA）操作，并将它们的输出拼接起来的一种扩展形式：

d is typically set to C=m

多头自注意力（MSA）的输出随后通过一个多层感知机（MLP）块进行转换，并添加残差连接作为该层的输出，具体形式为：

注意，为了简化表示，这里省略了在多头自注意力（MSA）和多层感知机（MLP）块之前应用的层归一化。我们用来表示Transformer各层的特征。

3.3 解码器设计

为了评估SETR编码器特征表示Z的有效性，我们引入了三种不同的解码器设计来进行像素级分割。由于解码器的目标是生成原始2D图像空间（H × W）中的分割结果，我们需要将编码器用于解码器的特征Z从2D形状HW/256 × C重塑为标准3D特征图H/16 × W/16 × C。接下来，我们简要描述这三种解码器。

（1）简单上采样（Naive）
这种简单的解码器首先将变换器特征ZLe投影到类别数量的维度上（例如，对于Cityscapes实验为19）。为此，我们采用了一个简单的2层网络架构：1×1卷积+同步批量归一化（带ReLU激活函数）+1×1卷积。之后，我们简单地将输出双线性上采样到完整图像分辨率，然后应用一个分类层，并使用逐像素交叉熵损失。当使用此解码器时，我们将我们的模型称为SETR-Native。

（2）渐进式上采样（PUP）
与可能引入噪声预测的一步上采样不同，我们考虑了一种渐进式上采样策略，该策略交替使用卷积层和上采样操作。为了最大限度地减少不利影响，我们将上采样限制为2倍。因此，从大小为H/16 × W/16的ZLe达到完整分辨率总共需要4次操作。此过程的更多详细信息如图1(b)所示。当使用此解码器时，我们将我们的模型称为SETR-PUP。

（3）多级特征聚合（MLA）
第三种设计的特点是多级特征聚合（如图1(c)所示），其精神与特征金字塔网络[27, 33]相似。然而，我们的解码器在根本上是不同的，因为SETR每一层的特征表示Zl具有相同的分辨率，而没有金字塔形状。具体来说，我们将从均匀分布在层中的M层（步长为LMe）中提取的特征表示{Zm}（m ∈ {LMe, 2LMe, ..., M×LMe}）作为解码器的输入。然后部署M个流，每个流专注于一个特定的选定层。在每个流中，我们首先将编码器特征Zl从2D形状HW/256 × C重塑为3D特征图H/16 × W/16 × C。然后应用一个3层（内核大小为1×1、3×3和3×3）网络，其中第一层和第三层的特征通道数减半，并在第三层之后通过双线性操作将空间分辨率上采样4倍。为了增强不同流之间的交互，我们在第一层之后通过逐元素加法引入了自上而下的聚合设计。在逐元素加法特征之后，应用了一个额外的3×3卷积。在第三层之后，我们通过通道级联获得来自所有流的融合特征，然后将其双线性上采样4倍到完整分辨率。当使用此解码器时，我们将我们的模型称为SETR-MLA。

4. 实验

4.1 实验设置

我们在三个广泛使用的语义分割基准数据集上进行了实验。

Cityscapes[13]在城市场景图像中密集标注了19个对象类别。它包含5000张精细标注的图像，分为2975张训练图像、500张验证图像和1525张测试图像。所有图像均以2048×1024的高分辨率捕获。此外，它还提供了19,998张粗略标注的图像用于模型训练。

ADE20K[63]是一个具有挑战性的场景解析基准，包含150个细粒度的语义概念。它包含20,210张训练图像、2,000张验证图像和3,352张测试图像。

PASCAL Context[37]为整个场景（包括“事物”和“物质”类别）提供了像素级语义标签，包含4,998张训练图像和5,105张验证图像。遵循以前的工作，我们在最常见的59个类别和背景类别（总共60个类别）上进行了评估。

实现细节 我们遵循公共代码库mmsegmentation[39]的默认设置（例如，数据增强和训练计划）：（i）我们在所有实验中，在训练期间应用了随机调整大小（比例在0.5到2之间）、随机裁剪（Cityscapes为768×768，ADE20K为512×512，Pascal Context为480×480）和随机水平翻转；（ii）我们将ADE20K和Pascal Context实验的批量大小设置为16，总迭代次数分别设置为160,000和80,000。对于Cityscapes，我们将批量大小设置为8，并报告了表2、6和7中的不同训练计划，以便进行公平比较。我们采用多项式学习率衰减计划[60]，并使用SGD作为优化器。对于三个数据集上的所有实验，动量和权重衰减分别设置为0.9和0。我们在ADE20K和Pascal Context上的初始学习率设置为0.001，在Cityscapes上设置为0.01。

辅助损失 与[60]类似，我们也发现辅助分割损失有助于模型训练。每个辅助损失头后面跟着一个2层网络。我们在不同的变换器层上添加辅助损失：SETR-Native（Z10, Z15, Z20）、SETR-PUP（Z10, Z15, Z20, Z24）、SETR-MLA（Z6, Z12, Z18, Z24）。辅助损失和主损失头同时应用。

多尺度测试 我们使用mmsegmentation[39]的默认设置。具体来说，首先将输入图像缩放到统一大小。然后对图像进行多尺度缩放和随机水平翻转，缩放因子为（0.5, 0.75, 1.0, 1.25, 1.5, 1.75）。对于测试，采用滑动窗口（例如，Pascal Context为480×480）。如果图像的较短边小于滑动窗口的大小，则将图像按比例缩放到滑动窗口的大小（例如，480），同时保持纵横比。在解码器和辅助损失头中使用同步批量归一化。为了简化训练，我们在模型训练中没有采用广泛使用的技巧，如OHEM[55]损失。

基线模型 我们采用空洞FCN[36]和Semantic FPN[27]作为基线模型，其结果取自[39]。我们的模型和基线模型在同一设置下训练和测试，以便进行公平比较。此外，还与最先进的模型进行了比较。请注意，空洞FCN的输出步长为8，而由于GPU内存限制，我们在所有模型中使用输出步长为16。

SETR变体 我们的模型有三种不同解码器设计的变体（见第3.3节），即SETR-Naive、SETR-PUP和SETR-MLA。此外，我们使用两种编码器变体“T-Base”和“T-Large”，分别具有12层和24层（见表1）。除非另有说明，否则我们在SETR-Naive、SETR-PUP和SETR-MLA中使用“T-Large”作为编码器。我们将使用“T-Base”的SETR-Naive称为SETR-Naive-Base。

尽管我们设计的是一个具有纯变换器编码器的模型，但我们还设置了一个混合基线Hybrid，该基线使用基于ResNet-50的FCN编码器，并将其输出特征输入到SETR中。为了应对GPU内存限制并进行公平比较，我们仅在Hybrid中考虑“T-Base”，并将FCN的输出步长设置为1/16。即Hybrid是ResNet-50和SETR-Naive-Base的组合。

预训练 我们使用ViT[17]或DeiT[44]提供的预训练权重来初始化我们模型中的所有变换器层和输入线性投影层。我们将使用DeiT[44]预训练的SETR-Naive-Base称为SETR-Naive-DeiT。所有未进行预训练的层都是随机初始化的。对于Hybrid的FCN编码器，我们使用在ImageNet-1k上预训练的初始权重。对于变换器部分，我们使用ViT[17]、DeiT[44]预训练的权重或随机初始化。我们在所有实验中使用16×16的补丁大小。我们根据补丁在原始图像中的位置，对预训练的位置嵌入进行二维插值，以适应不同输入大小的微调。

评估指标 遵循标准评估协议[13]，报告所有类别的平均交并比（mIoU）。对于ADE20K，还根据现有实践报告像素级精度。

4.2 消融实验

表2和表3展示了关于（a）不同SETR变体在不同训练计划上的消融研究，（b）与FCN[39]和Semantic FPN[39]的比较，（c）在不同数据上的预训练，（d）与Hybrid的比较，（e）与具有不同预训练的FCN的比较。除非另有说明，否则表2和表3中的所有实验均在Cityscapes训练精细集上进行训练，批量大小为8，并在Cityscapes验证集上使用单尺度测试协议以平均IoU（%）进行评估。ADE20K上的实验也遵循单尺度测试协议。

从表2中，我们可以得出以下观察结果：

（i）通过逐步上采样特征图，SETR-PUP在Cityscapes上的所有变体中表现最佳。SETR-MLA性能较差的一个可能原因是，不同变换器层的特征输出没有特征金字塔网络（FPN）中分辨率金字塔的好处（见图5）。然而，在ADE20K验证集上，SETR-MLA的表现略优于SETR-PUP，并且远优于一次性将变换器输出特征上采样16倍的SETR-Naive变体（见表3和表4）。

（ii）使用“T-Large”的变体（例如，SETR-MLA和SETR-Naive）优于其“T-Base”对应变体，即SETR-MLA-Base和SETR-Naive-Base，这是预期之中的。

（iii）虽然我们的SETR-PUP-Base（76.71%）在训练迭代次数较少时性能不如Hybrid-Base（76.76%），但在更多迭代次数（80k）下表现优异（78.02%）。这表明FCN编码器设计可以在语义分割中被替换，并进一步证实了我们的模型的有效性。

（iv）预训练对我们的模型至关重要。随机初始化的SETR-PUP在Cityscapes上仅给出42.27%的mIoU。在ImageNet-1K上使用DeiT[44]预训练的模型在Cityscapes上表现最佳，略优于在ImageNet-21K上使用ViT[17]预训练的模型。

（v）为了研究预训练的力量并进一步验证我们提出方法的有效性，我们在表3中对预训练策略进行了消融研究。为了与FCN基线进行公平比较，我们首先在ImageNet-21k数据集上对ResNet-101进行预训练，以执行分类任务，然后将预训练权重用于空洞FCN训练，以在ADE20K或Cityscapes上进行语义分割任务。表3显示，与在ImageNet-1k上预训练的变体相比，在ImageNet-21k上预训练的FCN基线经历了明显的改进。然而，我们的方法大幅优于FCN对应物，验证了我们的方法优势主要来自所提出的序列到序列建模策略，而不仅仅是更大的预训练数据。

4.3 与最先进方法的比较

ADE20K上的结果：表4展示了我们在更具挑战性的ADE20K数据集上的结果。我们的SETR-MLA在单尺度（SS）推理下实现了48.64%的优异mIoU。当采用多尺度推理时，我们的方法达到了新的最先进水平，mIoU达到50.28%。图2展示了我们的模型和空洞FCN在ADE20K上的定性结果。当在训练+验证集上使用默认的160,000次迭代训练单个模型时，我们的方法在竞争激烈的ADE20K测试服务器排行榜上排名第一。

Pascal Context上的结果：表5比较了Pascal Context上的分割结果。具有ResNet-101主干的空洞FCN实现了45.74%的mIoU。使用相同的训练计划，我们提出的SETR显著优于该基线，分别实现了54.40%（SETR-PUP）和54.87%（SETR-MLA）的mIoU。当采用多尺度（MS）推理时，SETR-MLA的性能进一步提高到55.83%，明显优于最接近的竞争对手APCNet。图3给出了一些SETR和空洞FCN的定性结果。图6中进一步可视化了学习到的注意力图，表明SETR能够关注到语义上有意义的前景区域，证明了其学习有利于分割的判别性特征表示的能力。

Cityscapes上的结果：表6和表7分别展示了Cityscapes验证集和测试集上的比较结果。可以看出，我们的模型SETR-PUP优于FCN基线以及基于FCN和注意力的方法（如Non-local[48]和CCNet[25]），其性能与迄今为止报告的最佳结果相当。在这个数据集上，我们现在可以与密切相关的Axial-DeepLab[12, 47]进行比较，该模型旨在使用纯注意力模型，但仍遵循FCN的基本结构。请注意，Axial-DeepLab设置的输出步长与我们相同，为16，但其完整输入分辨率（1024×2048）远大于我们的裁剪大小768×768，并且它运行了更多轮次（60k迭代，批量大小为32），而我们的设置是80k迭代，批量大小为8。然而，当在Cityscapes验证集上采用多尺度推理时，我们的模型仍然优于Axial-DeepLab。仅使用精细集时，我们的模型（训练了100k迭代）在测试集上的表现明显优于Axial-DeepLab-XL。图4展示了我们的模型和空洞FCN在Cityscapes上的定性结果。

5. 结论

在这项工作中，我们通过引入序列到序列预测框架，为语义分割提供了一种替代视角。与现有基于FCN的方法不同，这些方法通常在组件级别通过空洞卷积和注意力模块来扩大感受野，我们在架构层面进行了根本性的改变，完全消除了对FCN的依赖，并优雅地解决了感受野有限的问题。我们使用变换器实现了所提出的思想，变换器可以在特征学习的每个阶段都建模全局上下文。结合一系列不同复杂度的解码器设计，我们建立了强大的分割模型，而无需部署最近方法中的任何花哨技巧。广泛的实验表明，我们的模型在ADE20K和Pascal Context上达到了最先进水平，并在Cityscapes上取得了具有竞争力的结果。令人鼓舞的是，我们的方法在提交当天在竞争激烈的ADE20K测试服务器排行榜上排名第一。

爬行程序猿

关注

10
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspectivewith Transformers(SETR)翻译

最新的语义分割方法采用具有编码器-解码器架构的全卷积网络（FCN）。编码器逐步降低空间分辨率，并学习具有更大感受野的更抽象/语义化的视觉概念。由于上下文建模对分割至关重要，因此最新的研究重点是通过扩张/空洞卷积或插入注意力模块来增大感受野。然而，基于编码器-解码器的FCN架构保持不变。在本文中，我们旨在通过将语义分割视为序列到序列的预测任务来提供一个不同的视角。具体来说，我们部署了一个纯Transformer（即没有卷积和分辨率降低）来将图像编码为一系列补丁。
复制链接

扫一扫