第二章：DeepLabV3+——采用空洞可分离卷积的编码器-解码器用于语义图像分割

Joney Feng

已于 2023-08-02 12:05:37 修改

阅读量2k

点赞数 1

文章标签：人工智能神经网络 cnn

于 2023-07-13 17:12:20 首次发布

本文链接：https://blog.csdn.net/ADICDFHL/article/details/131706090

版权

原文信息

原问题目：《Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation》

原文引用：Chen L C, Zhu Y, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 801-818.

2018年9月

原文链接：https://openaccess.thecvf.com/content_ECCV_2018/papers/Liang-Chieh_Chen_Encoder-Decoder_with_Atrous_ECCV_2018_paper.pdfhttps://openaccess.thecvf.com/content_ECCV_2018/papers/Liang-Chieh_Chen_Encoder-Decoder_with_Atrous_ECCV_2018_paper.pdf

0.摘要

在深度神经网络中，空间金字塔池化模块或编码-解码结构被用于语义分割任务。前者通过在多个速率和多个有效视野下使用滤波器或池化操作来编码多尺度的上下文信息，而后者则通过逐渐恢复空间信息来捕捉更清晰的物体边界。在本文中，我们提出将两种方法的优点相结合。具体而言，我们提出的模型DeepLabv3+在DeepLabv3的基础上添加了一个简单但有效的解码器模块，以改进分割结果，特别是沿着物体边界的部分。我们进一步探索了Xception模型，并将深度可分离卷积应用于空洞空间金字塔池化和解码器模块，从而实现了更快速、更强大的编码-解码网络。我们在PASCAL VOC 2012和Cityscapes数据集上验证了所提出模型的有效性，在没有任何后处理的情况下，分别达到了89.0%和82.1%的测试集性能。我们的论文附带了在Tensorflow中公开可用的所提出模型的参考实现，网址为https://github.com/tensorflow/models/tree/master/research/deeplab。

关键词：语义图像分割、空间金字塔池化、编码解码、深度可分离卷积。

1.引言

语义分割是计算机视觉中的基本问题之一，其目标是为图像中的每个像素分配语义标签[1,2,3,4,5]。基于完全卷积神经网络[8,11]的深度卷积神经网络[6,7,8,9,10]相较于依赖手工特征[12,13,14,15,16,17]的系统在基准任务上显示出显著的改进。在本文中，我们考虑了两种用于语义分割的神经网络类型，其中一种使用空间金字塔池化模块[18,19,20]，另一种使用编码-解码结构[21,22]，前者通过在不同分辨率下对特征进行池化来捕捉丰富的上下文信息，而后者能够获得清晰的物体边界。为了在多个尺度上捕捉上下文信息，DeepLabv3 [23]应用了几个并行的带孔卷积（称为ASPP，Atrous Spatial Pyramid Pooling），而PSPNet [24]在不同的网格尺度上执行池化操作。尽管丰富的语义信息被编码在最后的特征图中，但由于网络主干中的池化或卷积操作的步幅，与物体边界相关的详细信息丢失了。通过应用带孔卷积来提取更密集的特征图可以缓解这个问题。然而，鉴于现有的神经网络设计[7,9,10,25,26]和有限的GPU内存，在提取比输入分辨率小8倍甚至4倍的输出特征图时，计算成本是不可接受的。以ResNet-101 [25]为例，当应用带孔卷积来提取比输入分辨率小16倍的输出特征时，需要扩张最后3个残差块（9层）。更糟糕的是，如果需要比输入小8倍的输出特征，则会影响到26个残差块（78层！）。因此，在这类模型中提取更密集的输出特征是计算密集型的。另一方面，编码-解码模型[21,22]在编码路径中具有更快的计算速度（因为没有扩张的特征），并在解码路径中逐渐恢复清晰的物体边界。为了充分发挥两种方法的优势，我们提出通过引入多尺度上下文信息来丰富编码器模块的编码-解码网络。

特别是我们提出的模型，称为DeepLabv3+，通过添加一个简单但有效的解码器模块来扩展DeepLabv3 [23]，以恢复物体边界，如图1所示。丰富的语义信息被编码在DeepLabv3的输出中，带孔卷积可以控制编码器特征的密度，具体取决于计算资源的预算。此外，解码器模块允许详细的物体边界恢复。受到深度可分离卷积[27,28,26,29,30]的最近成功的启发，我们还探索了这种操作，并通过适应Xception模型[26]（类似于[31]）来进行语义分割任务，并将带孔可分离卷积应用于ASPP和解码器模块。最后，我们在PASCAL VOC 2012和Cityscapes数据集上展示了所提出模型的有效性，并在没有任何后处理的情况下获得了89.0%和82.1%的测试集性能，创造了新的最先进水平。

总结起来，我们的贡献有：

我们提出了一种新颖的编码器-解码器结构，其中采用DeepLabv3作为强大的编码器模块，以及一个简单但有效的解码器模块。
在我们的结构中，通过带孔卷积可以任意控制提取的编码器特征的分辨率，以在精度和运行时间之间进行权衡，这是现有的编码器-解码器模型所不具备的。
我们将Xception模型适应于分割任务，并将深度可分离卷积应用于ASPP模块和解码器模块，从而实现了更快速和更强大的编码器-解码器网络。
我们的提出模型在PASCAL VOC 2012和Cityscapes数据集上取得了新的最先进性能。我们还对设计选择和模型变体进行了详细的分析。
我们基于Tensorflow实现的提出模型公开在https://github.com/tensorflow/models/tree/master/research/deeplab 上供大家使用。

图1。我们改进了采用空间金字塔池化模块（a）的DeepLabv3，引入了编码器-解码器结构（b）。提出的模型DeepLabv3+通过编码器模块获得了丰富的语义信息，而简单而有效的解码器模块恢复了详细的目标边界。编码器模块允许我们通过应用带孔卷积来以任意分辨率提取特征。

2.相关工作

基于全卷积网络（FCN）的模型[8,11]在几个分割基准测试中取得了显著的改进[1,2,3,4,5]。已经提出了几种模型变体来利用上下文信息进行分割[12,13,14,15,16,17,32,33]，包括使用多尺度输入（即图像金字塔）[34,35,36,37,38,39]或采用概率图模型（例如，具有高效推理算法的DenseCRF [40]）[42,43,44,37,45,46,47,48,49,50,51,39]。在这项工作中，我们主要讨论使用空间金字塔池化和编码器-解码器结构的模型。

空间金字塔池化：模型，如PSPNet [24]或DeepLab [39,23]，在几个网格尺度（包括图像级池化[52]）上执行空间金字塔池化[18,19]，或者应用具有不同采样率的多个并行带孔卷积（称为Atrous Spatial Pyramid Pooling，或ASPP）。通过利用多尺度信息，这些模型在几个分割基准测试中显示出了令人期待的结果。

编码器-解码器：编码器-解码器网络已成功应用于许多计算机视觉任务，包括人体姿势估计[53]、目标检测[54,55,56]和语义分割[11,57,21,22,58,59,60,61,62,63,64]。通常，编码器-解码器网络包含：

（1）编码器模块，逐渐减少特征图并捕捉更高的语义信息；

（2）解码器模块，逐渐恢复空间信息。在这个基础上，我们提出使用DeepLabv3 [23]作为编码器模块，并添加一个简单但有效的解码器模块以获得更清晰的分割结果。

深度可分离卷积：深度可分离卷积[27,28]或组卷积[7,65]是一种强大的操作，可以减少计算成本和参数数量，同时保持类似（或稍微更好的）性能。这种操作已经在许多最近的神经网络设计中得到应用[66,67,26,29,30,31,68]。特别是，我们探索了Xception模型[26]，与[31]类似，用于COCO 2017检测挑战的提交，并展示了在语义分割任务中精度和速度方面的改进。

图2。我们提出的DeepLabv3+通过采用编码器-解码器结构扩展了DeepLabv3。编码器模块通过在多个尺度上应用带孔卷积来编码多尺度的上下文信息，而简单而有效的解码器模块则在目标边界上对分割结果进行了优化。

3 方法

在本节中，我们简要介绍了带孔卷积 [69,70,8,71,42]和深度可分离卷积 [27,28,67,26,29]，然后回顾了DeepLabv3 [23]，该模型被用作我们的编码器模块，然后讨论了附加到编码器输出的提出的解码器模块。我们还提出了修改过的Xception模型 [26,31]，它通过更快的计算进一步提高了性能。

3.1 带孔卷积的编码器-解码器

带孔卷积：带孔卷积是一种强大的工具，可以通过深度卷积神经网络来明确控制特征的分辨率，并调整滤波器的视野，以捕捉多尺度信息，从而推广了标准卷积操作。对于二维信号的情况，对于输出特征图 y 上的每个位置 i 和卷积滤波器 w，带孔卷积在输入特征图 x 上的应用如下：其中，带孔率 r 决定了我们对输入信号进行采样的步长。对于更多细节，请参阅[39]。请注意，标准卷积是带孔率 r = 1 的特殊情况。通过改变带孔率的值，可以自适应地修改滤波器的视野。

深度可分离卷积：深度可分离卷积将标准卷积分解为深度卷积和逐点卷积（即1×1卷积），极大地减少了计算复杂度。具体而言，深度卷积独立地对每个输入通道进行空间卷积，而逐点卷积则用于合并深度卷积的输出。在TensorFlow [72]的深度可分离卷积实现中，带孔卷积被支持在深度卷积（即空间卷积）中，如图3所示。在本工作中，我们将结果卷积称为带孔可分离卷积，并发现带孔可分离卷积在保持类似（或更好）性能的同时，显著降低了提出模型的计算复杂度。

DeepLabv3作为编码器：DeepLabv3 [23]采用带孔卷积 [69,70,8,71]在任意分辨率上提取由深度卷积神经网络计算的特征。在这里，我们将输出步幅定义为输入图像的空间分辨率与最终输出分辨率（在全局池化或全连接层之前）的比值。对于图像分类任务，最终特征图的空间分辨率通常比输入图像分辨率小32倍，因此输出步幅=32。对于语义分割任务，可以通过移除最后一个（或两个）块的步幅，并相应地应用带孔卷积（例如，对于输出步幅=8，我们分别对最后两个块应用率=2和率=4）。此外，DeepLabv3通过引入图像级特征 [52]扩展了带孔空间金字塔池化模块，该模块通过应用具有不同率的带孔卷积在多个尺度上探测卷积特征。我们在提出的编码器-解码器结构中使用原始DeepLabv3中logits之前的最后一个特征图作为编码器的输出。请注意，编码器输出特征图包含256个通道和丰富的语义信息。此外，根据计算预算，可以通过应用带孔卷积在任意分辨率上提取特征。

提出的解码器：DeepLabv3中的编码器特征通常是使用输出步幅=16计算的。在[23]的工作中，特征通过双线性插值上采样了16倍，这可以被认为是一个简单的解码器模块。然而，这个简单的解码器模块可能无法成功恢复对象分割的细节。因此，我们提出了一个简单但有效的解码器模块，如图2所示。编码器特征首先通过双线性插值上采样4倍，然后与网络骨干相应的低级特征[73]进行级联，这些低级特征具有相同的空间分辨率（例如，在ResNet-101 [25]中进行步幅之前的Conv2）。我们对低级特征应用另一个1×1卷积来减少通道数，因为相应的低级特征通常包含大量通道（例如256或512），这可能超过了丰富的编码器特征的重要性（我们的模型中仅有256个通道）并使训练变得更加困难。在级联之后，我们应用几个3×3卷积来细化特征，然后再通过4倍的简单双线性上采样。我们在第4节中展示，对于编码器模块，使用输出步幅=16可以在速度和准确性之间取得最佳平衡。使用输出步幅=8时，尽管会增加额外的计算复杂度，但性能略有提高。

图3.3×3深度可分离卷积将标准卷积分解为(a)深度卷积（为每个输入通道应用一个滤波器）和(b)逐点卷积（将深度卷积的输出在通道上进行组合）。在本工作中，我们探索了带孔可分离卷积，其中带孔卷积被应用于深度卷积中，如图(c)所示，其中rate =2。

3.2 修改后的Aligned Xception

Xception模型[26]在ImageNet[74]上展现了有希望的图像分类结果，并具有快速计算能力。最近，微软亚洲研究院（MSRA）团队[31]对Xception模型进行了修改（称为Aligned Xception），在目标检测任务中进一步提高了性能。受到这些发现的启发，我们在同样的方向上将Xception模型适应到语义图像分割的任务上。具体来说，我们在MSRA的修改基础上进行了一些额外的改变，即

(1)深层Xception，与[31]中的相同，除了我们没有修改入口流网络结构以实现快速计算和内存效率，

(2)所有的最大池化操作被带步幅的深度可分离卷积所替代，这使我们能够应用带孔可分离卷积在任意分辨率下提取特征图（另一种选择是将带孔算法扩展到最大池化操作），

(3)在每个3×3深度可分离卷积之后添加额外的批归一化[75]和ReLU激活，类似于MobileNet设计[29]。详见图4。

图4.我们对Xception进行了以下修改：(1)增加了更多的层（与MSRA的修改相同，除了入口流的改变），(2)将所有的最大池化操作替换为带步幅的深度可分离卷积，(3)在每个3×3深度可分离卷积之后添加了额外的批归一化和ReLU激活，类似于MobileNet。

4.实验评估

我们使用ImageNet-1k [74]预训练的ResNet-101 [25]或修改后的Aligned Xception [26,31]来通过带孔卷积提取密集的特征图。我们的实现基于TensorFlow [72]，并已公开提供。我们在PASCAL VOC 2012语义分割基准测试集[1]上评估了提出的模型，该数据集包含20个前景对象类别和一个背景类别。原始数据集包含1,464张（训练集）、1,449张（验证集）和1,456张（测试集）像素级注释图像。我们通过[76]提供的额外注释来增加数据集，结果得到10,582张（增强训练集）训练图像。性能以平均交并比（mIOU）来衡量，该指标在21个类别上进行像素级别的平均。我们遵循与[23]相同的训练协议，并将感兴趣的读者参考[23]了解详细信息。简而言之，我们采用相同的学习率调度（即“poly”策略[52]和相同的初始学习率0.007），裁剪尺寸为513×513，在输出步幅为16时微调批归一化参数[75]，并在训练期间进行随机尺度数据增强。请注意，我们还在提出的解码器模块中包括批归一化参数。我们的提出的模型是端到端训练的，没有对每个组件进行分段预训练。

4.1解码器设计选择

我们将“DeepLabv3特征图”定义为由DeepLabv3计算的最后一个特征图（即包含ASPP特征和图像级特征的特征）。而[k×k;f]表示使用k×k大小的卷积核和f个滤波器的卷积操作。当使用输出步幅为16时，基于ResNet-101的DeepLabv3 [23]在训练和评估过程中通过双线性插值将logits（预测结果）上采样16倍。这种简单的双线性上采样可以被视为一种简单的解码器设计，其在PASCAL VOC 2012验证集上取得了77.21％的性能[23]，比在训练过程中不使用这种简单解码器（即在训练过程中对groundtruth进行下采样）要好1.2％。为了改进这个简单的基线，我们提出的模型“DeepLabv3+”在编码器输出的基础上添加了解码器模块，如图2所示。在解码器模块中，我们考虑了三个位置的不同设计选择，即（1）使用1×1卷积来减少来自编码器模块的低级特征图的通道数，（2）使用3×3卷积来获得更清晰的分割结果，以及（3）应该使用哪些编码器低级特征。

为了评估解码器模块中的1×1卷积的效果，我们采用了[3×3;256]和来自ResNet-101网络骨干的Conv2特征，即res2x残差块中的最后一个特征图（具体来说，我们使用的是步幅之前的特征图）。如表1所示，将来自编码器模块的低级特征图的通道数减少到48或32可以获得更好的性能。因此，我们采用了[1×1;48]进行通道减少。然后，我们设计了解码器模块的3×3卷积结构，并在表2中报告了相关发现。我们发现，在将Conv2特征图（步幅之前）与DeepLabv3特征图连接之后，使用两个具有256个滤波器的3×3卷积比使用一个或三个卷积更有效。将滤波器数量从256更改为128或将卷积核大小从3×3更改为1×1会降低性能。我们还尝试了在解码器模块中同时利用Conv2和Conv3特征图的情况。在这种情况下，解码器特征图逐渐上采样2倍，先与Conv3连接，然后与Conv2连接，并且每个特征图都会通过[3×3;256]操作进行细化。整个解码过程类似于U-Net/SegNet设计[21,22]。然而，我们没有观察到显著的改进。因此，最终我们采用了非常简单但有效的解码器模块：DeepLabv3特征图和通道减少的Conv2特征图的级联，经过两个[3×3;256]操作进行细化。请注意，我们提出的DeepLabv3+模型的输出步幅为4。考虑到有限的GPU资源，我们不再追求更密集的输出特征图（即输出步幅小于4）。

4.2 ResNet-101作为骨干网络

为了在准确性和速度方面比较模型变体，在提出的DeepLabv3+模型中使用ResNet-101 [25]作为网络的骨干时，我们在表3中报告了mIOU和乘法-加法操作（Multiply-Adds）。由于采用了空洞卷积，我们能够在训练和评估过程中使用单个模型获得不同分辨率的特征。

基准模型：表格3中第一行块包含了来自[23]的结果，显示在评估过程中提取更密集的特征图（即eval输出步幅=8）和采用多尺度输入可以提高性能。此外，添加左右翻转的输入会使计算复杂度翻倍，但性能改进很小。

添加解码器：表格3中第二行块包含了采用提出的解码器结构时的结果。在使用eval输出步幅为16或8时，性能从77:21%提高到78:85%或从78:51%提高到79:35%，但额外的计算开销约为20B。当使用多尺度和左右翻转的输入时，性能进一步提高。

较粗的特征图：我们还尝试了在训练过程中使用train输出步幅为32的情况（即在训练过程中完全没有采用空洞卷积）以实现快速计算。如表3中的第三行块所示，添加解码器可以带来约2%的改进，但只需要74.20B的乘法-加法操作。然而，性能始终比使用train输出步幅为16和不同eval输出步幅值的情况低约1%到1.5%。因此，我们更倾向于在训练或评估过程中使用输出步幅为16或8，具体取决于复杂度预算。

表1.PASCAL VOC 2012验证集。使用1 × 1卷积的解码器对来自编码器模块的低级特征图进行通道减少的效果。我们将解码器结构中的其他组件固定为使用[3 × 3; 256]和Conv2。

表2.在固定[1 × 1; 48]以减少编码器特征通道的情况下，解码器结构的效果。我们发现，最有效的方法是使用Conv2（在步幅之前）特征图和两个额外的[3 × 3; 256]操作。在VOC 2012验证集上的性能。

表3.在PASCAL VOC 2012验证集上使用ResNet-101的推断策略。train OS：训练过程中使用的输出步幅。eval OS：评估过程中使用的输出步幅。Decoder：采用了提出的解码器结构。MS：评估过程中使用多尺度输入。Flip：添加左右翻转的输入。

表4.在ImageNet-1K验证集上的单模型错误率。

4.3 Xception作为骨干网络

我们进一步采用了更强大的Xception [26]作为网络的主干。根据[31]的方法，我们进行了一些额外的修改，如第3.2节所述。

ImageNet预训练：我们采用了与[26]中类似的训练协议，在ImageNet-1k数据集[74]上对提出的Xception网络进行了预训练。具体来说，我们采用了Nesterov动量优化器，动量为0.9，初始学习率为0.05，每2个epoch衰减率为0.94，权重衰减为4e-5。我们使用了50个GPU进行异步训练，每个GPU的批量大小为32，图像尺寸为299×299。由于目标是在ImageNet上对模型进行语义分割的预训练，我们并没有过于调整超参数。我们在Tab.4中报告了在验证集上的单模型错误率，同时还与在相同训练协议下复现的ResNet-101 [25]的基准结果进行了对比。我们观察到，在修改后的Xception中，如果在每个3×3深度可分离卷积之后不添加额外的批归一化和ReLU层，Top1和Top5准确率会分别下降0.75%和0.29%。在Tab.5中报告了使用提出的Xception作为语义分割的网络主干的结果。

基准结果：首先，在Tab.5的第一行块中报告了不使用提出的解码器的结果，结果显示使用Xception作为网络主干时，在训练输出步幅=评估输出步幅=16的情况下，性能提升了约2%，相比使用ResNet-101的情况。通过使用评估输出步幅=8、多尺度输入进行推断以及添加左右翻转的输入，还可以进一步提高性能。请注意，我们没有使用多网格方法[77,78,23]，我们发现这种方法并不能提高性能。

添加解码器：如Tab.5中的第二行块所示，在所有不同的推断策略中，使用评估输出步幅=16时，添加解码器可以带来约0.8%的改进。当使用评估输出步幅=8时，改进效果会变得较小。

使用深度可分离卷积：受到深度可分离卷积的高效计算的启发，我们进一步在ASPP和解码器模块中采用了它。如Tab.5中的第三行块所示，以乘加运算为衡量标准，计算复杂度显著降低了33%至41%，同时获得了类似的mIOU性能。

在COCO上进行预训练：为了与其他最先进的模型进行比较，我们进一步在MS-COCO数据集[79]上对我们提出的DeepLabv3+模型进行了预训练，这对于所有不同的推断策略都带来了约2%的额外改进。

在JFT上进行预训练：与[23]类似，我们还使用了在ImageNet-1k [74]和JFT-300M数据集[80,26,81]上进行了预训练的提出的Xception模型，这带来了额外的0.8%至1%的改进。

测试集结果：由于基准评估中未考虑计算复杂度，因此我们选择了性能最佳的模型，并使用输出步幅=8和冻结批归一化参数进行训练。最终，我们的“DeepLabv3+”在没有JFT数据集预训练和有JFT数据集预训练的情况下，实现了87.8%和89.0%的性能。

定性结果：我们在图6中提供了我们最佳模型的视觉结果。如图所示，我们的模型能够很好地分割物体，无需任何后处理。

4.4 对象边界的改进

在这个子节中，我们使用trimap实验[14,40,39]来评估在对象边界附近的分割准确性，以量化提出的解码器模块的准确性。具体来说，我们在验证集上对“void”标签注释应用形态学膨胀，这通常发生在对象边界附近。然后，我们计算在膨胀带（称为trimap）内的像素的平均IOU，这些像素属于“void”标签。如图5(a)所示，使用提出的解码器对ResNet-101 [25]和Xception [26]网络骨干进行改进，相比于简单的双线性上采样，性能得到了提高。当膨胀带较窄时，改进效果更为显著。如图所示，我们观察到ResNet-101和Xception在最小的trimap宽度上分别提高了4.8%和5.4%的mIOU。我们还在图5(b)中可视化了使用提出的解码器的效果。

表5. 在使用修改后的Xception模型在PASCAL VOC 2012验证集上进行推断时的推断策略

4.5在Cityspaces数据集上的实验结果

在这一部分中，我们在Cityscapes数据集[3]上对DeepLabv3+进行了实验，这是一个包含5000张图像（其中2975张用于训练，500张用于验证，1525张用于测试）的大规模数据集，具有高质量的像素级注释，以及大约20000张粗略注释的图像。如表7(a)所示，使用提出的Xception模型作为DeepLabv3 [23]的网络骨干（表示为X-65），其中包括ASPP模块和图像级特征[52]，在验证集上达到了77.33%的性能。添加提出的解码器模块显著提高了性能，达到了78.79%（提高了1.46%）。我们注意到，去除增强的图像级特征可以将性能提高到79.14%，表明在DeepLab模型中，图像级特征在PASCAL VOC 2012数据集上更有效。我们还发现，在Cityscapes数据集上，增加Xception [26]入口流中的更多层对提高性能是有效的，与[31]对目标检测任务所做的相同。在表中构建在更深的网络骨干上的模型（在表中表示为X-71），在验证集上达到了最佳性能，为79.55%。在在验证集上找到最佳模型变体后，我们进一步在粗糙注释上对模型进行微调，以与其他最先进的模型竞争。如表7(b)所示，我们提出的DeepLabv3+在测试集上达到了82.1%的性能，在Cityscapes数据集上取得了新的最先进性能。

图5(a)显示了在使用训练输出步幅=评估输出步幅=16时，根据物体边界周围的trimap带宽，mIOU的变化。BU表示双线性上采样。图5(b)展示了使用提出的解码器模块与朴素的双线性上采样（表示为BU）相比的效果。在这些示例中，我们采用Xception作为特征提取器，并且训练输出步幅=评估输出步幅=16。

5.结论

我们提出的模型DeepLabv3+采用了编码器-解码器结构，其中DeepLabv3用于编码丰富的上下文信息，而简单而有效的解码器模块用于恢复物体边界。根据可用的计算资源，还可以应用扩张卷积来提取任意分辨率的编码器特征。我们还探索了Xception模型和扩张可分离卷积，使提出的模型更快、更强大。最后，我们的实验结果表明，提出的模型在PASCAL VOC 2012和Cityscapes数据集上取得了新的最先进性能。