第十六章：Understanding Convolution for Semantic Segmentation——理解用于语义分割的卷积

Joney Feng

已于 2023-08-03 10:49:01 修改

阅读量477

点赞数 2

文章标签：深度学习人工智能机器学习神经网络 cnn 架构

于 2023-07-16 16:56:17 首次发布

本文链接：https://blog.csdn.net/ADICDFHL/article/details/131751999

版权

&原文信息

原文题目：《Understanding Convolution for Semantic Segmentation》

原文引用：Wang, Panqu, et al. "Understanding convolution for semantic segmentation." 2018 IEEE winter conference on applications of computer vision (WACV). Ieee, 2018.

原文链接：https://arxiv.org/pdf/1702.08502.pdf](Unsupervisedhttps://arxiv.org/pdf/1702.08502.pdf](Unsupervised

0.摘要

最近深度学习特别是深度卷积神经网络（CNN）的进展，显著提高了之前语义分割系统的性能。在这里，我们展示了通过操作与卷积相关的操作来改进逐像素的语义分割，这些操作在理论和实践上都具有价值。首先，我们设计了密集上采样卷积（DUC）来生成像素级预测，能够捕捉和解码通常在双线性上采样中丢失的更详细信息。其次，我们在编码阶段提出了一种混合膨胀卷积（HDC）框架。该框架能够有效扩大网络的感受野，以聚合全局信息，并减轻由标准膨胀卷积操作引起的“网格问题”。我们在Cityscapes数据集上全面评估了这些方法，并在提交时在测试集上达到了80.1%的mIOU的最新成果。我们还在KITTI道路估计基准和PASCAL VOC2012分割任务上取得了最新的成果。我们的源代码可以在https://github.com/TuSimple/TuSimple-DUC找到。

1.引言

语义分割旨在为图像中的每个像素分配一个分类标签，这在图像理解和自动驾驶系统中起着重要作用。深度卷积神经网络（CNN）模型的最新成功[17,26,13]，由于丰富的层次特征和端到端可训练的框架[21,31,29,20,18,3]，在像素级语义分割任务中取得了显著的进展。大多数最先进的语义分割系统具有三个关键组件：

1）全卷积网络（FCN），最早在[21]中引入，通过用卷积层替换最后几个全连接层，实现高效的端到端学习和推理，可以接受任意输入尺寸；

2）条件随机场（CRF），用于捕捉图像内部的局部和长程依赖关系，以优化预测地图；

3）膨胀卷积（或空洞卷积），用于增加中间特征图的分辨率，以生成更准确的预测结果，同时保持相同的计算成本。

自从在[21]中引入FCN以来，完全监督的语义分割系统的改进主要集中在两个方面：首先，应用更深的FCN模型。当16层的VGG-16模型[26]被101层的ResNet-101模型[13]替代时，在PASCAL VOC2012数据集[8]上的平均交并比（mIoU）得分显著提高，使用152层的ResNet-152模型进一步改进了性能[28]。这种趋势与这些模型在ILSVRC [23]目标分类任务上的表现一致，因为更深的网络通常能够建模更复杂的表示，并学习到更具有区分性的特征，更好地区分不同的类别。其次，使CRFs更加强大。这包括将全连接的成对CRFs [16]作为后处理步骤[3]，通过近似其均值场推理步骤[31,20,18]将CRFs集成到网络中以实现端到端训练，并将额外的信息如边缘[15]和目标检测[1]合并到CRFs中。

我们正在从另一个角度追求进一步改进语义分割：对于解码（从中间特征图到输出标签图）和编码（从输入图像到特征图）的卷积操作进行改进。在解码方面，大多数最先进的语义分割系统在获取输出标签图（在CRF阶段之前）时，简单地使用双线性插值上采样[18,20,3]。双线性插值上采样是不可学习的，并且可能丢失细节。受图像超分辨率工作的启发[25]，我们提出了一种称为密集上采样卷积（DUC）的方法，这种方法非常容易实现，并且可以实现像素级的准确性：我们学习一组上采样滤波器，将缩小的特征图放大到所需尺寸的最终密集特征图上。DUC自然地适应FCN框架，实现端到端训练，并显著提高了在Cityscapes数据集[5]上像素级语义分割的mIOU，特别是对于相对较小的对象。

在编码部分，扩张卷积最近变得流行起来[3,29,28,32]，因为它通过在卷积核中插入“孔”来保持网络的分辨率和感受野，从而消除了下采样（通过最大池化或步幅卷积）。然而，当前的扩张卷积框架存在一个固有的问题，我们将其称为“格栅化”：由于在卷积核的两个像素之间填充了零，该卷积核的感受野仅覆盖了一个具有棋盘格模式的区域 - 只有非零值的位置被采样，丢失了一些相邻信息。当扩张率增加时，问题会变得更加严重，通常出现在感受野较大的更高层次：卷积核太稀疏，无法覆盖任何局部信息，因为非零值相距太远。对于一个固定像素，有贡献的信息总是来自其预定义的格栅化模式，因此丢失了大部分信息。在这里，我们提出了一个简单的混合扩张卷积（HDC）框架作为解决这个问题的首次尝试：我们不再为相同的空间分辨率使用相同的扩张率，而是使用一系列扩张率，并将它们串联起来，方式与ResNet-101 [13]中的“块”相同。我们展示了HDC如何帮助网络缓解格栅化问题。此外，选择适当的扩张率可以有效增加感受野大小，并提高相对较大的对象的准确性。

我们设计DUC：密集上采样卷积和HDC：混合膨胀卷积来更好地满足像素级语义分割的需求。技术细节在下面的第3节中进行了描述。结合条件随机场（CRFs）的后处理，我们展示了这种方法在Cityscapes像素级语义标注任务、KITTI道路估计基准和PASCAL VOC2012分割任务上实现了最先进的性能。

2.相关工作

特征表示的解码：在像素级语义分割任务中，输出的标签映射与输入图像具有相同的尺寸。由于CNN中的最大池化或步幅卷积操作，网络的最后几层的特征图的尺寸必然会被下采样。已经提出了多种方法来从下采样的特征图中解码出准确的信息以生成标签映射。双线性插值是常用的方法[18,20,3]，因为它速度快且内存效率高。另一种流行的方法称为反卷积，其中使用从池化步骤中存储的池化开关来进行反池化操作，恢复用于特征可视化的信息[30]。在[21]中，在解码阶段添加了单个反卷积层，使用来自中间层的堆叠特征图生成预测结果。在[7]中，多个反卷积层被应用于从多个属性生成椅子、桌子或汽车。Noh等人[22]在非池化步骤中使用反卷积层作为卷积层的镜像版本，并使用存储的池化位置。[22]显示了粗到细的对象结构，这对于恢复细节信息至关重要，可以在反卷积层的传播过程中重建。Fischer等人[9]使用类似的镜像结构，但结合了多个反卷积层的信息，并进行上采样以生成最终预测结果。

扩张卷积：扩张卷积（或称为空洞卷积）最初是在算法“a trous”的小波分解中开发的[14]。扩张卷积的主要思想是在卷积核的像素之间插入“孔”（零）以增加图像分辨率，从而在深度CNN中实现密集特征提取。在语义分割框架中，扩张卷积也被用于扩大卷积核的感受野。Yu和Koltun [29]使用递增扩张率的序列化层来实现上下文聚合，而[3]设计了“扩张空间金字塔池化（ASPP）”方案，通过将多个扩张卷积层并行放置，捕获多尺度对象和上下文信息。最近，扩张卷积已应用于更广泛的任务，如目标检测[6]、光流[24]和音频生成[27]。

3.我们的方法

3.1.密集上采样卷积（DUC）

假设输入图像的高度为H、宽度为W，颜色通道数为C，像素级语义分割的目标是生成一个大小为H×W的标签映射，其中每个像素都被赋予一个类别标签。将图像输入深度FCN后，在进行预测之前，在最后一层得到一个具有尺寸h ×w ×c的特征图，其中h = H/d，w = W/d，d为下采样因子。DUC不使用不可学习的双线性上采样，也不使用反卷积网络（如[22]中的方法），在反池化步骤之前需要在卷积操作之前填充零。DUC直接在特征图上进行卷积操作，以获得密集的像素级预测图。图1描述了我们使用DUC层的网络架构。

DUC操作主要是通过卷积来处理特征图，将尺寸为h ×w ×c的ResNet特征图进行卷积操作，得到尺寸为h ×w ×(d2 ×L)的输出特征图，其中L是语义分割任务中的类别总数。因此，每个密集卷积层学习的是每个像素的预测。然后，将输出特征图通过softmax层重新调整为尺寸为H ×W ×L的形状，然后使用逐元素的argmax操作符得到最终的标签映射。实际上，"reshape"操作可能并不是必要的，因为特征图可以直接折叠成一个向量，然后输入到softmax层中。DUC的关键思想是将整个标签映射分成等大小的d2个子部分，这些子部分的高度和宽度与输入的特征图相同。换句话说，我们将整个标签映射转换为一个较小的具有多个通道的标签映射。这种转换使我们能够在输入特征图和输出标签映射之间直接应用卷积操作，而无需在反卷积网络（“反池化”操作）中插入额外的值。

由于DUC是可学习的，它能够捕捉和恢复细节信息，而这些信息在双线性插值操作中通常丢失。例如，如果网络的下采样率为1/16，并且一个物体的长度或宽度小于16个像素（比如一个远处的杆子或一个人），那么双线性上采样很可能无法恢复这个物体。同时，相应的训练标签必须进行下采样以与输出维度相对应，这将导致细节信息的损失。DUC的预测是在原始分辨率下进行的，从而实现了像素级解码。此外，DUC操作可以自然地集成到FCN框架中，并使整个编码和解码过程可端到端地进行训练。

图1. ResNet-101网络结构示意图，使用混合扩张卷积（HDC）和密集上采样卷积（DUC）层。HDC应用在ResNet块中，DUC应用在网络的顶部，用于解码目的。

3.2.混合膨胀卷积（HDC)

在一维中，扩张卷积被定义为：其中f[i]是输入信号，g[i]是输出信号，h[l]表示长度为L的滤波器，r对应于我们用来采样f[i]的扩张率。在标准卷积中，r=1。在语义分割系统中，二维扩张卷积是通过在卷积核中的每个像素之间插入“孔”（零）来构建的。对于大小为k×k的卷积核，得到的扩张滤波器的大小为kd×kd，其中kd=k+(k-1)·(r-1)。扩张卷积用于通过替换最大池化操作或步长卷积层来保持FCN中特征图的高分辨率，同时保持相应层的感受野（或在[3]中称为“视野”）。例如，如果ResNet-101中的卷积层的步长s=2，则将步长重置为1以去除下采样，并且将扩张率r设置为所有后续层的卷积核。这个过程在所有具有下采样操作的层上迭代应用，从而使输出层的特征图可以保持与输入层相同的分辨率。然而，在实践中，扩张卷积通常应用于已经下采样的特征图上，以实现合理的效率/准确性权衡[3]。

然而，在上述扩张卷积框架中存在一个理论问题，我们称之为“网格化”（图2）：对于扩张卷积层l中的像素p，对像素p的贡献信息来自于位于p周围的l-1层中以p为中心的kd×kd区域。由于扩张卷积在卷积核中引入了零值，从kd×kd区域中实际参与计算的像素只有k×k个，并且它们之间有r-1的间隔。如果k=3，r=2，在该区域中只有25个像素中的9个用于计算（图2(a)）。由于所有层的扩张率r相等，因此在顶部扩张卷积层ltop中，对于像素p来说，对计算p的值贡献的最大可能位置数是（w0×h0）/r^2，其中w0和h0分别是底部扩张卷积层的宽度和高度。因此，像素p只能以棋盘格的方式查看信息，并且丢失了大部分信息（当r=2时至少75%）。当由于额外的下采样操作在更高层中r变大时，来自输入的样本可能非常稀疏，这对于学习可能不利，因为

1）局部信息完全丢失；

2）信息可能在较大距离上无关。

网格化效应的另一个结果是，层l中附近r×r区域中的像素接收来自完全不同的“网格”集的信息，这可能影响局部信息的一致性。

在这里，我们提出了一个简单的解决方案-混合扩张卷积（HDC），以解决这个理论问题。假设我们有N个卷积层，卷积核大小为K×K，扩张率为[r1;:::;ri;:::;rn]，HDC的目标是让一系列卷积操作的最终感受野的大小完全覆盖一个没有任何孔洞或丢失边缘的正方形区域。我们将“两个非零值之间的最大距离”定义为：

其中Mn=rn。设计目标是使M2≤K。例如，对于卷积核大小K=3，r=[1;2;5]的模式满足M2=2；然而，r=[1;2;9]的模式不满足M2=5。在实际中，我们不是在所有下采样后的层中使用相同的扩张率，而是为每个层使用不同的扩张率。在我们的网络中，扩张率的分配遵循了一个锯齿波状的启发式算法：一些层被分组成为具有递增扩张率的“上升边缘”的波形，下一组重复相同的模式。例如，对于所有扩张率为2的层，我们将连续的3个层作为一组，并将它们的扩张率分别更改为1、2和3。通过这样做，顶部的层可以从更广泛的像素范围内获取信息，与

HDC的另一个好处是它可以通过过程中使用任意的扩张率，从而自然地扩大网络的感受野，而无需添加额外的模块[29]，这对于识别相对较大的物体非常重要。然而，需要注意的一点是，组内的扩张率不应具有公共因子关系（如2、4、8等），否则网格化问题仍然存在于顶层。这是我们的HDC方法与[3]中的孔蚀空间金字塔池化（ASPP）模块或[29]中的上下文聚合模块的关键区别，这些模块使用了具有公共因子关系的扩张因子。此外，HDC与网络的原始层自然集成在一起，无需像[29,3]中那样添加额外的模块。原始配置相同的区域（图2(b)）。这个过程在所有层中重复进行，从而使顶层的感受野保持不变。

图2. 网格化问题的示意图。从左到右：蓝色标记的像素通过大小为3×3的卷积核在三个卷积层中对中心像素（红色标记）进行计算。

（a）所有卷积层的扩张率均为r=2。

（b）后续卷积层的扩张率分别为r=1、2、3。

4.实验结果

我们在三个具有挑战性的语义分割数据集上报告了我们的实验和结果：Cityscapes [5]、用于道路估计的KITTI数据集 [10]和PASCAL VOC2012 [8]。我们使用在ImageNet数据集上预训练的ResNet-101或ResNet-152网络作为所有模型的起点。输出层包含要分类的语义类别的数量，具体取决于数据集（如果适用的话，还包括背景）。我们在每个像素上使用交叉熵误差对类别进行计算。然后将其在输出图的所有像素位置上求和，并使用标准的随机梯度下降（SGD）优化这个目标函数。我们使用MXNet [4]在NVIDIA TITAN X GPU上训练和评估所有的模型。

4.1.CityScapes 数据集

Cityscapes数据集是一个专注于城市街景的语义理解的大型数据集。该数据集包含来自50个城市、不同季节、不同场景布局和背景的5000张图像，并进行了精细的注释。数据集标注了30个类别，其中19个类别用于训练和评估（其他类别被忽略）。训练集、验证集和测试集分别包含2975张、500张和1525张精细图像。此外，还提供了20000张带有粗糙（多边形）注释的图像，但仅用于训练。

4.1.1.基准模型

我们使用DeepLab-V2 [3] ResNet-101框架训练我们的基线模型。具体来说，网络的下采样率为8，对res4b和res5b块分别应用了扩张卷积，扩张率分别为2和4。在网络顶部添加了一个ASPP模块，其扩张率为6、12、18和24，用于提取多尺度上下文信息。预测图和训练标签相对于原始图像的尺寸进行了8倍的降采样，并使用双线性插值上采样得到最终的预测结果。由于Cityscapes数据集中的图像大小为1024×2048，太大而无法适应GPU内存，因此我们将每个图像分成了12个大小为800×800的块，并进行了部分重叠，从而将训练集扩充到了35700张图像。这种数据增强策略是为了确保可以访问图像中的所有区域。这是对随机裁剪的改进，随机裁剪中可能会反复访问附近的区域。我们使用尺寸为544×544的小批量SGD进行网络训练（从800×800的块中随机裁剪），批量大小为12，使用多个GPU。初始学习率设置为2.5×10^(-4)，并应用“poly”学习率（如[3]中所述），幂为0.9。权重衰减设置为5×10^(-4)，动量为0.9。网络进行了20个epochs的训练，在验证集上达到了72.3%的mIoU。

4.1.2.密集上采样卷积（DUC)

我们研究了DUC对基线网络的影响。在DUC中，我们唯一改变的是顶部卷积层的形状。例如，如果基线模型中顶部卷积层的维度为68×68×19（19是类别的数量），那么在具有DUC的网络中，同一层的维度将为68×68×(r^2×19)，其中r是网络的总下采样率（在本例中r=8）。然后，将预测图重新调整为大小为544×544×19。与基线模型相比，DUC会引入额外的参数，但仅在顶部卷积层。我们将ResNet-DUC网络与基线模型相同的方式进行训练20个epochs，在验证集上获得了74.3%的平均IOU，比基线模型提高了2%。图3显示了ResNet-DUC的结果可视化以及与基线模型的比较。从图3中，我们可以清楚地看到DUC对于识别小物体（如电线杆、交通灯和交通标志）非常有帮助。与我们的直觉一致，像素级的密集上采样可以恢复通常由双线性插值遗漏的详细信息。

消融研究 我们研究了网络不同设置对性能的影响。具体来说，我们研究了以下几个方面：

1）网络的下采样率，它控制了中间特征图的分辨率；

2）是否应用ASPP模块，以及模块中的平行路径数量；

3）是否进行12倍的数据增强；

4）单元大小，它决定了一个预测像素映射到的邻域区域（cell × cell）的大小。

像素级的DUC应该使用cell = 1；然而，由于标签通常无法达到像素级的精度，我们在实验中还尝试了cell = 2。从表1可以看出，降低下采样率会降低准确性。同时，由于特征图的分辨率增加，这会显著增加计算成本。ASPP通常有助于提高性能，将ASPP通道从4增加到6（扩张率从6增加到36，间隔为6）可以提高0.2%的性能。数据增强可以帮助提高1.5%的性能。与cell = 1相比，使用cell = 2在性能上略有改善，并通过将最后一个卷积层的通道数减少4倍来降低计算成本。

更大的补丁大小 由于设置cell = 2可以降低网络训练的GPU内存消耗，我们探索了补丁大小对性能的影响。我们的假设是，由于原始图像都是1024×2048，为了聚合局部细节和可能有助于学习的全局上下文信息，网络应该使用尽可能大的补丁进行训练。因此，我们将补丁大小设置为880×880，并在训练中的4个GPU上将批量大小设置为1。由于补丁大小超过了先前12倍数据增强框架中的最大尺寸（800×800），我们采用了一种新的7倍数据增强策略：在原始图像中设置x = 512，y = 256; 512; :::; 1792的七个中心位置；对于每个中心位置，通过在以每个中心为中心的160×160矩形区域内随机设置其中心，得到一个880×880的补丁。这种策略确保我们可以采样图像中的所有区域，包括边缘。使用更大的补丁大小进行训练将性能提升到75.7%，比先前最佳结果提高了1%。

与反卷积进行比较 我们将我们的DUC模型与反卷积进行了比较，反卷积也涉及到学习上采样。具体来说，我们与以下两种模型进行了比较：

1）直接从预测图（缩小8倍）到原始分辨率的反卷积；

2）先进行2倍上采样，然后进行4倍上采样的反卷积。

我们设计的反卷积网络参数数量与DUC网络大致相同。我们使用ResNet-DUC更大的补丁模型来训练这两个网络。上述两个模型的mIOU分别为75.1%和75.0%，低于ResNet-DUC模型（75.7% mIoU）。

条件随机场（CRFs）全连接的CRFs广泛用于在FCN（全卷积网络）之后作为一种后处理步骤来提高语义分割的质量[16]。我们遵循[3]中所示的CRFs的形式化。我们在验证集上进行参数的网格搜索，并对所有模型使用σα=15，σβ=3，σγ=1，w1 =3和w2 =3。将CRFs应用于我们最好的ResNet-DUC模型，使得mIoU达到76.7%，比不使用CRFs的模型提高了1%。

表1. 在Cityscapes数据集上应用ResNet-101的消融研究。DS：网络的下采样率。Cell：一个预测像素所代表的邻域区域。

图3. 在Cityscapes验证集上Dense Upsampling Convolution (DUC)的效果。从左到右：输入图像，真实标签（黑色区域在评估中被忽略），基准模型和我们的ResNet-DUC模型。

4.1.3.混合膨胀卷积

我们将最好的101层ResNet-DUC模型作为应用HDC的起点。具体来说，我们尝试了HDC模块的几个变体：

无膨胀：对于所有包含膨胀的ResNet块，我们将它们的膨胀率r设为1（无膨胀）。
膨胀-卷积：对于所有包含膨胀的块，我们将每两个块分为一组，第一个块的膨胀率r设为2，第二个块的膨胀率r设为1。
膨胀-感受野：对于包含23个膨胀率为2的块的res4b模块，我们将每三个块分为一组，并分别将它们的膨胀率更改为1、2和3。对于最后两个块，我们保持膨胀率为2。对于包含3个膨胀率为4的块的res5b模块，我们将它们分别更改为3、4和5。
膨胀-更大：对于res4b模块，我们将每四个块分为一组，并将它们的膨胀率更改为1、2、5和9。最后三个块的膨胀率分别为1、2和5。对于res5b模块，我们将膨胀率设置为5、9和17。

结果总结在表2中。我们可以看到，增加感受野大小通常会产生更高的准确性。图5说明了ResNet DUC-HDC模型在消除格网效应方面的有效性。图4展示了可视化结果。我们可以看到，我们最好的ResNet-DUC-HDC模型在相对较大的对象上表现特别好。

更深的网络我们还尝试用ResNet-152网络替换我们基于ResNet-101的模型，ResNet-152在ILSVRC图像分类任务上比ResNet-101获得更好的性能[13]。由于网络的差异，我们首先训练ResNet-152网络，以学习所有批归一化（BN）层的参数，训练10个epoch，然后通过固定这些BN参数继续微调网络，训练另外20个epoch。结果总结在表3中。我们可以看到，使用更深的ResNet-152模型通常比ResNet-101模型获得更好的性能。

表2. HDC模块不同变体的结果。"RF increased"表示相对于膨胀操作前一层在单个维度上增加的感受野的总大小。

图4. 混合膨胀卷积（HDC）对Cityscapes验证集的效果。从左到右依次为：输入图像、真实标签、ResNet-DUC模型的结果、ResNet-DUC-HDC模型（膨胀-更大）的结果。

图5. HDC在消除格网效应中的有效性。第一行：真实标签图像块。第二行：ResNet-DUC模型的预测结果。观察到明显的格网效应。第三行：ResNet-DUC-HDC（膨胀-感受野）模型的预测结果。

表3. 网络深度和上采样方法对Cityscapes验证集的影响（不使用CRF）。

4.1.4.测试集结果

我们在Cityscapes测试集上的结果总结在表4中。表中分别列出了仅使用细粒度标签训练的模型和使用细粒度和粗粒度标签组合训练的模型。我们的ResNet-DUC-HDC模型仅使用细粒度数据就实现了77.6%的mIoU。添加粗粒度数据帮助我们实现了78.5%的mIoU。此外，受到VGG网络[26]设计的启发，我们将原始ResNet-101网络中的7×7卷积层替换为三个3×3卷积层，以增加网络的表达能力同时保持感受野大小。通过重新训练更新后的网络，我们在测试集上使用单个模型且不进行CRF后处理，实现了80.1%的mIoU。我们的结果在提交时在Cityscapes数据集上达到了最先进的性能。与陈等人[3]强基线相比，我们将mIoU显著提高了9.7%，这证明了我们方法的有效性。

表4. Cityscapes测试集上的性能表现。

4.2.KITTI道路分割结果

数据集 KITTI道路分割任务包含三种不同类别的道路场景图像，包括289张训练图像和290张测试图像。目标是判断图像中每个像素是否为道路。由于训练图像数量有限，使用基于神经网络的方法是具有挑战性的。为了避免过拟合，我们从训练图像中裁剪大小为320×320像素的图像块，步幅为100像素，并在训练过程中使用在ImageNet上预训练的ResNet-101-DUC模型。其他训练设置与Cityscapes实验相同。我们没有应用CRF进行后处理。

结果：在提交时，我们在不使用任何附加的立体、激光点和GPS信息的情况下，实现了最先进的结果。具体来说，我们的模型在城市未标记（UU ROAD）、城市多重标记（UMM ROAD）和所有子类别的整体类别URBAN ROAD中取得了最高的最大F1值，同时在所有三个子类别和整体类别上获得了最高的平均精度。图6展示了可视化结果的示例。详细结果在表5中显示。

图6. Kitti道路分割测试集的可视化示例。道路以红色标记。

表5. KITTI测试集中不同道路场景的性能。MaxF：最大F1值，AP：平均精度。

4.3.PASCAL VOC2012数据集

数据集：PASCAL VOC2012分割基准数据集包含1464张训练图像，1449张验证图像和1456张测试图像。使用[12]提供的额外注释，训练集被扩充到了10582张图像。该数据集包含20个前景物体类别和1个背景类别，并且具有像素级注释。

结果：我们首先使用增强的VOC2012训练集和MS-COCO数据集[19]预训练了152层的ResNet-DUC模型，然后使用增强的VOC2012训练验证集对预训练网络进行微调。在整个训练过程中，我们使用512×512（零填充）的补丁大小。所有其他的训练策略与Cityscapes实验相同。在没有任何模型集成或多尺度测试的情况下，我们在测试集上使用单一模型实现了83.1%的mIOU，这是提交时性能最好的方法[2]。详细结果如表6所示，可视化结果如图7所示。图7. PASCAL VOC2012分割验证集的可视化示例。从左到右：输入图像，真实标注，CRF之前的我们的结果，以及CRF之后的结果。

表6. 在Pascal VOC2012测试集上的性能。

5.结论

我们提出了一种简单但有效的卷积操作来改进语义分割系统。我们设计了一种新的密集上采样卷积（DUC）操作，以在特征图上进行像素级预测，并使用混合扩张卷积（HDC）来解决格点问题，有效地扩大了网络的感受野。实验结果证明了我们的框架在各种语义分割任务上的有效性。