【PSPnet2017】Pyramid Scene Parsing Network

不会声调的博er

已于 2022-10-14 16:49:09 修改

阅读量1.1k

点赞数

文章标签：人工智能计算机视觉机器学习

于 2022-10-13 19:36:18 首次发布

本文链接：https://blog.csdn.net/wagnbo/article/details/127306644

版权

Pyramid Scene Parsing Network

金字塔式场景解析网络

arXiv:1612.01105v2 [cs.CV] 27 Apr 2017
文章地址：https://arxiv.org/abs/1612.01105
代码地址：https://github.com/hszhao/PSPNet

摘要

场景解析对于不受限制的开放词汇和多样化的场景来说是一个挑战。在本文中，我们通过我们的金字塔集合模块和提议的金字塔场景解析网络（PSPNet），利用基于不同区域的全局上下文信息的能力。我们的全局先验表示能够有效地在场景解析任务中产生高质量的结果，而PSPNet则为像素级预测提供了一个卓越的框架。所提出的方法在各种数据集上取得了最先进的性能。它在2016年ImageNet场景解析挑战赛、PASCAL VOC 2012基准测试和Cityscapes基准测试中名列第一。单个PSPNet在PASCAL VOC 2012上获得了85.4%的mIoU准确性，在Cityscapes上获得了80.2%的准确性。

1导言

基于语义分割的场景解析是计算机视觉的一个基本课题。其目标是为图像中的每个像素分配一个类别标签。场景解析提供了对场景的完整理解。它预测了每个元素的标签、位置以及形状。这个话题对于自动驾驶、机器人感应等潜在应用具有广泛的意义。

图1. ADE20K数据集中复杂场景的说明。

场景解析的难度与场景和标签的种类密切相关。最早的场景解析任务[23]是对LMO数据集[22]上的2,688张图像进行33个场景的分类。最近的PASCAL VOC语义分割和PASCAL语境数据集[8, 29]包括更多具有类似语境的标签，如椅子和沙发，马和牛等。新的ADE20K数据集[43]是最具挑战性的数据集，它拥有大量无限制的开放词汇和更多的场景类别。图1中显示了一些有代表性的图像。要为这些数据集开发一个有效的算法，需要克服一些困难。

目前最先进的场景解析框架大多是基于完全卷积网络（FCN）[26]。基于深度卷积神经网络（CNN）的方法促进了动态物体的理解，但考虑到多样化的场景和不受限制的词汇，仍然面临着挑战。一个例子是在图2的第一行，一艘船被误认为是一辆汽车。这些错误是由于物体的相似外观造成的。但是，当查看图像时，考虑到之前的背景，即场景被描述为河边的船屋，应该会产生正确的预测。

图2. 我们在ADE20K[43]数据集上观察到的场景解析问题。第一行显示了不匹配关系的问题--汽车比船很少在水面上。第二行显示了混淆类别，"建筑 "类很容易被混淆为 "摩天大楼"。第三行说明了不明显的类别。在这个例子中，枕头在颜色和质地上与床单非常相似。这些不显眼的物体很容易被FCN错误分类。

为了实现准确的场景感知，知识图谱依赖于场景背景的先验信息。我们发现，目前基于FCN的模型的主要问题是缺乏合适的策略来利用全局场景类别线索。对于典型的复杂场景的理解，以前为了得到一个全局的图像级别的特征，空间金字塔集合[18]被广泛采用，其中空间统计为整个场景的解释提供了一个良好的描述符。空间金字塔集合网络[12]进一步增强了这种能力。

与这些方法不同，为了纳入合适的全局特征，我们提出金字塔场景解析网络（PSPNet）。除了传统的稀释FCN[3, 40]进行像素预测外，我们将像素级的特征扩展到特别设计的全局金字塔汇集的特征。局部和全局的线索共同使最终的预测结果更加可靠。我们还提出了一种具有深度监督损失的优化策略。我们给出了所有的实施细节，这是我们在本文中取得良好性能的关键，并公开了代码和训练好的模型1。

我们的方法在所有可用的数据集上实现了最先进的性能。它是2016年ImageNet场景解析挑战赛的冠军[43]，并在PASCAL VOC 2012语义分割基准中获得第一名[8]，在城市场景Cityscapes数据中获得第一名[6]。他们表明PSPNet为像素级预测任务提供了一个很好的方向，这甚至可能有利于基于CNN的立体匹配、光流、深度估计等后续工作。我们的主要贡献有三方面。

我们提出了一个金字塔式的场景解析网络，在基于FCN的像素预测框架中嵌入了困难的景物背景特征。
我们为深度ResNet[13]开发了一个基于深度监督损失的有效优化策略。
我们为最先进的场景解析和语义分割建立了一个实用的系统，其中包括所有关键的实施细节。

2.相关工作

在下文中，我们将回顾场景解析和语义分割任务的最新进展。在强大的深度神经网络[17, 33, 34, 13]的推动下，像场景解析和语义分割这样的像素级预测任务在用卷积层取代分类中的全连接层[26]的启发下取得了巨大的进展。为了扩大神经网络的接受域，[3，40]的方法使用了扩张卷积。Noh等人[30]提出了一个粗到细结构的去卷积网络来学习分割掩码。我们的基线网络是FCN和扩张网络[26, 3]。

其他工作主要在两个方向进行。一个方向[26, 3, 5, 39, 11]是与多尺度特征集合。因为在深度网络中，高层特征包含更多的语义，而位置信息较少。结合多尺度特征可以提高性能。

另一个方向是基于结构预测的。最早的工作[3]使用条件随机场（CRF）作为后处理来完善分割结果。随后的方法[25, 41, 1]通过端到端建模完善网络。这两个方向都改善了场景解析的定位能力，其中预测的语义边界适合对象。然而，在复杂的场景中，仍有很多空间可以利用必要的信息。

为了很好地利用全局图像级别的先验来理解不同的场景，[18, 27]的方法用传统的特征而不是深度神经网络来提取全局背景信息。在物体检测框架下也做了类似的改进[35]。Liu等人[24]证明了全局平均集合与FCN可以改善语义分割的结果。然而，我们的实验表明，这些全局描述符对于具有挑战性的ADE20K数据来说并没有足够的代表性。因此，与[24]中的全局池化不同，我们通过我们的金字塔场景解析网络，通过基于不同区域的语境聚合，来利用全局语境信息的能力。

3 金字塔式场景解析网络

我们首先观察和分析了将FCN方法应用于场景解析时的代表性失败案例。它们促使我们提出了金字塔集合模块作为有效的全局上下文先验。然后描述我们的金字塔场景解析网络（PSPNet），如图3所示，以提高复杂场景解析中开放词汇对象和东西的识别性能。

图3. 我们提出的PSPNet的概述。给定一个输入图像（a），我们首先使用CNN得到最后一个卷积层的特征图（b），然后应用金字塔解析模块来收获不同的子区域表征，接着是上采样和串联层，形成最终的特征表征，在（c）中同时携带局部和全局信息。最后，该表征被送入卷积层以获得最终的每像素预测（d）。

3.1. 重要观察

新的ADE20K数据集[43]包含150个东西/物体类别标签（如墙、天空和树）和1038个图像级场景描述符（如机场航站楼、卧室和街道）。所以大量的标签和庞大的场景分布就出现了。检查[43]中提供的FCN基线的预测结果，我们总结了复杂场景解析的几个常见问题。

不匹配的关系 上下文关系是普遍存在的，特别是对复杂场景的理解来说非常重要。存在着共同出现的视觉模式。例如，一架飞机很可能在跑道上或在天空中飞行，而不是在道路上。对于图中第一行的例子，FCN根据黄框中的船的外观预测它是一辆 “汽车”。但是常识告诉我们，汽车很少会在河上行驶。缺乏收集上下文信息的能力，就会增加错误分类的机会。

混淆类别 ADE20K数据集[43]中有许多类别标签对在分类中是混淆的。例如，田地和大地；山和丘陵；墙、房子、建筑和摩天大楼。它们具有相似的外观。如[43]所述，对整个数据集进行标注的专家注释者仍会出现17.60%的像素错误。在图的第二行，FCN预测方框中的物体是摩天大楼的一部分和建筑物的一部分。这些结果应该被排除，这样整个物体要么是摩天大楼，要么是建筑物，而不是两者。这个问题可以通过利用类别之间的关系来加以补救。

不显眼的类别 场景包含任意大小的物体/物品。一些小尺寸的东西，如路灯和招牌，很难被发现，而它们可能是非常重要的。相反，大的物体或东西可能会超出FCN的接收范围，从而导致不连续的预测。如图2的第三行所示，枕头和床单有相似的外观。忽略全局场景类别可能无法解析枕头。为了提高对明显小的或大的物体的性能，我们应该非常注意包含不明显类别的不同子区域。

总结这些观察结果，许多错误部分或完全与上下文关系和不同感受区的全局信息有关。因此，一个具有合适的全局场景级先验的深度网络可以大大改善场景解析的性能。

3.2. 金字塔集合模块

通过以上分析，在下文中，我们将介绍金字塔集合模块，经验证明它是一个有效的全局上下文先验。

在一个深度神经网络中，接受域的大小可以大致表明我们对上下文信息的使用程度。虽然理论上ResNet[13]的感受野已经大于输入图像，但Zhou等人[42]表明CNN的经验感受野比理论上的感受野小得多，特别是在高层。这使得许多网络不能充分地纳入重要的全局景物先验。我们通过提出一个有效的全局先验表示来解决这个问题。

全局平均池是一个很好的基线模型，作为全局背景先验，它通常用于图像分类任务[34，13]。在[24]中，它被成功地应用于语义分割。但是对于ADE20K[43]中的复杂场景图像，这种策略不足以涵盖必要的信息。这些场景图像中的像素被注释了许多东西和物体。直接融合它们形成一个单一的矢量可能会失去空间关系并导致歧义。在这方面，全局背景信息和子区域背景有助于区分不同的类别。一个更强大的表征可以是来自不同子区域的信息与这些感受野的融合。在场景/图像分类的经典工作[18, 12]中也得出了类似的结论。

在[12]中，由金字塔池生成的不同层次的特征图最终被扁平化并连接到全连接层进行分类。这个全局先验的设计是为了消除CNN在图像分类中的固定尺寸约束。为了进一步减少不同子区域之间的上下文信息损失，我们提出了一个分层的全局先验，包含不同尺度的信息，并在不同子区域之间变化。我们称之为金字塔集合模块，用于在深度神经网络的最后一层特征图上构建全局场景先验，如图3(c)部分所示。

金字塔集合模块融合了四个不同的金字塔尺度下的特征。红色显示的最粗级别是全局池化，以产生一个单仓输出。接下来的金字塔级别将特征图分离成不同的子区域，形成不同位置的集合表示。金字塔集合模块中不同级别的输出包含不同大小的特征图。为了保持全局特征的权重，我们在每个金字塔层之后使用1×1的卷积层，如果金字塔层的大小为N，则将上下文表示的维度降低到原始维度的1/N，然后直接对低维度的特征图进行上采样，通过双线性插值得到与原始特征图相同大小的特征。最后，不同级别的特征图被串联起来作为最终的金字塔集合全局特征。

注意到金字塔的层数和每层的大小都可以修改。它们与送入金字塔汇集层的特征图的大小有关。该结构通过采用不同大小的池化核在几步内抽象出不同的子区域。因此，多级内核应该在表示上保持合理的差距。我们的金字塔池化模块是一个四级的模块，仓的大小分别为1×1、2×2、3×3和6×6。对于最大和平均之间的池化操作类型，我们在第5.2节中进行了大量的实验来说明其区别。

3.3. 网络结构

通过金字塔集合模块，我们提出了金字塔场景解析网络（PSPNet），如图3所示。给定图3(a)中的输入图像，我们使用预训练的ResNet[13]模型和扩张网络策略[3, 40]来提取特征图。最终的特征图大小为输入图像的1/8，如图3(b)所示。在地图之上，我们使用(c)所示的金字塔集合模块来收集上下文信息。使用我们的4级金字塔，池化核覆盖了整个图像、一半的图像和小部分的图像。它们被融合为全局先验。然后我们在(c)的最后部分将先验与原始特征图连接起来。接着是卷积层，生成(d)中的最终预测图。

为了解释我们的结构，PSPNet为像素级场景解析提供了一个有效的全局上下文先验。金字塔汇集模块可以收集各级信息，比全局汇集更具代表性[24]。在计算成本方面，我们的PSPNet与原来的扩张FCN网络相比并没有增加多少。在端到端学习中，全局金字塔池化模块和局部FCN特征可以同时优化。

4. 基于ResNet的FCN的深度监督

深度预训练的网络导致了良好的性能[17, 33, 13]。然而，增加网络的深度可能会引入额外的优化困难，如[32，19]中所示的图像分类。ResNet用每个区块的跳过连接来解决这个问题。深度ResNet的后几层主要是在前几层的基础上学习残差。

相反，我们建议通过监督产生最初的结果，并有一个额外的损失，之后用最终的损失学习残差。因此，深度网络的优化被分解成两个，每个都更容易解决。

图4. ResNet101中辅助损失的说明。每个蓝框表示一个残余物块。辅助损失被添加到res4b22残余块之后。

图4展示了我们的深度监督ResNet101[13]模型的一个例子。除了使用softmax loss训练最终分类器的主分支外，另一个分类器被应用在第四阶段后，即res4b22残差块。与中继反向传播[32]将后向辅助损失阻断到几个浅层不同，我们让这两个损失函数通过所有的前层。辅助损失有助于优化学习过程，而主分支损失则承担最大的责任。我们增加权重来平衡辅助损失。

在测试阶段，我们放弃这个辅助分支，只使用经过优化的主分支进行最终预测。这种基于ResNet的FCN深度监督训练策略在不同的实验环境下都很有用，并且可以与预先训练好的ResNet模型一起使用。这体现了这种学习策略的通用性。更多的细节将在第5.2节提供。

5. 实验

我们提出的方法在场景解析和语义分割的挑战上是成功的。我们在本节中对三个不同的数据集进行了评估，包括ImageNet场景解析挑战2016[43]，PASCAL VOC 2012语义分割[8]和城市场景理解数据集Cityscapes[6]。

5.1. 实施细节

对于一个实用的深度学习系统，魔鬼总是在细节中。我们的实现是基于公共平台Caffe[15]。受[4]的启发，我们使用了 "poly "学习率策略，即当前学习率等于基础学习率乘以 $\over {maxiter}})^{power}$ 功率。我们将基础学习率设置为0.01，功率为0.9。通过增加迭代次数可以提高性能，ImageNet实验的迭代次数为150K，PASCAL VOC为30K，Cityscapes为90K。动量和权重衰减分别设置为0.9和0.0001。对于数据增强，我们对所有的数据集都采用了随机镜像和0.5到2之间的随机调整，另外还增加了10到10度之间的随机旋转，以及ImageNet和PASCAL VOC的随机高斯模糊度。这种全面的数据增强方案使网络能够抵抗过度拟合。我们的网络包含了按照[4]的稀释卷积。

在实验过程中，我们注意到适当大的 "cropsize "可以产生良好的性能，而批量归一化[14]层中的 "batchsize "则非常重要。由于GPU卡的物理内存有限，我们在训练时将 "batchsize "设置为16。为了实现这一点，我们将[37]中的Caffe与分支[4]一起修改，使其支持基于OpenMPI对从多个GPU收集的数据进行批量归一化。对于辅助损失，我们在实验中设置权重为0.4。

5.2. ImageNet场景解析挑战赛2016

数据集和评估指标 ImageNet场景解析挑战赛2016中使用了ADE20K数据集[43]。与其他数据集不同的是，ADE20K对多达150个类别和多样化的场景有更大的挑战性，总共有1038个图像级别的标签。挑战数据被分为20K/2K/3K图像，用于训练、验证和测试。同时，它需要对场景中的物体和东西进行解析，这使得它比其他数据集更难。为了评估，我们使用了像素精度（Pixel Acc.）和类间交集的平均值（Mean IoU）。

表1. 对PSPNet不同设置的调查。基准是基于ResNet50的FCN与扩张的网络。'B1'和'B1236'分别表示bin大小{1×1}和{1×1,2×2,3×3,6×6}的集合特征图。'MAX'和'AVE'分别代表最大池化和平均池化操作。'DR'表示在池化后采取降维措施。结果在单尺度输入的验证集上进行了测试。

PSPNet的消融研究 为了评估PSPNet，我们进行了几种设置的实验，包括最大和平均的池化类型，只用一个全局特征或四级特征的池化，在池化操作后和串联前有无降维。如表1所示，在所有设置中，平均池化的效果都比最大池化好。使用金字塔解析的池化效果优于使用全局池化的效果。通过降维，性能得到进一步提高。使用我们提出的PSPNet，在平均IoU和Pixel Acc.(%)方面的最佳设置产生了41.68/80.04的结果，比Liu等人[24]提出的40.07/79.52的全局平均集合要高出1.61/0.52。与基线相比，PSPNet在绝对改善方面优于它4.45/2.03，在相对差异方面优于它11.95/2.60。

表2. 在辅助分支中设置一个适当的损失权重α是很重要的。'AL'表示辅助损失。基准是基于ResNet50的FCN与扩张的网络。根据经验，α=0.4产生了最好的性能。结果是在验证集上用单尺度输入进行测试。

辅助损失的消减研究 引入的辅助损失有助于优化学习过程，同时不影响主分支的学习。我们尝试将辅助损失权重α设置在0和1之间，并在表2中显示结果。基准线使用基于ResNet50的FCN与扩张网络，用主分支的softmax损失进行优化。添加辅助损失分支，α=0.4产生最佳性能。它在平均IoU和Pixel Acc.（%）方面优于基线，改善了1.41/0.94。我们相信，鉴于新的增强辅助损失，更深的网络将受益更多。

图5. 性能随着网络的深入而增长。这些结果是在单尺度输入的验证集上得到的。

预训练模型的消融研究 在以前的工作中，较深的神经网络已被证明有利于大规模的数据分类。为了进一步分析PSPNet，我们对不同深度的预训练ResNet进行了实验。我们测试了{50，101，152，269}四个深度。如图5所示，在相同的设置下，将ResNet的深度从50增加到269，可以将(平均IoU+像素Acc.)/2(%)的得分从60.86提高到62.35，绝对值提高1.49。表3列出了由不同深度ResNet模型预训练的PSPNet的详细分数。

表3. 更深的预训练模型获得更高的性能。括号内的数字是指ResNet的深度，'MS'表示多尺度测试。

表4. 我们提出的PSPNet的详细分析和与其他的比较。除最后一行外，我们的结果是在单尺度输入的验证集上得到的。FCN、SegNet和DilatedNet的结果已在[43]中报告。'DA '指的是我们进行的数据增强，'AL'表示我们添加的辅助损失，'PSP '代表提议的PSPNet。'MS'表示使用了多尺度测试。

更详细的性能分析我们在表4中展示了对ADE20K验证集的更详细分析。除了最后一行，我们所有的结果都使用了单量程测试。"ResNet269+DA+AL+PSP+MS "使用了多尺度测试。我们的基线是由带有扩张网络的ResNet50改编的，它产生了MeanIoU 34.28和Pixel Acc. 76.35。可能由于强大的ResNet[13]，它的性能已经超过了其他先前的系统。

我们提出的架构与基线相比有了进一步的改进。使用数据增强，我们的结果超过基线1.54/0.72，达到35.82/77.07。使用辅助损失可以进一步提高1.41/0.94，达到37.23/78.01。使用PSPNet，我们注意到4.45/2.03的改进相对更明显。结果达到41.68/80.04。与基线结果相比，绝对进步为7.40/3.69，相对进步为21.59/4.83(%)。ResNet269的更深的网络产生了更高的性能，达到43.81/80.88。最后，多尺度测试方案将分数提高到44.94/81.69。

表5. 2016年ImageNet场景解析挑战赛的结果。列出了每个团队的最佳作品。最终得分是平均IoU和Pixel Acc的平均值。结果是在测试集上评估的。

挑战赛的结果 使用所提出的架构，我们的团队在2016年ImageNet场景解析挑战赛中获得了第一名。表5显示了这次比赛的一些结果。我们提交的合集在测试集上取得了57.21%的分数。我们的单模型得到了55.38%的分数，这甚至高于其他几个多模型的合集提交。这个分数比验证集的分数低，可能是由于验证集和测试集的数据分布不同。如图(d)所示，PSPNet解决了FCN中的常见问题。图6显示了另一些对ADE20K验证集的解析结果。与基线相比，我们的结果包含更准确和详细的结构。

图6. 对ADE20K的视觉改进，PSPNet产生了更准确和详细的结果。

5.3. PASCAL VOC 2012

我们的PSPNet在语义分割方面的工作也令人满意。我们在PASCAL VOC 2012分割数据集[8]上进行了实验，其中包含20个物体类别和一个背景类别。按照[26, 7, 31, 3]的程序，我们使用带有[10]注释的增强数据，产生了10,582、1,449和1,456张图像用于训练、验证和测试。结果如表6所示，我们将PSPNet与之前在测试集上表现最好的方法进行比较，有两种设置，即在MS-COCO数据集上进行或不进行预训练[21]。用MS-COCO进行预训练的方法用"†"标记。为了与当前基于ResNet的框架[38, 9, 4]在场景解析/语义分割任务中进行公平的比较，我们在没有CRF等后处理的情况下建立了基于ResNet101的架构。我们用几个规模的输入来评估PSPNet，并采用了[3, 24]的平均结果。

表6. PASCAL VOC 2012测试集的每类结果。在MS-COCO上预训练的方法用'†'标记。

如表6所示，PSPNet在这两种情况下都优于先前的方法。只用VOC 2012的数据进行训练，我们达到了82.6%的准确率¹ - 我们在所有20个类上都得到了最高的准确率。当PSPNet用MS-COCO数据集进行预训练时，它达到了85.4%的准确率²，20个类别中的19个获得了最高的准确率。有趣的是，我们只用VOC 2012数据训练的PSPNet胜过了用MS-COCO预训练模型训练的现有方法。

人们可能会认为，由于ResNet是最近提出的，我们的基于分类模型比之前的几种方法更强大。为了展示我们的独特贡献，我们表明我们的方法也优于使用相同模型的先进框架，包括FCRNs[38]、LRR[9]和DeepLab[4]。在这个过程中，我们甚至没有像[4，9]那样采用耗时但有效的后处理方法，如CRF。

图7. 对PASCAL VOC 2012数据的视觉改进。PSPNet产生了更准确和详细的结果。

图7中显示了几个例子。对于第一行的 “奶牛”，我们的基线模型将其视为 "马 "和 “狗”，而PSPNet纠正了这些错误。对于第二行和第三行的 "飞机 "和 “桌子”，PSPNet发现了丢失的部分。对于后面几行的 “人”、"瓶子 "和 “植物”，与基线模型相比，PSPNet在图像中的这些小尺寸物体类别上表现良好。更多PSPNet和其他方法的视觉对比见图9。

图9. 对PASCAL VOC 2012数据的视觉比较。(a)图像。(b) 地面实况。(c\) FCN[26]。(d) DPN [24]。(e) DeepLab [4]。(f) PSPNet.

5.4. Cityscapes

Cityscapes[6]是最近发布的一个用于城市场景语义理解的数据集。它包含了5,000张高质量的像素级精细注释的图像，这些图像是从不同季节的50个城市收集的。这些图像被分为编号为2,975、500和1,525的集合，用于训练、验证和测试。它定义了19个类别，包括东西和物体。此外，还提供了20,000张粗略注释的图像，用于两种设置的比较，即只用精细数据进行训练或同时使用精细和粗略数据。使用精细和粗略数据训练的方法用"‡"标记。详细结果列于表7。我们的基础模型是DeepLab[4]中的ResNet101，以进行公平的比较，测试程序遵循第5.3节。

表7. 城市景观测试集的结果。使用精细和粗略数据训练的方法用"‡"标记。

图8. 城市景观数据集上的PSPNet结果实例。

表7中的统计数据显示，PSPNet以明显的优势超过了其他方法。使用精细和粗略的数据进行训练，使我们的方法产生了80.2的准确性。几个例子显示在图8中。表8显示了测试集上每类的详细结果。

表8. 城市景观测试集的每类结果。使用细集和粗集训练的方法都标有"‡"。

6. 结语

我们提出了一个有效的金字塔场景解析网络，用于复杂场景的理解。全局的金字塔集合特征提供了额外的上下文信息。我们还为基于ResNet的FCN网络提供了一个深度监督的优化策略。我们希望公开的实施细节可以帮助社区采用这些有用的策略进行场景解析和语义分割，并推动相关技术的发展。

致谢

我们要感谢孙刚和肖彤在训练基本分类模型方面的帮助，感谢罗群的技术支持。这项工作得到了香港特区研究资助局的资助（项目编号：2150760）。

References

[1] A. Arnab, S. Jayasumana, S. Zheng, and P . H. S. Torr. Higher order conditional random fields in deep neural networks. In ECCV, 2016. 2
[2] V . Badrinarayanan, A. Kendall, and R. Cipolla. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. arXiv:1511.00561, 2015. 6
[3] L. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L.Y uille. Semantic image segmentation with deep convolutional nets and fully connected crfs. arXiv:1412.7062, 2014.1, 2, 4, 7, 8
[4] L. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L.Y uille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. arXiv:1606.00915, 2016. 5, 7, 8, 9
[5] L. Chen, Y . Yang, J. Wang, W. Xu, and A. L. Y uille. Attention to scale: Scale-aware semantic image segmentation. In CVPR, 2016. 2
[6] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler,R. Benenson, U. Franke, S. Roth, and B. Schiele. The cityscapes dataset for semantic urban scene understanding.In CVPR, 2016. 2, 5, 7
[7] J. Dai, K. He, and J. Sun. Boxsup: Exploiting bounding boxes to supervise convolutional networks for semantic segmentation. In ICCV, 2015. 7, 8
[8] M. Everingham, L. J. V . Gool, C. K. I. Williams, J. M. Winnand A. Zisserman. The pascal visual object classes VOC challenge. IJCV, 2010. 1, 2, 5, 7
[9] G. Ghiasi and C. C. Fowlkes. Laplacian pyramid reconstruction and refinement for semantic segmentation. In ECCV,2016. 7, 8, 9
[10] B. Hariharan, P . Arbelaez, L. D. Bourdev, S. Maji, and J. Malik. Semantic contours from inverse detectors. In ICCV,2011. 7
[11] B. Hariharan, P . A. Arbeláez, R. B. Girshick, and J. Malik.Hypercolumns for object segmentation and fine-grained localization. In CVPR, 2015. 2
[12] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, 2014. 1, 3
[13] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016. 2, 3, 4, 5, 6
[14] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015. 5
[15] Y . Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. B.Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. In ACM MM,2014. 5
[16] I. Kreso, D. Causevic, J. Krapac, and S. Segvic. Convolutional scale invariance for semantic segmentation. In GCPR,2016. 8, 9
[17] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012. 2, 4
[18] S. Lazebnik, C. Schmid, and J. Ponce. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In CVPR, 2006. 1, 2, 3
[19] C. Lee, S. Xie, P . W. Gallagher, Z. Zhang, and Z. Tu. Deeplysupervised nets. In AISTATS, 2015. 4
[20] G. Lin, C. Shen, I. D. Reid, and A. van den Hengel. Efficient piecewise training of deep structured models for semantic segmentation. In CVPR, 2016. 8, 9
[21] T. Lin, M. Maire, S. J. Belongie, J. Hays, P . Perona, D. Ramanan, P . Dollár, and C. L. Zitnick. Microsoft coco: Common objects in context. In ECCV, 2014. 7
[22] C. Liu, J. Y uen, and A. Torralba. Nonparametric scene parsing: Label transfer via dense scene alignment. In CVPR,2009. 1
[23] C. Liu, J. Y uen, and A. Torralba. Nonparametric scene parsing via label transfer. TPAMI, 2011. 1
[24] W. Liu, A. Rabinovich, and A. C. Berg. Parsenet: Looking wider to see better. arXiv:1506.04579, 2015. 2, 3, 4, 5, 7, 9
[25] Z. Liu, X. Li, P . Luo, C. C. Loy, and X. Tang. Semantic image segmentation via deep parsing network. In ICCV, 2015.2, 8, 9
[26] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. 1, 2,6, 7, 8, 9
[27] A. Lucchi, Y . Li, X. B. Bosch, K. Smith, and P . Fua. Are spatial and global constraints really necessary for segmentation?In ICCV, 2011. 2
[28] M. Mostajabi, P . Yadollahpour, and G. Shakhnarovich. Feedforward semantic segmentation with zoom-out features. In CVPR, 2015. 8
[29] R. Mottaghi, X. Chen, X. Liu, N. Cho, S. Lee, S. Fidler,R. Urtasun, and A. L. Y uille. The role of context for object detection and semantic segmentation in the wild. In CVPR,2014. 1
[30] H. Noh, S. Hong, and B. Han. Learning deconvolution network for semantic segmentation. In ICCV, 2015. 2, 8
[31] G. Papandreou, L. Chen, K. P . Murphy, and A. L. Y uille.Weakly-and semi-supervised learning of a deep convolutional network for semantic image segmentation. In ICCV,2015. 7
[32] L. Shen, Z. Lin, and Q. Huang. Relay backpropagation for effective learning of deep convolutional neural networks. In ECCV, 2016. 4, 5
[33] K. Simonyan and A. Zisserman. V ery deep convolutional networks for large-scale image recognition.
arXiv:1409.1556, 2014. 2, 4
[34] C. Szegedy, W. Liu, Y . Jia, P . Sermanet, S. E. Reed,D. Anguelov, D. Erhan, V . V anhoucke, and A. Rabinovich.Going deeper with convolutions. In CVPR, 2015. 2, 3
[35] C. Szegedy, S. E. Reed, D. Erhan, and D. Anguelov. Scalable, high-quality object detection. arXiv:1412.1441, 2014.2
[36] R. V emulapalli, O. Tuzel, M. Liu, and R. Chellappa. Gaussian conditional random field network for semantic segmentation. In CVPR, 2016. 8
[37] L. Wang, Y . Xiong, Z. Wang, and Y . Qiao. Towards good practices for very deep two-stream convnets.arXiv:1507.02159, 2015. 5
[38] Z. Wu, C. Shen, and A. van den Hengel. Bridging category-level and instance-level semantic image segmentation. arXiv:1605.06885, 2016. 7, 8
[39] F. Xia, P . Wang, L. Chen, and A. L. Y uille. Zoom better to see clearer: Human and object parsing with hierarchical auto-zoom net. In ECCV, 2016. 2
[40] F. Y u and V . Koltun. Multi-scale context aggregation by dilated convolutions. arXiv:1511.07122, 2015. 1, 2, 4, 6, 8,9
[41] S. Zheng, S. Jayasumana, B. Romera-Paredes, V . Vineet,Z. Su, D. Du, C. Huang, and P . H. S. Torr. Conditional random fields as recurrent neural networks. In ICCV, 2015. 2,8, 9
[42] B. Zhou, A. Khosla, À. Lapedriza, A. Oliva, and A. Torralba. Object detectors emerge in deep scene cnns.arXiv:1412.6856, 2014. 3
[43] B. Zhou, H. Zhao, X. Puig, S. Fidler, A. Barriuso, and A. Torralba. Semantic understanding of scenes through theADE20K dataset. arXiv:1608.05442, 2016. 1, 2, 3, 5, 6