FCN（Fully Convolutional Networks for Semantic Segmentation）全文翻译

人还未醒

已于 2022-10-02 15:23:20 修改

阅读量1.8k

点赞数 3

于 2022-10-02 15:22:53 首次发布

本文链接：https://blog.csdn.net/HSJSJH/article/details/127142985

版权

本人计算机研一小白，最近再看语义分割的相关论文，看到这篇文章被誉为语义分割的开山之作，于是花了两周对全文进行了翻译。文章有不对之处，敬请各位批评指正。

用于语义分割的全卷积网络

摘要

卷积网络是一种能够生成特征层次结构的，强大的视觉模型。我们通过训练端到端，像素到像素来展示卷积网络本身，这胜过了语义分割最先进的技术。我们的关键点在于构建“完全卷积”网络，它可以接受任意大小的输入，并通过高效的推理和学习产生相应大小的输出。我们定义并详细描述了全卷积网络的空间，解释了它们在空间密集预测任务中的应用，并将它们与先前的模型联系起来。我们将当代分类网络(AlexNet [19]， VGG net[31]和GoogLeNet[32])改编为完全卷积网络，并通过微调[4]将其学习表示转移到分割任务。然后，我们定义了一个新的体系结构，该体系结构将来自较深的粗层的语义信息与来自较浅的细层的外观信息结合起来，以生成精确而详细的分割。我们的全卷积网络实现了PASCAL VOC(20%的相对改进，2012年平均IU为62.2%)、NYUDv2和SIFT Flow的最先进分割，而对典型图像的推断时间不到五分之一秒。

1. 引言

卷积网络正在推动识别技术的进步。卷积神经网络不仅在全图像分类方面得到了改进[19,31,32]，而且在具有结构化输出的局部任务上也取得了进展。这包括了边界框对象检测（bounding box object detection）[29,12,17]、部分和关键点预测[39,24]和局部对应[24,9]的提升。

从粗糙到精细推理，很显然下一步就是对每个像素进行预测。之前的方法通常是用卷积神经网络进行语义分割，其中每个像素都以它周围对象或区域的类型进行标记，这项工作解决了这个缺点。我们发现，一个经过训练的端到端、像素到像素的全卷积网络（FCN）在语义分割方面超过了最先进的技术，也不需要先进的设备。据我们所知，这是第一项端到端训练FCNs（1）进行像素预测和（2）进行监督前训练的工作。现有网络的完全卷积版本可以预测任意大小输入的密集输出。学习和推理的整个过程都是通过密集的前馈计算和反向传播实现的。在网络内上采样层可以在具有下采样池的网络中实现像素预测和学习。

上述方法在渐近和绝对两方面都是有效的，并且排除了其他方法所带来的复杂性。Patchwise训练很常见[27,2,8,28,11]，但缺乏全卷积训练的效率。我们的方法没有使用预处理和后处理的复杂性，包括超像素[8,16]，建议[16,14]，或通过随机场或局部分类器[8,16]进行事后细化。我们的模型将最近在分类[19,31,32]方面的成功转化为密集预测，方法是将分类网络重新解释为完全卷积的，并根据其已学习的表示进行微调。相比之下，之前的研究在没有监督的预训练的情况下应用了小型卷积网络[8,28,27]。

语义分割面临语义和位置之间的内在冲突:全局信息解决做什么问题，而局部信息解决在哪里问题。深度特性在一个局部到全局的金字塔中，层次结构由位置和语义共同编码。我们在第4.2节中定义了一个新的“跳跃”体系结构，将深度、粗略、语义信息和浅、精细、外观信息结合起来(参见图3)。

在下一节中，我们回顾了深度分类网络、FCNs的相关工作，以及使用卷积网络进行语义分割的最新方法。之后会解释FCN设计和密集预测之间的权衡，介绍我们的网络内上采样和多层组合的体系结构，并描述我们的实验框架。最后，我们展示了PASCAL VOC 2011-2、NYUDv2和SIFT Flow的最好结果。

2. 相关工作

我们的方法借鉴了深度网络在图像分类[19,31,32]和迁移学习[4,38]方面的最新成果。迁移学习首先在各种视觉识别任务上得到证明[4,38]，然后在检测上得到证明，并在混合提议分类器模型中的实例和语义分割上得到证明[12,16,14]。我们现在重新构建和微调分类网络，以指导语义分割的密集预测。我们绘制了FCNs的空间，并在这个框架中定位了以前的模型，包括历史的和最近的。

全卷积网络 据我们所知，将卷积网络扩展到任意大小的输入的想法首先被Matan等人[25]提出，他们扩展了经典的LeNet[21]来识别数字字符串。因为他们的网络仅限于一维输入字符串，所以Matan等人使用维特比解码来获得它们的输出。Wolf和Platt[37]将卷积网络的输出扩展为邮政地址块四角的二维检测分数映射。上述以往的两项工作都是通过完全卷积的方法进行推理和学习的。Ning等人[27]用完全卷积推理定义了一个用于秀丽隐杆线虫组织粗多级分割的卷积。

在当今的多层网络时代，全卷积计算也得到了应用。Sermanet等人[29]的滑动窗口检测，Pinheiro和Collobert[28]的语义分割，以及Eigen等人[5]的图像恢复都进行了完全卷积推理。虽然完全卷积训练很少，但Tompson等人[35]有效地使用了这种训练来学习端到端部分检测器和用于姿态估计的空间模型，尽管他们没有阐述或分析这种方法。

另外，He[17]等人放弃分类网的非卷积部分来制作特征提取器。他们将提案和空间金字塔池结合起来，产生一个本地化的、固定长度的分类特征。虽然快速有效，但这种混合模型不能端到端学习。

密集预测与卷积网络 最近的一些工作已经将卷积算法应用到密集预测问题中，包括Ning等人[27]、Farabet等人、Pinheiro and Collobert的语义分割；Ciresan等[2]对电子显微镜的边界预测和Ganin和Lempitsky[11]对自然图像的混合神经网络/最近邻模型的边界预测; 以及Eigen等[5,6]的图像恢复和深度估计。这些方法的共同点包括：

限制容量和接受域的小模型；
Patchwise训练[27,2,8,28,11]；
通过超像素投影、随机场正则化、滤波或局部分类进行后处理[8,2,11]；
由OverFeat[29]介绍的输入移位和输出交错的密集输出[28,11]；
多尺度金字塔处理[8,28,11]；
饱和双曲正切非线性
全体效果

而我们的方法没有这种机制。然而，我们从FCNs的角度研究了Patchwise训练3.4和“shift-and-stitch”的密集输出3.2。我们还讨论了内网络上采样3.3，其中Eigen et al.[6]的全连接预测是一个特例。

与这些现有方法不同的是，我们对深度分类体系结构进行了调整和扩展，将图像分类作为有监督的预训练，并对全卷积进行微调，从而从整个图像输入和整个图像地真值进行简单有效的学习。

Hariharan等人[16]和Gupta等人[14]同样将深度分类网适应于语义分割，但也是在混合提议-分类器模型中进行的。这些方法通过语义分割和实例分割的采样边界框和(或)区域提议来微调R-CNN系统[12]。这些方法都不是端到端学习的。

它们分别在PASCAL VOC分割和NYUDv2分割上获得了最先进的结果，因此我们直接将我们的独立端到端FCN与它们在章节中的语义分割结果进行比较。

3. 全卷积网络

卷积网络中的每一层数据都是大小为h × w × d的三维数组，其中h和w为空间维度，d为特征或通道维度。第一层是图像，像素大小为h × w，有d个颜色通道。较高层的位置对应于图像中与它们路径相连的位置，这些位置称为它们的接受域。

卷积是建立在平移不变性上的。它们的基本组件(卷积、池化和激活函数)作用于局部输入区域，只依赖于相对空间坐标。为特定层中位置(i, j)处的数据向量写入xij ，下面的层写入yij ，这些函数计算yij 的输出通过下面的公式：

yij = fks ({xsi +δi,sj+δj}0≤δi,δj≤k)

其中k称为核大小，s是步幅或子采样因子，fks 决定了层类型：一个矩阵乘法用于卷积或平均池，一个空间最大值用于最大池，或一个激活函数的元素非线性，等等用于其他类型的层。

该函数形式在复合下保持，核大小和步长服从变换规则如下：

fks ◦ gk's' = (f ◦ g)k' +(k−1) s' ,ss'

一般的深度网络计算的是一般的非线性函数，而只有这种形式的层的网络计算的是非线性过滤器，我们称之为深度过滤器或全卷积网络。FCN自然作用于任意大小的输入，并产生相应(可能是重采样的)空间维度的输出。

由FCN组成的实值损失函数来定义任务。如果损失函数是最后一层空间维度的总和，，它的梯度是每一个空间分量的梯度的和。因此，在整个图像上计算的l上的随机梯度下降将与l' 上的随机梯度下降相同，将最后一层的所有接受域作为一个子集。

当这些接收域显著重叠时，前馈计算和反向传播在整个图像上逐层计算时都要比独立地逐个补丁计算更有效。

接下来，我们将解释如何将分类网转换为产生粗输出映射的全卷积网络。对于像素级预测，我们需要将这些粗输出连接回像素。第3.2节描述了OverFeat[29]为此引入的一个技巧。我们通过将其重新解释为一个等价的网络修正来观察这个技巧。作为一种高效、有效的替代方法，我们在3.3节中引入反褶积层进行上采样。在第3.4节中，我们考虑了通过patchwise采样进行训练，并在第4.3节中给出了我们的整个图像训练更快且同样有效的证据。

3.1 应用分类器进行密集预测

典型的识别网络，包括LeNet[21]、AlexNet[19]及其更深层的后继者[31,32]，表面上接受固定大小的输入，产生非空间输出。这些网络的完全连接层具有固定的尺寸，并抛弃了空间坐标。然而，这些完全连接的层也可以被视为包含覆盖其整个输入区域的内核的卷积。这样做将它们转换为完全卷积网络，接受任何大小的输入和输出分类映射。这种转换见图2。（相比之下，非卷积网络，如Le等人[20]的网络，缺乏这种能力）。

此外，虽然得到的映射等价于在特定输入补丁上对原始网络的评估，但计算在这些补丁的重叠区域上被高度摊销。例如，AlexNet需要1.2毫秒(在典型的GPU上)才能生成227 × 227图像的分类分数，而完全卷积版本需要22毫秒才能从500 × 500图像中生成10 × 10的输出网格，这比原始方法（假设单个图像输入的高效批处理。单个图像的分类评分需要5.4毫秒才能产生，这比完全卷积版本慢了近25倍）快5倍多。

这些卷积化模型的空间输出映射使它们成为解决语义分割等密集问题的自然选择。由于每个输出单元都可以获得地面真值，因此向前和向后传递都是直接的，并且都利用了卷积固有的计算效率(和积极优化)。

AlexNet示例对应的反向时间为单张图像2.4毫秒，对一个完全卷积的10 × 10输出映射为37毫秒，结果与向前传递相似。这种密集的反向传播如图1所示：

虽然我们将分类网重新解释为完全卷积，可以生成任何大小的输入的输出映射，但通过二次抽样，输出维数通常会减少。分类网子样本保持小的过滤器和合理的计算要求。这将使这些网络的全卷积版本的输出粗化，将其从输入的大小中减少一个等于输出单元的接收域的像素步幅的因子。

3.2 Shift-and-stitch是稀疏过滤

由OverFeat[29]介绍，输入移位和输出交错是密集预测领域的一种技巧，这种技巧是通过没有插值的粗输出来实现的。如果输出被下采样f倍，输入被右移x个像素，向下移y个像素（通过左侧和顶部填充），对于(x, y)的每一个值都有(x, y)∈{0，…， f−1}×{0，…， f−1}。这些f2 输入都经过卷积网络，输出是交错的，因此预测与它们的接收域中心的像素相对应。

只要改变转换器的过滤器和层间距，才可以产生与这种shift-and-stitch技巧相同的输出。考虑一个输入步长为s的层(卷积或池化)，以及下面一个滤波权值为fij 的卷积层(省略特征维度，此处无关)。设置较低层的输入步幅为1，将其输出的采样值提高s倍，就像shift-and-stitch一样。然而，将原始滤波器与上采样的输出进行卷积不会产生与上述技巧相同的结果，因为原始滤波器只看到其(现在是上采样的)输入的减少部分。为了再现这个技巧，将滤波器放大为：

(i和j从零开始)。复制这个技巧的全部净输出需要一层一层地重复放大这个滤波器，直到所有的子采样都被删除。

简单地减少网络中的子抽样是一种权衡：过滤器可以看到更细的信息，但接收域更小，计算时间更长。我们已经知道的是shift-and-stitch技巧是另一种权衡：在不降低滤波器的接收域大小的情况下，输出变得更加密集，但是禁止滤波器以比原始设计更细的尺度访问信息。

虽然我们已经做了shift-and-stitch的初步实验，但我们没有在我们的模型中使用它。我们发现，通过上采样的学习，如下一节所述，会更加有效和高效，特别是当与后面所述的跳跃层融合相结合时。

3.3 上采样是向后跨步卷积

另一种将粗输出连接到密集像素的方法是插值。例如，简单的双线性插值只依赖于输入和输出单元格的相对位置的线性映射，通过从最近的四个输入计算每个输出yij 。从某种意义上说，带因子f的上采样是卷积，输入步幅为1/f。只要f是积分，自然想到的上采样方法就是输出步长为f的反向卷积(有时称为反卷积)。这样的操作实现起来很简单，因为它只是将卷积的正向和反向传递互换。因此，上采样在内网中是通过从像素损耗反向传播进行端到端学习来执行的。

注意，这样一层中的反褶积滤波器不需要固定(例如，双线性上采样)，但可以学习。一堆反褶积层和激活函数甚至可以学习非线性的上采样。

在实验中，我们发现内网中上采样对于学习密度预测是快速有效的。我们最好的分割架构使用这些层来学习上采样，以便在4.2节中进行精细化预测。

3.4 Patchwise训练是损失抽样

在随机优化中，梯度计算是由训练分布驱动的。patchwise训练和全卷积训练都可以产生任何分布，尽管它们的相对计算效率取决于重叠和小批大小。全图像全卷积训练与patchwise训练是相同的，其中每批包括所有单元的接受域低于图像(或图像集合)的损失。虽然这比补丁的统一采样更有效，但它减少了可能批次的数量。然而，图像中随机选择的补丁可以简单地恢复。将损失限制为其空间项的随机抽样子集(或者等效地在输出和损失之间应用DropConnect mask [36])将补丁从梯度计算中排除。

如果保留的补丁仍然有显著的重叠，全卷积计算仍然会加快训练速度。如果梯度是在多次向后通过中累积的，批次中可以包括来自几张图像的补丁。（注意，并不是所有可能的补丁都是这样包含的，因为最后一层单元的接收域位于一个固定的跨网格上。然而，通过将图像向左或向下移动一个到步幅的随机值，可以从所有可能的补丁中恢复随机选择。）

Patchwise训练中的采样可以纠正类不平衡[27,8,2]，减少密集补丁的空间相关性[28,16]。在全卷积训练中，也可以通过对损失进行加权来实现类平衡，并且可以使用损失抽样来处理空间相关性。

我们在4.3节中探讨了抽样训练，并没有发现它为密集预测产生更快或更好的收敛性。全图形训练是有效和高效的。

4. 分割架构

我们将ILSVRC分类器转换为FCNs，并通过网络内上采样和像素损耗对其进行密集预测。我们通过微调训练细分。接下来，我们构建了一个新的跳跃体系结构，它结合了粗的、语义的和局部的外观信息来优化预测。

为此，我们在PASCAL VOC 2011分割挑战[7]上进行了培训和验证。我们对逐像素多项逻辑损失进行训练，并用平均像素交集/并集的标准度量进行验证，并对包括背景在内的所有类取平均值。训练忽略了在基本事实中被掩盖掉的像素(因为是模糊的或困难的)。

4.1 从分类器到密集FCN

我们首先将经过验证的分类体系结构卷积化，如第3节所示。我们考虑了赢得ILSVRC12的AlexNet（使用公开的CaffeNet参考模型）架构[19]，以及在ILSVRC14中表现非常好的VGG nets[31]和GoogLeNet（由于GoogLeNet没有公开版本，我们使用自己的重新实现。我们的版本使用较少的数据增强进行训练，获得了68.5%的top-1和88.4%的top-5 ILSVRC准确率。）[32]。我们选择VGG 16层网络（使用Caffe模型动物园的公开版本），我们发现它在这个任务中等价于19层网络。对于GoogLeNet，我们只使用最终的损耗层，并通过丢弃最终的平均池化层来提高性能。我们通过丢弃最后的分类器层来砍掉每个网络，并将所有完全连接的层转换为卷积。如3.3节所述，我们附加一个通道尺寸为21的1 × 1卷积，以预测每个粗输出位置的每个PASCAL类(包括背景)的得分，然后是通过一个反卷积层，以双线性上采样粗输出到像素密度的输出。表1比较了初步验证结果和每个网络的基本特征。我们展示了在固定学习率(至少175代)下收敛后获得的最佳结果。

从分类到分割的微调为每个网络提供了合理的预测。即使是最差的模型也能达到最好性能的75%。在val（在PASCAL VOC 2011 val集中包含了来自[15]的训练图像，因此我们在736张图像的非交叉集上进行验证。本文的一个早期版本错误地对整个val集进行了计算。）上，分段配置的VGG网(FCN-VGG16)似乎已经是最先进的，平均IU为56.0，而测试[16]为52.6。在val子集上，使用额外数据进行训练可以将性能提高到59.4个平均IU。训练细节见4.3节。

尽管分类精度相似，我们的GoogLeNet实现并没有匹配这个分割结果。

4.2 做什么和在哪里的结合

我们定义了一种新的全卷积网(FCN)来分割，它结合了特征层次，并细化了输出的空间精度。参见图3。

尽管完全卷积化的分类器可以像4.1中那样进行细分，甚至在标准度量中获得很高的分数，但它们的输出是令人不满的粗糙结果(参见图4)。最终预测层的32像素步幅限制了上采样输出的细节尺度。

我们通过添加链接来解决这个问题，这些链接将最终的预测层与更低的层结合起来，并具有更细的步长。这将直线拓扑结构转换为DAG，其边缘从较低的层跳到较高的层(图3)。因为它们看到的像素更少，更精细的预测需要更少的层数，所以从较浅的网络输出中做出预测是有意义的。将细层和粗层结合起来，可以使模型做出符合全局结构的局部预测。通过类比Florack et al.[10]的多尺度局部jet，我们将我们的非线性局部特征层次称为deep jet。

我们首先通过预测16像素的步幅层将输出步幅分成两半。我们在pool4之上添加1 × 1卷积层来生成额外的类预测。我们将这个输出与在conv7(卷积化fc7)上计算的预测在步幅32处融合，通过添加2×上采样层，并对两个预测相加。（由于梯度切换，最大融合使得学习变得困难。）(见图3)。我们将2×上采样初始化为双线性插值，但允许像3.3节中描述的那样学习参数。最后，步幅16预测被上采样回到图像中。我们将其称之为FCN-16s网络。FCN-16s是端到端学习的，用最后一个粗网的参数初始化，我们现在称之为FCN-32s。作用在pool4上的新参数是零初始化的，因此网络从未修改的预测开始。学习率下降了1 / 100。

学习这个跳跃网可以将验证集的性能从3.0的平均IU提高到62.4。图4显示了输出精细结构的改进。我们将这种融合与仅从pool4层学习(这会导致较差的性能)进行比较，并在不添加额外链接的情况下简单地降低学习率(这会导致微不足道的性能改进，而不会提高输出的质量)。

我们继续采用这种方式，将pool3的预测与pool4和conv7融合的2×上采样的预测融合在一起，构建净FCN-8s。我们获得了一个微小的额外改进到62.7平均IU，并发现在我们的输出的流畅性和细节上有轻微的改善。在这一点上，我们的融合改进已经达到了递减的回报，无论是就强调大规模正确性的IU度量而言，还是就可见的改进而言，如图4所示，所以我们不再继续融合更低的层。

其他方法的细化 减小池化层的步幅是获得更精确预测的最直接方法。然而，这样做对于我们基于VGG16的网络是有问题的。将pool5层设置为步长1需要卷积化的fc6内核大小为14 × 14，以保持其接收域大小。除了计算成本外，我们在学习这么大的过滤器时也遇到了困难。我们尝试用更小的过滤器重新构建pool5之上的层，但没有成功地达到类似的性能;一个可能的解释是，来自ImageNet训练的上层权重的初始化很重要。

另一种获得更精确预测的方法是使用3.2节中描述的shift-and-stitch技巧。在有限的实验中，我们发现这种改进比方法的成本不如低于层融合。

4.3 实验框架

最优化 我们通过有动量的SGD（stochastic gradient decent 随机梯度下降）来训练。我们使用20个小批大小的图像和通过直线搜索来选择固定学习速率分别为10-3 , 10-4 ,和5-5 ,的FCN-AlexNet, FCN-VGG16和FCN-GoogLeNet。尽管我们发现训练对这些参数不敏感(但对学习率敏感)，但我们使用动量0.9，权重衰减为5-4 或2-4 ，并将偏差的学习率提高了一倍。我们对类评分卷积层进行零初始化，发现随机初始化既不会产生更好的性能，也不会产生更快的收敛。信息丢失包含在原始分类器网中使用的地方。

微调我们通过整个网络反向传播来微调所有层。如表2相比所示，单独微调输出分类器只产生70%的完整微调性能。考虑到学习基本分类网所需的时间，从零开始训练是不可行的。(注意，VGG网是分阶段训练的，而我们是从完整的16层版本开始初始化的。) 对于粗糙的FCN-32s版本，单个GPU的微调需要三天时间，升级到FCN-16s和FCN-8s版本则需要大约一天时间。

补丁抽样 我们的完整图像训练有效地将每个图像批量成一个大而重叠的规则中。相比之下，之前的工作对完整数据集上的补丁进行随机采样[27,2,8,28,11]，可能会导致更高的方差批次，这可能会加速收敛[22]。我们通过前面描述的方式对损失进行空间采样来研究这种权衡，并以某种概率1−p独立选择忽略每个最终层单元。为了避免改变有效批处理大小，我们同时以1/p的倍数增加每批处理的图像数量。注意，由于卷积的效率，对于足够大的p值(例如，根据3.1节中的数字，至少p > 0.2)，这种形式的拒绝采样仍然比patchwise训练更快。图5显示了这种抽样形式对收敛性的影响。我们发现，与整幅图像训练相比，采样对收敛速度的影响并不显著，但由于每批需要考虑的图像数量更多，采样需要花费更多的时间。因此，我们在其他实验中选择了未采样的完整图像训练。

类平衡 全卷积训练可以通过加权或采样损失来平衡类。虽然我们的标签有点不平衡(大约3/4是背景)，但我们发现类平衡是不必要的。

密集预测 通过网络内的反褶积层将分数上采样到输入维度。最后一层反卷积滤波器固定为双线性插值，中间上采样层初始化为双线性上采样，然后学习。Shift-and-stitch (章节3.2)，或过滤器稀疏等效，没有被使用。

增强我们尝试通过随机镜像和“抖动”图像来增强训练数据，将它们在每个方向上转换到32像素(最粗略的预测尺度)。这并没有产生明显的改善。

更多的训练数据 PASCAL VOC 2011分割挑战训练集，我们用于表1，标签了1112图像。Hariharan等人[15]为一个更大的8498 PASCAL训练图像集收集了标签，这些图像被用于训练之前最先进的系统SDS（Simultaneous detection and segmentation 同时检测和分割）[16]。该训练数据将FCNVGG16验证得分（在PASCAL VOC 2011 val集中包含了来自[15]的训练图像，因此我们在736张图像的非交叉集上进行验证。本文的一个早期版本错误地对整个val集进行了计算。）提高了3.4分，达到59.4平均IU。

实现所有模型都使用Caffe[18]在一台NVIDIA Tesla K40c上进行训练和测试。模型和代码将在出版时公开发布。

5. 结果

我们在语义分割和场景解析方面测试了我们的FCN，探索了PASCAL VOC、NYUDv2和SIFT Flow。虽然这些任务在历史上区分了对象和区域，但我们统一地将两者视为像素预测。我们在每个数据集上评估我们的FCN跳过架构，然后将其扩展到NYUDv2的多模块输入和SIFT Flow的语义和几何标签的多任务预测。

指标我们从常用的语义分割和场景解析评估中报告了4个指标，即像素精度的变化和区域交叉联合(IU)。设nij 为类i预测属于类j的像素数，其中有ncl 个不同的类，设为类i的像素总数。我们计算：

像素精度：
平均精度：
平均IU：
频率加权IU：

PASCAL VOC 表3给出了我们的FCN-8s在PASCAL VOC 2011和2012测试集上的性能，并将其与之前最先进的SDS[16]和著名的R-CNN[12]进行了比较。我们在平均IU（这是测试服务器提供的唯一指标。）上取得了最佳结果，相对差额为20%。推理时间减少了114×(仅换算，忽略建议和改进)或286×(总体)。

NYUDv2 [30] 是一个使用Microsoft Kinect收集的RGB-D数据集。它有1449张RGB-D图像，带有像素级标签，被Gupta[13]等人合并成一个40类的语义分割任务。我们报告了795张训练图像和654张测试图像的标准分割结果。(注:所有型号的选择都是在PASCAL 2011 val上执行的。) 表4给出了我们的模型在几种变化下的性能。首先，我们在RGB图像上训练未经修改的粗模型(FCN-32s)。为了增加深度信息，我们在一个升级的模型上进行训练，该模型接受四通道RGB-D输入(早期融合)。这几乎没有带来什么好处，可能是因为在整个模型中传播有意义的梯度非常困难。继Gupta等人[14]的成功之后，我们尝试了深度的三维HHA编码，仅在此信息上训练网络，以及RGB和HHA的“后期融合”，其中来自两个网络的预测在最后一层汇总，并端到端学习产生的双流网络。最后我们把这个后期融合网升级到16-stride的版本。

SIFT Flow 是一个包含2688张图像的数据集，包含33个语义类别(“桥”、“山”、“太阳”)和三个几何类别(“水平”、“垂直”和“顶点”)的像素标签。FCN可以自然地学习一种同时预测两种标签类型的联合表示。我们学习了一个双端版本的FCN-16s，具有语义和几何预测层和损失。被学习的模型在这两项任务上的表现与两个独立训练的模型一样好，而学习和推理的速度基本上与每个独立模型本身一样快。5中的结果是根据标准分割为2,488个训练图像和200个测试图像（在测试集中没有三个SIFT Flow类别。我们对所有33个类别进行了预测，但只包括在我们的评估中实际出现在测试集中的类别。这篇论文的早期版本报告了较低的平均IU，其中包括了评估中现有或预测的所有类别。）计算的，显示了两个任务的最先进性能。

6. 结论

全卷积网络是一类丰富的模型，现代分类卷积网络是其中的一个特例。认识到这一点，将这些分类网扩展到分割，并使用多分辨率层组合改进体系结构，极大地提高了最先进的水平，同时简化和加速了学习和推断。

感谢这项工作部分得到了DARPA MSEE和SMISC项目的支持，NSF奖励IIS1427425, IIS-1212798， IIS-1116411，NSF GRFP，丰田，伯克利愿景和学习中心的支持。我们非常感谢NVIDIA的GPU捐赠。我们感谢Bharath Hariharan和Saurabh Gupta提供的建议和数据集工具。我们感谢Sergio Guadarrama在Caffe复制了GoogLeNet。我们感谢Jitendra Malik的有益意见。感谢Wei Liu指出了我们的SIFT流平均IU计算的一个问题和我们的频率加权平均IU公式中的一个错误。

A. IU上限

在本文中，即使在粗语义预测的情况下，我们在平均IU分割度量上也取得了良好的性能。为了更好地理解这个度量和这种方法的极限，我们计算了在不同尺度下的性能预测的近似上界。我们通过下采样地面真实图像，然后再次上采样，以模拟在特定下采样因子下可获得的最佳结果。下表给出了各种下采样因子在PASCAL 2011 val子集上的平均IU。

像素完美的预测显然不是实现平均IU远远高于最先进水平的必要条件，相反，平均IU并不是细尺度精度的一个很好的衡量标准。

B. 更多的结果

我们进一步评估了我们的FCN的语义分割。

PASCAL-Context [26]提供PASCAL VOC 2010的整个场景注释。我们分别对训练集和val集进行训练和评估。在表6中，我们比较了Convolutional Feature Masking [3]的联合对象+内容变化，这是该任务的最新研究成果。FCN-8s平均IU评分为35.1，相对改善11%。