【FCN2015】Fully Convolutional Networks for Semantic Segmentation

Fully Convolutional Networks for Semantic Segmentation

用于语义分割的全卷积网络

arXiv:1411.4038v2 [cs.CV] 8 Mar 2015
文章地址:https://arxiv.org/abs/1411.4038
代码地址:


摘要

  卷积网络是强大的视觉模型,能产生层次分明的特征。我们表明,卷积网络本身,通过端到端、像素到像素的训练,在语义分割方面超过了最先进的水平。我们的关键见解是建立 "完全卷积 "网络,它可以接受任意大小的输入,并通过有效的推理和学习产生相应大小的输出。我们定义并详细说明了全卷积网络的空间,解释了它们在空间密集预测任务中的应用,并得出了与先前模型的联系。我们将当代分类网络(AlexNet[19]、VGG网[31]和GoogLeNet[32])改编为全卷积网络并通过微调[4]将它们学到的表征转移到分割任务上。然后,我们定义了一个新的架构,将来自深层、粗层的语义信息与来自浅层、细层的外观信息结合起来,以产生准确而详细的分割。我们的全卷积网络实现了对PASCAL VOC(相对于2012年62.2%的平均IU有20%的改进)、NYUDv2和SIFT Flow的最先进的分割,而对典型图像的推理需要不到五分之一的时间


1导言

卷积网络正在推动识别方面的进展。卷积网络不仅在整个图像分类方面有所改进[19, 31, 32],而且在具有结构化输出的局部任务方面也有进展。这包括边界框物体检测[29, 12, 17]、部分和关键点预测[39, 24]以及局部对应[24, 9]方面的进展。

在从粗略推理到精细推理的过程中,自然的下一步是在每个像素上进行预测。以前的方法是用convnets进行语义分割[27, 2, 8, 28, 16, 14, 11],其中每个像素都被标记为其包围的物体或区域的类别,但存在本工作所要解决的不足之处。

我们表明,一个完全卷积网络(FCN),经过端到端的训练,像素到像素的语义分割超过了最先进的水平,无需进一步的机械。据我们所知,这是第一项端到端训练FCN的工作,(1)用于按像素预测,和(2)来自监督的预训练。现有网络的完全卷积版本从任意大小的输入预测密集的输出。学习和推理都是通过密集的前馈计算和反向传播在整个图像上进行。网络内的上采样层可以在具有子采样池的网络中进行像素化预测和学习。

这种方法是有效的,无论是渐进的还是绝对的,并且排除了其他作品中的复杂情况的需要。补丁式训练很常见[27, 2, 8, 28, 11],但缺乏完全卷积式训练的效率。我们的方法没有利用前后处理的复杂性,包括超级像素[8, 16]、提议[16, 14],或通过随机场或局部分类器[8, 16]进行事后细化。我们的模型将最近在分类方面的成功[19, 31, 32]转移到密集预测上,将分类网重新解释为完全卷积,并从其学到的表征中进行微调。相比之下,以前的工作是在没有监督预训练的情况下应用小型卷积网[8, 28, 27]。

语义分割面临着语义和位置之间固有的紧张关系:全局信息解决什么,而局部信息解决哪里。深度特征层次结构在一个从局部到整体的金字塔中联合编码位置和语义。我们在第4.2节中定义了一个新颖的 "跳过 "架构,以结合深层的、粗略的语义信息和浅层的、精细的外观信息(见图3)。

图3. 我们的DAG网学会了将**粗的、高层次的信息与细的、低层次的信息相结合**。各层显示为网格,显示出相对的空间粗度。只显示了汇集层和预测层;省略了中间卷积层(包括我们转换的全连接层)。实线(FCN-32s)。我们的单流网,在第4.1节中描述过,在一个步骤中把跨度为32的预测值上采样到像素。虚线(FCN-16s)。结合最后一层和第4层的预测,在第16步,我们的网络可以预测更精细的细节,同时保留高级语义信息。虚线(FCN-8s)。在第8步,来自pool3的额外预测提供了进一步的精度。

在下一节中,我们回顾了关于深度分类网、FCN的相关工作,以及最近使用 convnets进行语义分割的方法。接下来的章节解释了FCN的设计和密集预测的权衡,介绍了我们带有网络内上采样和多层组合的架构,并描述了我们的实验框架。最后,我们在PASCAL VOC 2011-2、NYUDv2和SIFT Flow上展示了最先进的结果。


2.相关工作

我们的方法借鉴了最近深度网在图像分类[19, 31, 32]和转移学习[4, 38]方面的成功经验。转移学习首先在各种视觉识别任务[4,38]上得到证明,然后在检测上,以及在混合提议分类器模型[12,16,14]中的实例和语义分割上。我们现在重新架构和微调分类网,以直接、密集地预测语义分割。我们描绘了FCN的空间,并将先前的模型,包括历史上的和最近的,放在这个框架中。

全卷积网络 据我们所知,将卷积网络扩展到任意大小的输入的想法首次出现在Matan等人[25]中,他们将经典的LeNet[21]扩展到识别数字串上。因为他们的网络仅限于一维输入字符串,所以Matan等人使用Viterbi解码来获得他们的输出。Wolf和Platt[37]将convnet的输出扩展为邮政地址块的四个角的检测分数的二维图。这两个历史性的工作都是以完全卷积的方式进行推理和学习,用于检测。Ning等人[27]用全卷积推理定义了一个用于C. elegans组织的粗略多类分割的convnet。

完全卷积计算在目前的多层网时代也得到了利用。Sermanet等人[29]的滑动窗口检测,Pinheiro和Collobert[28]的语义分割,以及Eigen等人[5]的图像修复都做了完全卷积推理。完全卷积训练很少见,但Tompson等人[35]有效地用于学习端到端的部件检测器和姿势估计的空间模型,尽管他们没有阐述或分析这种方法。

另外,He等人[17]摒弃了分类网的非卷积部分,制作了一个特征提取器。他们将提议和空间金字塔池结合起来,产生一个局部的、固定长度的特征用于分类。虽然快速有效,但这种混合模型不能被端到端学习。

用Convnets进行密集预测 最近有几项工作将Convnets应用于密集预测问题,包括Ning等人的语义分割[27]、Farabet等人[8]以及Pinheiro和Collobert[28];Ciresan等人[2]对电子显微镜的边界预测以及Ganin和Lempitsky[11]通过混合神经网/近邻模型对自然图像的边界预测;以及Eigen等人[5,6]的图像修复和深度估计。这些方法的共同要素包括

  • 限制容量和感受野的小模型;
  • 分片训练[27, 2, 8, 28, 11];
  • 通过超级像素投影、随机场正则化、过滤或局部分类进行后处理[8, 2, 11]。
  • 输入移位和输出交错的密集输出[28, 11],如OverFeat[29]所介绍的。
  • 多尺度金字塔处理[8, 28, 11];
  • 饱和tanh非线性[8, 5, 28];以及
  • 集合[2, 11],

而我们的方法没有这些机制。然而,我们确实从FCN的角度研究了补丁式训练3.4和 "移位和缝合 "密集输出3.2。我们还讨论了网络内上采样3.3,其中Eigen等人的全连接预测[6]是一个特例。

与这些现有的方法不同,我们改编和扩展了深度分类架构,将图像分类作为有监督的预训练,并对全卷积进行微调,以简单有效地从整个图像输入和整个图像地真相中学习。

Hariharan等人[16]和Gupta等人[14]同样将深度分类网适应于语义分割,但在混合建议-分类器模型中这样做。这些方法通过对检测、语义分割和实例分割的边界盒和/或区域建议进行采样,对R-CNN系统[12]进行微调。这两种方法都不是端到端的学习。

它们分别在PASCAL VOC分割和NYUDv2分割上取得了最先进的结果,因此我们在第5节中直接将我们独立的、端到端的FCN与它们的语义分割结果进行比较。


3 SIFT流的其他部分。

convnet中的每一层数据都是一个尺寸为 h × w × d h×w×d h×w×d的三维阵列,其中 h h h w w w是空间尺寸, d d d是特征或通道尺寸。第一层是图像,像素大小为 h × w h×w h×w,有 d d d个颜色通道。高层的位置对应于它们在图像中的路径连接的位置,这被称为它们的感受野。

Convnets是建立在转置不变性上的。它们的基本组件(卷积、集合和激活函数)在本地输入区域操作,并且只依赖于相对空间坐标。用 x i j x_{ij} xij表示某一层中位置 ( i , j ) (i,j) (ij)的数据向量,用 y i j y_{ij} yij表示下一层,这些函数通过下式计算输出 y i j y_{ij} yij
y i j = f k s ( { x s i + δ i , s j + δ j } 0 ≤ δ i , δ j ≤ k ) y_{ij}=f_{ks}(\{x_{si+δi,sj+δj}\}_{0≤δi,δj≤k}) yij=fks({xsi+δisj+δj}0δiδjk)

其中 k k k称为核大小, s s s是跨度或子采样因子, f k s f_{ks} fks决定层类型。矩阵乘法用于卷积或平均池,空间最大值用于最大池,或元素非线性用于激活函数,其他类型的层也是如此。

这种函数形式在组合下保持不变,内核大小和步长服从转换规则
f k s ∘ g k ′ s ′ = ( f ∘ g ) k ′ + ( k − 1 ) s ′ , s s ′ . f_{ks} \circ g_{k's'} = (f \circ g)_{k'+(k-1)s',ss'}. fksgks=(fg)k+(k1)s,ss.
一般的深度网络计算一般的非线性函数,而只有这种形式的层的网络计算非线性滤波器,我们称之为深度滤波器或全卷积网络。一个FCN自然地在任何大小的输入上操作,并产生相应(可能是重新采样的)空间维度的输出。

一个实值损失函数与FCN组成,定义了一个任务。如果损失函数是最后一层空间维度的总和, ℓ ( x ; θ ) = ∑ i j ℓ ′ ( x i j ; θ ) \ell(x; θ) = \sum _{ij} \ell'(x_{ij}; θ) (x;θ)=ij(xij;θ),其梯度将是其每个空间分量的梯度之和。因此,在整个图像上计算的’的随机梯度下降将与 ℓ ′ \ell' 的随机梯度下降相同,将所有最后一层的感受野作为一个小批。

当这些感受区严重重叠时,前馈计算和反向传播在整个图像上逐层计算而不是逐块独立计算时都会更有效率。

我们接下来解释如何将分类网转换为产生粗略输出图的完全卷积网。为了进行像素预测,我们需要将这些粗略的输出连接到像素上。第3.2节描述了OverFeat[29]为此目的引入的一个技巧。我们通过将其重新解释为一个等价的网络修改来深入了解这个技巧。作为一个高效的、有效的替代方案,我们在第3.3节中引入了用于上采样的去卷积层。在第3.4节中,我们考虑通过补丁式采样进行训练,并在第4.3节中给出证据,证明我们的整个图像训练更快、同样有效。


3.1. 适应密集预测的分类器

典型的识别网,包括LeNet[21]、AlexNet[19]及其更深入的后继者[31, 32],表面上接受固定尺寸的输入并产生非空间输出。这些网络的全连接层有固定的尺寸,并且抛弃了空间坐标。然而,这些全连接层也可以被视为具有覆盖其整个输入区域的内核的卷积。这样做就把它们变成了完全卷积网络,可以接受任何大小的输入并输出分类图图2说明了这种转变。(相比之下,非卷积网络,如Le等人的网络[20],缺乏这种能力)。

图2. 将全连接层转化为卷积层使分类网能够输出热图。添加层和空间损失(如图1)产生一个高效的机器,用于端到端的密集学习。

此外,虽然所得到的地图等同于原始网络在特定输入斑块上的评估,但计算在这些斑块的重叠区域上是高度摊销的。例如,虽然AlexNet需要1.2ms(在典型的GPU上)来产生227×227图像的分类分数,但完全卷积版本需要22ms来产生500×500图像的10×10网格输出,这比 n a ı ¨ v e na\ddot ıve naı¨ve方法快5倍以上1

这些卷积化模型的空间输出图使它们成为语义分割等密集问题的自然选择。由于每个输出单元都有地面实况,前向和后向都是直接的,而且都利用了卷积的固有计算效率(和积极的优化)。

AlexNet例子的相应后向时间对于单个图像来说是2.4ms,对于完全卷积的10×10输出图来说是37ms,结果是与前向传递的速度相似。这种密集的反向传播在图1中得到了说明。

图1.完全卷积网络可以有效地学习对每像素的任务进行密集的预测,如语义分割.

虽然我们将分类网重新解释为完全卷积,但对任何大小的输入都能产生输出图,输出尺寸通常通过子采样来减少。分类网进行了子采样,以保持过滤器很小,计算要求合理。这就使这些网的全卷积版本的输出变得粗糙,从输入的大小上减少了一个等于输出单元的感受野的像素跨度的因素。


3.2. 移位和缝合是滤波稀化

输入移位和输出交错是由OverFeat[29]引入的一个技巧,它可以从粗放的输出中获得密集的预测,而不需要插值。如果输出被降低了 f f f的系数,那么输入被向右移动了 x x x个像素,向下移动了 y y y个像素,对于 ( x , y ) ∈ { 0 , . . , f − 1 } × { 0 , . . . , f − 1 } . (x, y)∈\{0, . . , f - 1\} × \{0, . . . , f - 1\}. (x,y){0,..,f1}×{0,...,f1}.这些 f 2 f^2 f2的输入分别通过convnet运行,输出交错进行,以便预测对应于其感受野中心的像素。

仅仅改变convnet的过滤器和层的步长就可以产生与这种移位缝合技巧相同的输出。考虑一个具有输入步长 s s s的层(卷积层或集合层),以及一个具有滤波器权重 f i j f_{ij} fij的后续卷积层(忽略了特征维度,在此无关紧要)。将下层的输入跨度设置为1,就像移位缝合一样,将其输出上移了一个系数 s s s。然而,用上采样的输出对原始滤波器进行卷积并不能产生与这个技巧相同的结果,因为原始滤波器只能看到其(现在是上采样的)输入的一个缩小部分。为了重现这个技巧,将滤波器放大为
f i j ′ = { f i / s , j / s ,         i f   s   d i v i d e s   b o t h   i   a n d   j ; 0 ,       o t h e r w i s e , f'_{ij}=\left\{ \begin{matrix}f_{i/s,j/s},\ \ \ \ \ \ \ if\ s\ divides\ both\ i\ and\ j;\\ 0, \ \ \ \ \ otherwise, \end{matrix} \right. fij={fi/s,j/s,       if s divides both i and j;0,     otherwise,

i i i j j j为零)。重现这个技巧的全部净输出需要逐层重复这个滤波器的放大,直到所有的子采样被移除。

简单地减少网内的子采样是一种权衡:滤波器看到的信息更细,但感受野更小,计算时间更长。我们已经看到,移位和缝合的技巧是另一种权衡:在不减少滤波器的感受野大小的情况下,输出变得更加密集,但滤波器被禁止在比其原始设计更精细的尺度上获取信息

尽管我们对移位缝合做了初步实验,但我们的模型中并没有使用它。我们发现,通过下一节所述的上采样学习更有效和高效,特别是与后面描述的跳过层融合相结合时。


3.3. 升频器是向后跨步卷积

另一种将粗大的输出与密集的像素连接起来的方法是插值。例如,简单的双线性插值通过一个只取决于输入和输出单元的相对位置的线性图,从最近的四个输入计算每个输出 y i j y_{ij} yij

从某种意义上说,以 f f f为因子的上采样是以 1 / f 1/f 1/f的小数输入跨度进行卷积。因此,只要 f f f是整数,上采样的自然方式就是输出跨度为 f f f的反向卷积(有时称为去卷积)。这样的操作实现起来很简单,因为它只是简单地逆转了卷积的前向和后向。 因此,上采样是在网络中进行的,通过像素损失的反向传播进行端到端的学习。

请注意,这种层中的解卷积滤波器不需要固定(例如,双线性上采样),但可以学习。一堆去卷积层和激活函数甚至可以学习非线性上采样。

在我们的实验中,我们发现网络内的上采样对于学习密集的预测是快速而有效的。我们的最佳分割架构在第4.2节中使用这些层来学习上升采样以进行精细预测。


3.4. 补丁式训练是损失采样

在随机优化中,梯度计算是由训练分布驱动的。补丁式训练和全卷积训练都可以产生任何分布,尽管它们的相对计算效率取决于重叠和最小批量大小。整个图像完全卷积训练与斑块式训练相同,其中每个批次由一个图像(或图像集合)损失以下的所有单元的感受野组成。虽然这比均匀采样的斑块更有效,但它减少了可能的批次数量。然而,一个图像内的随机选择的斑块可以简单地恢复。将损失限制在其空间项的随机抽样子集上(或者,相当于在输出和损失之间应用一个DropConnect掩码[36]),将斑块从梯度计算中排除。

如果保留的斑块仍有明显的重叠,完全卷积计算仍会加快训练速度。如果梯度是在多个后向通道上积累的,那么批次可以包括来自几个图像的斑块2

补丁式训练中的抽样可以纠正类的不平衡[27,8,2],并减轻密集补丁的空间相关性[28,16]。在完全卷积训练中,类的平衡也可以通过加权损失来实现,而损失抽样可以用来解决空间相关性。

我们在第4.3节中探讨了用抽样训练,并没有发现它对密集预测产生更快或更好的收敛效果。整个图像训练是有效和高效的。


4. 分割结构

我们将ILSVRC分类器投到FCN中,并通过网络内的上采样和像素损失来增强它们的密集预测。我们通过微调来进行分割训练。接下来,我们建立了一个新的跳过架构,结合粗略的语义和局部的外观信息来细化预测。

在这项调查中,我们对PASCAL VOC 2011分割挑战进行了训练和验证[7]。我们用每个像素的多叉逻辑损失进行训练,用平均像素相交于联合体的标准指标进行验证,其平均值取自所有类别,包括背景。训练时忽略了地面实况中被掩盖的像素(作为模糊的或困难的)。


4.1. 从分类器到密集FCN

我们首先按照第3节中的方法卷积已被证实的分类架构。我们考虑了赢得ILSVRC12的AlexNet3架构[19],以及在ILSVRC14中表现优异的VGG网[31]和GoogLeNet4[32]。我们挑选了VGG的16层网5,我们发现它在这个任务上与19层网相当。对于GoogLeNet,我们只使用最后的损失层,并通过丢弃最后的平均池层来提高性能。我们通过舍弃最后的分类器层对每个网络进行去势,并将所有全连接层转换为卷积。我们附加一个通道维度为21的1×1卷积,以预测每个粗略输出位置的PASCAL类(包括背景)的分数,然后再附加一个去卷积层,将粗略输出双线性上采样为像素密集输出,如3.3节所述。表1比较了初步验证的结果以及每个网的基本特征。我们报告了在固定学习率下收敛后取得的最佳结果(至少175个历时)。

表1. 我们对三个分类信念网进行了改编和扩展,使之适用于分割。我们通过PASCAL VOC 2011验证集上的平均交集和推理时间(NVIDIA Tesla K40c上500×500输入的20次试验的平均值)来比较性能。我们详细介绍了关于密集预测的适应性网的结构:参数层的数量、输出单元的接受场大小和网内最粗的步幅。(这些数字给出了在固定学习率下获得的最佳性能,而不是可能的最佳性能)。
FCN-AlexNetFCN-VGG16FCN-GoogLeNet4
mean IU39.856.042.5
forward time50 ms210 ms59 ms
conv. layers81622
parameters57M134M6M
rf size355404907
max stride323232

从分类到分割的微调为每个网提供了合理的预测结果。即使是最差的模型也达到了最先进性能的75%。分割等价的VGG网(FCN-VGG16)在val上的平均IU为56.0,而测试时为52.6[16],似乎已经是最先进的。在额外的数据上进行训练后,在val的一个子集上的性能提高到59.4的平均IU。训练细节在第4.3节给出。

尽管有类似的分类精度,但我们的GoogLeNet的实现并不符合这一分割结果。


4.2. 结合什么和哪里

我们为分割定义了一个新的全卷积网(FCN),它结合了特征层次结构的各层,并完善了输出的空间精度。见图3

图3. 我们的DAG网学会了将粗的、高层次的信息与细的、低层次的信息相结合。各层显示为网格,显示出相对的空间粗度。只显示了汇集层和预测层;省略了中间卷积层(包括我们转换的全连接层)。实线(FCN-32s)。我们的单流网,在第4.1节中描述过,在一个步骤中把跨度为32的预测值上采样到像素。虚线(FCN-16s)。结合最后一层和第4层的预测,在第16步,我们的网络可以预测更精细的细节,同时保留高级语义信息。虚线(FCN-8s)。在第8步,来自pool3的额外预测提供了进一步的精度。

虽然全卷积分类器可以对分割进行微调,如4.1所示,甚至在标准指标上得分很高,但其输出却令人不满地粗糙(见 图4)。最后预测层的32像素跨度限制了上采样输出的细节规模。
FCN-32s         FCN-16s         FCN-8s         Ground truth

图4. 通过融合不同步长的层的信息来完善全卷积网,改善了分割的细节。前三张图片显示了我们的32,16和8像素步长网络的输出(见图3)。

我们通过增加链接来解决这个问题,这些链接将最终预测层与具有更精细步长的低层结合起来。这就把线状拓扑结构变成了一个DAG,其边缘从低层跳到高层(图3)。由于它们看到的像素较少,更精细的预测应该需要更少的层,所以从较浅的净输出进行预测是合理的。结合细层和粗层可以使模型在尊重整体结构的情况下进行局部预测。通过与Florack等人[10]的多尺度局部喷射相类似,我们把我们的非线性局部特征层次称为深层喷射。

我们首先通过从16个像素的跨度层进行预测,将输出跨度分成两半。我们在pool4的基础上增加一个1×1的卷积层来产生额外的类别预测。我们通过增加一个2×上采样层并将两个预测值相加6,将这个输出与卷积7(卷积化的fc7)上面计算的预测值融合6在一起,在第32步。(见图3)。我们将2×上采样初始化为双线性插值,但允许参数如第3.3节所述被学习。最后,跨度16的预测被上采样到图像上。我们称这个网为FCN-16s。FCN-16s是端到端的学习,用最后一个更粗的网的参数进行初始化,我们现在称之为FCN-32s。作用于pool4的新参数被初始化为零,因此该网络从未经修改的预测开始。学习率被降低了100倍。

学习这个跳过网后,验证集的性能提高了3.0个平均IU,达到62.4。图4显示了输出的精细结构的改善。我们将这种融合与只从pool4层学习(导致性能不佳),以及只降低学习率而不增加额外的链接(导致性能改善不明显,不改善输出的质量)进行比较。

我们继续以这种方式将pool3的预测与pool4和conv7融合的预测进行2倍的上采样,建立FCN-8的网络。我们获得了一个小的额外改进,达到62.7个平均IU,并发现我们的输出的平滑度和细节都有轻微的改善。在这一点上,我们的融合改进已经遇到了递减的回报,无论是在强调大规模正确性的IU指标方面,还是在图4中可见的改进方面,所以我们不再继续融合更低的层了。

通过其他方式进行细化 减少集合层的跨度是获得更精细预测的最直接的方法。然而,这样做对我们基于VGG16的网络来说是有问题的。设置 p o o l 5 pool5 pool5层的步长为1,需要我们的卷积化 f c 6 fc6 fc6的核大小为14×14,以保持其感受野的大小。除了计算成本外,我们在学习如此大的过滤器时也有困难。我们试图用较小的过滤器重新架构 p o o l 5 pool5 pool5以上的层,但没有成功地达到相当的性能;一个可能的解释是,来自ImageNet训练的权重在上层的初始化很重要。

另一个获得更精细预测的方法是使用第3.2节中描述的移位缝合技巧。在有限的实验中,我们发现这种方法的成本与改进率比层融合要差。


4.3. 实验框架

优化 我们通过SGD的动力来训练。我们对FCN-AlexNet、FCN-VGG16和FCN-GoogLeNet分别使用20幅图像的minibatch大小和固定的学习率 1 0 − 3 10^{-3} 103 1 0 − 4 10^{-4} 104 5 − 5 5^{-5} 55,通过直线搜索选择。我们使用动量0.9,权重衰减为 5 − 4 5^{-4} 54 2 − 4 2^{-4} 24,并将偏差的学习率加倍,尽管我们发现训练对这些参数不敏感(但对学习率敏感)。我们对类别评分卷积层进行了零初始化,发现随机初始化既没有产生更好的性能也没有更快的收敛。在原始分类器网络中使用的地方都包括了删除。

表2. 跳过的FCN在PASCAL VOC2011验证的一个子集上的比较。除FCN32s-fixed外,学习是端到端的,其中只有最后一层是微调的。请注意,FCN32s是FCN-VGG16,为了突出stride而重新命名。
pixel acc.mean acc.mean IUf.w.IU
FCN-32s-fixed83.059.745.472.0
FCN-32s89.173.359.481.4
FCN-16s90.075.762.483.0
FCN-8s90.375.962.783.2

微调 我们通过整个网络的反向传播对所有层进行微调。如表2所示,仅对输出分类器进行微调,只能获得全部微调性能的70%。考虑到学习基础分类网所需的时间,从头开始训练是不可行的。(注意,VGG网是分阶段训练的,而我们是从完整的16层版本初始化的)。对于粗略的FCN-32s版本,在单个GPU上进行微调需要三天时间,而升级到FCN-16s和FCN-8s版本则需要一天左右的时间。

补丁取样 正如第3.4节所解释的,我们的全图像训练有效地将每张图像分成了一个大的、重叠的补丁的重新排列的网格。相比之下,以前的工作是在一个完整的数据集上随机采样[27, 2, 8, 28, 11],可能会导致更高的差异批次,可能会加速收敛[22]。我们通过前面描述的方式对损失进行空间采样来研究这种权衡,以某种概率 1 − p 1-p 1p的方式独立选择忽略每个最终层单元。为了避免改变有效的批次大小,我们同时将每个批次的图像数量增加 1 / p 1/p 1/p的系数。请注意,由于卷积的效率,对于足够大的 p p p值,这种形式的拒绝采样仍然比补丁式训练快(例如,根据3.1节中的数字,至少对于 p > 0.2 p>0.2 p>0.2 )。图5显示了这种形式的抽样对收敛的影响。我们发现,与整个图像训练相比,抽样对收敛率的影响并不明显,但由于每批需要考虑的图像数量较多,需要的时间明显增多。因此,我们在其他实验中选择了未抽样的全图像训练。

图5. 对整个图像的训练与对斑块的采样一样有效,但由于更有效地利用了数据而导致更快的(壁面时间)收敛。左边显示了在固定的预期批量大小下,抽样对收敛率的影响,而右边则是通过相对的壁面时间绘制的相同效果。

类平衡 全卷积训练可以通过加权或抽样损失来平衡类。虽然我们的标签有轻微的不平衡(大约3/4是背景),但我们发现类平衡是不必要的。

密集预测 分数通过网络内的去卷积层被上采样到输入维度。最后一层的解卷积滤波器被固定为双线性插值,而中间的上采样层被初始化为双线性上采样,然后再学习。不使用移位缝合(第3.2节),或相当于滤波器的稀疏度。

增强 我们试图通过随机镜像和 "抖动 "图像来增强训练数据,在每个方向上将它们翻译成32个像素(预测的最粗略比例)。这没有产生明显的改善。

更多的训练数据 PASCAL VOC 2011的分割挑战训练集,我们在表1中使用了1112张图像的标签。Hariharan等人[15]收集了一个更大的8498张PASCAL训练图像集的标签,这些图像被用来训练之前最先进的系统SDS[16]。这个训练数据将FCNVGG16的验证分数7提高了3.4分,达到59.4的平均IU。

实施 所有的模型都是用Caffe[18]在一台NVIDIA Tesla K40c上训练和测试的。这些模型和代码将在发表时开放源代码。


PASCAL VOC 2011估值集中包含了来自[15]的训练图像,因此我们在736张图像的非交叉集上进行了验证。本文的早期版本错误地对整个估值集进行了评估。

5. 结论

我们在语义分割和场景解析上测试了我们的FCN,探索了PASCAL VOC、NYUDv2和SIFT Flow。尽管这些任务在历史上对物体和区域进行了区分,但我们将两者统一视为像素预测。我们在这些数据集上评估我们的FCN跳过架构8,然后将其扩展到NYUDv2的多模式输入和SIFT Flow的语义和几何标签的多任务预测。

度量 我们报告了常见的语义分割和场景解析评估中的四个指标,这些指标是像素准确性和区域交集大于联合(IU)的变化。让 n i j n_{ij} nij是预测属于 j j j类的 i i i类像素的数量,其中有 n c l n_{cl} ncl个不同的类,让 t i = ∑ j n i j t_i = \sum_j n_{ij} ti=jnij是i类的像素总数。 我们计算。

  • 像素精度。 ∑ i n i i / ∑ i t i \sum\nolimits_i {{\rm{n_{ii}}}} /\sum\nolimits_i {{\rm{t_i}}} inii/iti
  • 均精度: ( 1 / n c 1 ) ∑ i n i i / t i (1/n_{c1})\sum_in_{ii}/t_i (1/nc1)inii/ti
  • 平均IU: ( 1 / n c 1 ) ∑ i n i i / ( t i + ∑ j n j i − n i i ) (1/n_{c1})\sum_in_{ii}/(t_i+\sum_jn_{ji}-n_{ii}) (1/nc1)inii/(ti+jnjinii)
  • 频率加权 I U IU IU ( ∑ k t k ) − 1 ∑ i t i n i i / ( t i + ∑ j n j i − n i i ) (\sum_kt_k)^{-1}\sum_it_in_{ii}/(t_i+\sum_jn_{ji}-n_{ii}) (ktk)1itinii/(ti+jnjinii)

PASCAL VOC 表3给出了我们的FCN-8在PASCAL VOC 2011和2012的测试集上的表现,并将其与之前最先进的SDS[16]和著名的R-CNN[12]进行了比较。我们在平均IU9上取得了最佳结果,相对幅度为20%。推理时间减少了114倍(仅convnet,忽略了提议和完善)或286倍(整体)。

表3. 我们的全卷积网在PASCAL VOC 2011和2012测试集上比最先进的方法有20%的相对改进,并减少了推理时间。
mean IU VOC2011 testmean IU VOC2012 testinference time
R-CNN [12]47.9--
SDS [16]52.651.6∼ 50 s
FCN-8s62.762.2∼ 175 ms

NYUDv2[30]是一个使用微软Kinect收集的RGB-D数据集。它有1449张RGB-D图像,按像素划分的标签已经被Gupta等人[13]凝聚成一个40类的语义分割任务。我们报告了795张训练图像和654张测试图像的标准分割结果。(注意:所有的模型选择都是在PASCAL 2011 val上进行的。) 表4给出了我们的模型在几个变化中的表现。首先,我们在RGB图像上训练我们未修改的粗略模型(FCN-32s)。为了增加深度信息,我们对一个模型进行了升级,以接受四通道RGB-D输入(早期融合)。这没有提供什么好处,也许是由于在模型中一路传播有意义的梯度的困难。在Gupta等人[14]的成功之后,我们尝试了深度的三维HHA编码,仅仅在这一信息上训练网络,以及RGB和HHA的 “后期融合”,其中两个网络的预测在最后一层相加,产生的两流网络是端到端的学习。最后,我们将这个后期融合网升级为16线版本。

表4. NYUDv2的结果。RGBD是输入时的RGB和深度通道的早期融合。HHA是[14]的深度嵌入,即水平差异、离地高度以及当地表面法线与推断的重力方向的角度。RGB-HHA是联合训练的后期融合模型,将RGB和HHA的预测相加。
pixel acc.mean acc.mean IUf.w.IU
Gupta et al. [14]60.3-28.647.0
FCN-32s RGB60.042.229.243.9
FCN-32s RGBD61.542.430.545.5
FCN-32s HHA57.135.224.240.4
FCN-32s RGB-HHA64.344.932.848.0
FCN-16s RGB-HHA65.446.134.049.5

SIFT Flow是一个由2,688张图像组成的数据集,其中有33个语义类别(“桥”、“山”、“太阳”)的像素标签,以及三个几何类别(“水平”、"垂直 "和 “天空”)。一个FCN可以自然地学习一个联合表示,同时预测这两种类型的标签。

我们学习一个具有语义和几何预测层和损失的双头版FCN-16s。学习的模型在这两个任务上的表现与两个独立训练的模型一样好,而学习和推理的速度基本上与每个独立模型本身一样快。表5中的结果是在分成2,488张训练图像和200张测试图像的标准上计算的,10显示了在这两项任务上的最先进的性能。

表5. SIFT Flow的结果,有类别分割(中间)和几何分割(右边)。Tighe[33]是一种非参数转移方法。Tighe 1是一个典范的SVM,而2是SVM + MRF。Farabet是一个在类平衡样本(1)或自然频率样本(2)上训练的多尺度convnet。Pinheiro是一个多尺度、递归的convnet,表示为RCN~3~(◦^3^)。几何学的衡量标准是像素精度。
pixel acc.mean acc.mean IUf.w. IUgeom. acc.
Liu et al. [23]76.7----
Tighe et al. [33]----90.8
Tighe et al. [34] 175.641.1---
Tighe et al. [34] 278.639.2---
Farabet et al. [8] 172.350.8---
Farabet et al. [8] 278.529.6---
Pinheiro et al. [28]77.729.8---
FCN-16s85.251.739.576.194.3

6. 结论

全卷积网络是一类丰富的模型,其中现代分类卷积网络是一个特殊的例子。认识到这一点,将这些分类网络扩展到分割,并通过多分辨率层的组合改进结构,极大地提高了最先进的水平,同时简化并加快了学习和推理的速度

鸣谢 这项工作得到了DARPA的MSEE和SMISC项目、美国国家科学基金会的IIS1427425、IIS-1212798、IIS-1116411以及美国国家科学基金会的GRFP、丰田和伯克利视觉与学习中心的部分支持。我们对英伟达公司的GPU捐赠表示感谢。我们感谢Bharath Hariharan和Saurabh Gupta的建议和数据集工具。我们感谢Sergio Guadarrama在Caffe中复制了GoogLeNet。我们感谢Jitendra Malik的有益评论。感谢Wei Liu指出了我们的SIFT Flow平均IU计算的问题,以及我们的频率加权平均IU公式中的错误。

图6. 完全卷积的分割网在PASCAL上产生了最先进的性能。左边一栏是我们性能最高的网络FCN-8s的输出。第二列显示的是Hariharan等人[16]以前的最先进系统所产生的分割结果。请注意恢复的精细结构(第一行),分离密切互动的物体的能力(第二行),以及对遮挡物的鲁棒性(第三行)。第四行显示了一个失败的案例:该网将船上的救生衣视为人。

A. IU的上限值

在本文中,我们在平均IU分割指标上取得了良好的性能,即使是在粗略的语义预测下。为了更好地理解这个指标以及这个方法对它的限制,我们计算了不同规模的预测性能的近似上限。我们通过对地面真实图像进行下采样,然后再对其进行上采样,以模拟在特定的下采样系数下可获得的最佳结果。下表给出了不同的下采样因子在PASCAL 2011的一个子集上的平均IU。

因素平均IU
12850.9
6473.3
3286.1
1692.8
896.4
498.5

显然,要达到远高于最先进水平的平均IU,并不需要完美的像素预测,相反,平均IU并不是衡量细粒度精度的好办法。


B. 更多结果

我们进一步评估我们的FCN的语义分割。

PASCAL-Context[26]提供了PASCAL VOC 2010的整个场景注释。虽然有超过400个不同的类,但我们遵循[26]定义的59类任务,挑选出最频繁的类。我们分别在训练集和评价集上进行训练和评价。在表6中,我们与卷积特征遮蔽[3]的联合对象+东西变化进行了比较,后者是该任务的最新技术。FCN-8s的得分是35.1平均IU,相对提高了11%。


更改记录

本文的arXiv版本一直保持着最新的修正和补充相关材料。下面给出了一个简短的变化历史。

表6. PASCAL-Context上的结果。CFM是[3]通过卷积特征掩蔽和分段追寻与VGG网的最佳结果。O2P是[26]的勘误表中报告的二阶池化方法[1]。59类任务包括59个最频繁的类,而33类任务由[26]确定的一个较容易的子集组成。
59 classpixel acc.mean acc.mean IUf.w. IU
O2P--18.1-
CFM--31.5-
FCN-32s63.842.731.848.3
FCN-16s65.746.234.850.7
FCN-8s65.946.535.151.0
33 classpixel acc.mean acc.mean IUf.w. IU
O2P--29.2-
CFM--46.1-
FCN-32s69.865.150.454.9
FCN-16s71.868.053.457.5
FCN-8s71.867.653.557.7

v2 增加附录A,给出平均IU的上限,附录B为PASCAL-Context结果。纠正PASCAL验证数字(以前,一些有价值的图像被包括在训练中),SIFT Flow平均IU(使用了不适当的严格指标),以及频率加权平均IU公式中的一个错误。添加模型的链接并更新时间数字,以反映改进后的实施(可公开获得)。


References

[1] J. Carreira, R. Caseiro, J. Batista, and C. Sminchisescu. Semantic segmentation with second-order pooling. In ECCV,2012. 9
[2] D. C. Ciresan, A. Giusti, L. M. Gambardella, and J. Schmidhuber. Deep neural networks segment neuronal membranes in electron microscopy images. In NIPS, pages 2852–2860,2012. 1, 2, 4, 7
[3] J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. arXiv preprint arXiv:1412.1283, 2014. 9
[4] J. Donahue, Y . Jia, O. Vinyals, J. Hoffman, N. Zhang,E. Tzeng, and T. Darrell. DeCAF: A deep convolutional activation feature for generic visual recognition. In ICML, 2014.1, 2
[5] D. Eigen, D. Krishnan, and R. Fergus. Restoring an image taken through a window covered with dirt or rain. In Computer Vision (ICCV), 2013 IEEE International Conference on, pages 633–640. IEEE, 2013. 2
[6] D. Eigen, C. Puhrsch, and R. Fergus. Depth map prediction from a single image using a multi-scale deep network. arXiv preprint arXiv:1406.2283, 2014. 2
[7] M. Everingham, L. V an Gool, C. K. I. Williams, J. Winn,and A. Zisserman. The PASCAL Visual Object Classes Challenge 2011 (VOC2011) Results. http://www.pascalnetwork.org/challenges/VOC/voc2011/workshop/index.html.4
[8] C. Farabet, C. Couprie, L. Najman, and Y . LeCun. Learning hierarchical features for scene labeling. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2013. 1, 2, 4,7, 8
[9] P . Fischer, A. Dosovitskiy, and T. Brox. Descriptor matching with convolutional neural networks: a comparison to SIFT.CoRR, abs/1405.5769, 2014. 1
[10] L. Florack, B. T. H. Romeny, M. Viergever, and J. Koenderink. The gaussian scale-space paradigm and the multiscale local jet. International Journal of Computer Vision,18(1):61–75, 1996. 5
[11] Y . Ganin and V . Lempitsky. N4-fields: Neural network nearest neighbor fields for image transforms. In ACCV, 2014. 1,2, 7
[12] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition,2014. 1, 2, 7
[13] S. Gupta, P . Arbelaez, and J. Malik. Perceptual organization and recognition of indoor scenes from RGB-D images. In CVPR, 2013. 8
[14] S. Gupta, R. Girshick, P . Arbelaez, and J. Malik. Learning rich features from RGB-D images for object detection and segmentation. In ECCV. Springer, 2014. 1, 2, 8
[15] B. Hariharan, P . Arbelaez, L. Bourdev, S. Maji, and J. Malik.Semantic contours from inverse detectors. In International Conference on Computer Vision (ICCV), 2011. 7
[16] B. Hariharan, P . Arbeláez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In European Conference on Computer Vision (ECCV), 2014. 1, 2, 4, 5, 7, 8
[17] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, 2014. 1, 2
[18] Y . Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. arXiv preprint arXiv:1408.5093, 2014. 7
[19] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012. 1, 2, 3, 5
[20] Q. V . Le, R. Monga, M. Devin, K. Chen, G. S. Corrado,J. Dean, and A. Y . Ng. Building high-level features using large scale unsupervised learning. In ICML, 2012. 3
[21] Y . LeCun, B. Boser, J. Denker, D. Henderson, R. E. Howard,W. Hubbard, and L. D. Jackel. Backpropagation applied to hand-written zip code recognition. In Neural Computation,1989. 2, 3
[22] Y . A. LeCun, L. Bottou, G. B. Orr, and K.-R. Müller. Efficient backprop. In Neural networks: Tricks of the trade,pages 9–48. Springer, 1998. 7
[23] C. Liu, J. Y uen, and A. Torralba. Sift flow: Dense correspondence across scenes and its applications. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 33(5):978–994, 2011. 8
[24] J. Long, N. Zhang, and T. Darrell. Do convnets learn correspondence? In NIPS, 2014. 1
[25] O. Matan, C. J. Burges, Y . LeCun, and J. S. Denker. Multidigit recognition using a space displacement neural network.In NIPS, pages 488–495. Citeseer, 1991. 2
[26] R. Mottaghi, X. Chen, X. Liu, N.-G. Cho, S.-W. Lee, S. Fidler, R. Urtasun, and A. Y uille. The role of context for object detection and semantic segmentation in the wild. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 891–898. IEEE, 2014. 9
[27] F. Ning, D. Delhomme, Y . LeCun, F. Piano, L. Bottou, and P . E. Barbano. Toward automatic phenotyping of developing embryos from videos. Image Processing, IEEE Transactions on, 14(9):1360–1371, 2005. 1, 2, 4, 7
[28] P . H. Pinheiro and R. Collobert. Recurrent convolutional neural networks for scene labeling. In ICML, 2014. 1, 2,4, 7, 8
[29] P . Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus,and Y . LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014.1, 2, 3, 4
[30] N. Silberman, D. Hoiem, P . Kohli, and R. Fergus. Indoor segmentation and support inference from rgbd images. In ECCV, 2012. 7
[31] K. Simonyan and A. Zisserman. V ery deep convolutional networks for large-scale image recognition. CoRR,abs/1409.1556, 2014. 1, 2, 3, 5
[32] C. Szegedy, W. Liu, Y . Jia, P . Sermanet, S. Reed,D. Anguelov, D. Erhan, V . V anhoucke, and A. Rabinovich.Going deeper with convolutions. CoRR, abs/1409.4842,2014. 1, 2, 3, 5
[33] J. Tighe and S. Lazebnik. Superparsing: scalable nonpara-metric image parsing with superpixels. In ECCV, pages 352–365. Springer, 2010. 8
[34] J. Tighe and S. Lazebnik. Finding things: Image parsing with regions and per-exemplar detectors. In CVPR, 2013. 8
[35] J. Tompson, A. Jain, Y . LeCun, and C. Bregler. Joint training of a convolutional network and a graphical model for human pose estimation. CoRR, abs/1406.2984, 2014. 2
[36] L. Wan, M. Zeiler, S. Zhang, Y . L. Cun, and R. Fergus. Regularization of neural networks using dropconnect. In Proceedings of the 30th International Conference on Machine Learning (ICML-13), pages 1058–1066, 2013. 4
[37] R. Wolf and J. C. Platt. Postal address block location using a convolutional locator network. Advances in Neural Information Processing Systems, pages 745–745, 1994. 2
[38] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In Computer Vision–ECCV 2014,pages 818–833. Springer, 2014. 2
[39] N. Zhang, J. Donahue, R. Girshick, and T. Darrell. Partbased r-cnns for fine-grained category detection. In Computer Vision–ECCV 2014, pages 834–849. Springer, 2014.1


  1. 假设对单一图像输入进行有效的批处理。单一图像本身的分类分数需要5.4毫秒才能产生,这比完全卷积版本慢了近25倍。 ↩︎

  2. 请注意,并不是每一个可能的斑块都能以这种方式包括在内,因为最后一层单元的感受野位于一个固定的、有跨度的网格上。然而,通过将图像向左和向下移动一个随机值到跨度,可以从所有可能的斑块中恢复随机选择。 ↩︎

  3. 使用公开的CaffeNet参考模型。 ↩︎

  4. 由于没有公开的GoogLeNet版本,我们使用了我们自己的重新实现。我们的版本是用较少的数据增强来训练的,得到了68.5%的前1名和88.4%的前5名ILSVRC准确率。 ↩︎

  5. 使用Caffe模型动物园的公开可用版本。 ↩︎

  6. Max融合由于梯度转换而使学习变得困难。 ↩︎

  7. 我们的模型和代码可在 ↩︎

  8. https://github.com/BVLC/caffe/wiki/Model-Zoo#fcn. ↩︎

  9. 这是由测试服务器提供的唯一指标。 ↩︎

  10. SIFT Flow的三个类别不存在于测试集中。我们对所有33个类别进行了预测,但在评估中只包括实际存在于测试集的类别。(本文的早期版本报告了一个较低的平均IU,其中包括评估中存在或预测的所有类别)。 ↩︎

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
作者:Xiaohang Zhan,Ziwei Liu,Ping Luo,Xiaoou Tang,Chen Change Loy 摘要:Deep convolutional networks for semantic image segmentation typically require large-scale labeled data, e.g. ImageNet and MS COCO, for network pre-training. To reduce annotation efforts, self-supervised semantic segmentation is recently proposed to pre-train a network without any human-provided labels. The key of this new form of learning is to design a proxy task (e.g. image colorization), from which a discriminative loss can be formulated on unlabeled data. Many proxy tasks, however, lack the critical supervision signals that could induce discriminative representation for the target image segmentation task. Thus self-supervision's performance is still far from that of supervised pre-training. In this study, we overcome this limitation by incorporating a "mix-and-match" (M&M) tuning stage in the self-supervision pipeline. The proposed approach is readily pluggable to many self-supervision methods and does not use more annotated samples than the original process. Yet, it is capable of boosting the performance of target image segmentation task to surpass fully-supervised pre-trained counterpart. The improvement is made possible by better harnessing the limited pixel-wise annotations in the target dataset. Specifically, we first introduce the "mix" stage, which sparsely samples and mixes patches from the target set to reflect rich and diverse local patch statistics of target images. A "match" stage then forms a class-wise connected graph, which can be used to derive a strong triplet-based discriminative loss for fine-tuning the network. Our paradigm follows the standard practice in existing self-supervised studies and no extra data or label is required. With the proposed M&M approach, for the first time, a self-supervision method can achieve comparable or even better performance compared to its ImageNet pre-trained counterpart on both PASCAL VOC2012 dataset and CityScapes dataset.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值