FCN论文翻译(一)
目录
前言:这篇文章是对FCN原文进行翻译,这篇翻译是第一和第二节,剩下的接下来会持续更新。论文原文:https://arxiv.org/pdf/1605.06211.pdf
用于语义分割的完全卷积网络
Jonathan Long∗ Evan Shelhamer∗ Trevor Darrell UC Berkeley
{jonlong,shelhamer,trevor}@cs.berkeley.edu
摘要:卷积网络是一种强大的视觉模型,它能产生特征层次结构。我们发现,卷积网络本身,经过端到端、像素到像素的训练,在语义分割方面超过了目前的水平。我们的关键洞察是建立“完全卷积”网络,该网络接收任意大小的输入,并通过有效的推理和学习产生相应大小的输出。我们定义并详细描述了完全卷积网络的空间,解释了它们在空间密集型预测任务中的应用,以及与先前模型的联系。我们将当代分类网络(AlexNet[19]、VGG网[31]和GoogLeNet[32])改编为完全卷积网络,并通过微调[4]将它们的学习表示转移到分割任务中。然后,我们定义了一种新的架构,它将来自深层、粗糙层的语义信息与来自浅层、精细层的外观信息相结合,以产生精确而详细的分割。我们的全卷积网络实现了PASCAL VOC(2012年平均IU为62.2%)的20%相对改进,NYUDv2和SIFT流的分割达到了最新的水平,而对于典型图像,推理需要不到五分之一秒。
1、介绍
卷积网络正在推动识别技术的进步。卷积神经网络不仅改进了整体图像分类[19,31,32],而且在结构化输出的局部任务上也取得了进展。其中包括边界盒目标检测[29,12,17]、部分和关键点预测[39,24]以及局部对应[24,9]方面的进展。
从粗推断到精推断过程中的下一步自然是在每个像素处进行预测。先前的方法已经使用卷积神经网络进行语义分割[27,2,8,28,16,14,11],其中每个像素都用其封闭对象或区域的类别进行标记,但这项工作解决了一些缺点。
图1.完全卷积网络可以有效地学习对每像素任务(如语义分割)进行密集预测。
我们证明了一个完全卷积网络(FCN),经过训练的端到端,像素到像素的语义分割在没有进一步机器学习的情况下超过了最先进的水平。据我们所知,这是第一个端到端训练FCNs的工作(1)用于像素预测(2)来自有监督的预训练。现有网络的完全卷积版本预测任意大小输入的密集输出。学习和推理都是通过密集的前向计算和反向传播来实现的。在网络中,上采样层通过池化层在网络中实现像素级的预测和学习。
这种方法是有效的,无论是渐进的和绝对的,并排除了需要做其他工作的复杂性。分块训练很常见[27,2,8,28,11],但缺乏完全卷积训练的效率。我们的方法没有使用预处理和后处理的复杂度,包括超像素[8,16]、建议[16,14],或随机场或局部分类器的事后细化[8,16]。我们的模型通过将分类网重新解释为完全卷积的,并从学习的表示中进行微调,从而将最近在分类方面取得的成功[19,31,32]转化为密集预测。相比之下,以前的工作在没有监督的预训练的情况下应用了小型卷积神经网络[8,28,27]。
语义分割面临着语义和位置之间的内在张力:全局信息决定什么,而局部信息决定哪里。深层特征层次在局部到全局金字塔中联合编码位置和语义。在第4.2节中,我们定义了一个新颖的“跳过”架构,将深度的、粗糙的语义信息和浅层的、精细的外观信息结合起来(见图3)。
在下一节中,我们将回顾有关深度分类网络、模糊神经网络和使用卷积神经网络进行语义分割的最新方法。以下部分解释FCN设计和密集预测权衡,介绍我们的网络内上采样和多层组合架构,并描述我们的实验框架。最后,我们展示了PASCAL VOC 2011-2、NYUDv2和SIFT Flow的最新研究结果。
2、相关工作
我们的方法借鉴了深度网络在图像分类[19,31,32]和迁移学习[4,38]方面的最新成功。迁移首先在各种视觉识别任务上演示[4,38],然后在检测上演示,在混合提议分类器模型中的实例和语义分割上演示[12,16,14]。我们现在重新构建和微调分类网络,以指导语义分割的密集预测。我们绘制了FCN的空间图,并在此框架中定位了以前的模型,包括历史模型和近期模型。
完全卷积网络 据我们所知,将卷积网络扩展到任意大小的输入的想法最早出现在Matan等人的[25]中,他们将经典的LeNet[21]扩展为识别数字字符串。 由于他们的网络仅限于一维输入字符串,Matan等人使用Viterbi解码获得他们的输出。Wolf和Platt[37]将卷积网络输出扩展为四角检测分数的二维地图。宁等。 [27]定义了一个卷积网络,用完全卷积推理对线虫组织进行粗分类。
在当今的多层网络中,也已经开发了完全卷积计算。Sermanet等人[29]对滑动窗口进行检测,Pinheiro和Collobert [28]对语义进行分割,Eigen等人[5]对图像进行还原,可以进行完全卷积推理。完全卷积训练很少见,但Tompson等[35]有效地用于学习端到端零件检测器和空间模型以进行姿势估计,尽管它们没有阐述或分析这种方法。 或者,He等人[17]丢弃了分类网络的非卷积部分,制成了特征提取器。他们将提案和空间金字塔池相结合,以产生用于分类的局部,固定长度的特征。尽管这种混合模型快速有效,但无法端对端学习
卷积网络的密集预测 最近的一些工作已经将卷积应用于密集的预测问题,包括Ning等人[27],Farabet等人[8],Pinheiro和Collobert [28]的语义分割。Ciresan等人[2]的电子显微镜边界预测,以及Ganin和Lempitsky的混合神经网络/最近邻模型[11]预测自然图像。以及Eigen等人[5,6]进行的图像恢复和深度估计。 这些方法的共同要素包括 :
- 限制能力和接受领域的小模型;
- 逐批训练[27、2、8、28、11];
- 通过超像素投影,随机场正则化,滤波或局部分类进行后处理[8、2、11];
- 由OverFeat [29]引入的用于密集输出[28,11]的输入移位和输出隔行;
- 多尺度金字塔处理[8、28、11];
- 饱和tanh非线性[8,5,28]和集合[2,11],
而我们的方法没有这种机制。 但是,我们确实从FCN的角度研究了分批训练3.4和“移位和缝合”密集输出3.2。 我们还讨论了网络内上采样3.3,其中Eigen等人[6]的全连接预测是一个特例。 与这些现有方法不同,我们使用图像分类作为监督的预训练来适应和扩展深度分类体系结构,并进行全面卷积微调,以从整个图像输入和整个图像基础事实中简单有效地学习。
Hariharan等人[16]和Gupta等人[14]同样将深层分类网适应于语义分割,但是在混合提议分类器模型中却是如此。 这些方法通过对边界框和/或区域建议进行采样以进行检测,语义分割和实例分割来微调R-CNN系统[12]。 两种方法都不是端到端学习的。
他们分别在PASCAL VOC分割和NYUDv2分割上获得了最新的结果,因此我们在第5节中直接将我们独立的端到端FCN与它们的语义分割结果进行比较。