论文--《Fully Convolutional Networks for Semantic Segmentation》

摘要: 卷积网络是强大的可视化模型,可以产生特征层次结构。我们展示了卷积网络本身,端到端训练,像素到像素,超过了语义分割的最新技术。我们的关键见解是建立“完全卷积”网络,输入任意大小,用有效推理和学习生产出的相应大小的输出。我们定义并详细说明完全卷积网络的空间,解释它们在空间密集预测任务中的应用,并绘制与先前模型的连接。我们改编当代分类网(AlexNet [19],在VGG网...
摘要由CSDN通过智能技术生成

 

摘要:
        卷积网络是强大的可视化模型,可以产生特征层次结构。我们展示了卷积网络本身,端到端训练,像素到像素,超过了语义分割的最新技术。我们的关键见解是建立“完全卷积”网络,输入任意大小,用有效推理和学习生产出的相应大小的输出。我们定义并详细说明完全卷积网络的空间,解释它们在空间密集预测任务中的应用,并绘制与先前模型的连接。我们改编当代分类网(AlexNet [19],在VGG网[31],并GoogLeNet [32])为完全卷积网络,通过微调[4]让他们学得语义分割任务。然后,我们定义了一种新颖的架构,它将来自深层粗糙层的语义信息与来自浅层精细层的外观信息相结合,以生成准确而详细的分段。我们的完全卷积网络实现了PASCAL VOC的最先进分割(相对改进率为20%,2012年平均IU为62.2%),NYUDv2和SIFT流量,而典型图像的推断时间不到五分之一秒。

1、简介

        卷积网络正在推动识别的进步。 卷积网络不仅改善了整体图像分类[19,31,32],而且还在结构化输出的本地任务上取得了进展。 这些包括边界框对象检测[29,12,17],部分和关键点预测[39,24]以及局部对应[24,9]的进展。

        从粗略推断到精细推理的自然下一步是对每个像素进行预测。 先前的方法已经使用了用于语义分割的网络[27,2,8,28,16,14,11],其中每个像素用其封闭对象或区域的类来标记,但是具有该工作所解决的缺点。

                 

                               图1.完全卷积网络可以有效地学习对每个像素的任务进行密集预测,比如语义分割。

        我们证明了一个完全卷积网络(FCN),训练有素的端对端,像素到像素的语义分割超过了现有技术,没有进一步的硬件改善。 据我们所知,这是第一个端对端训练FCN(1)用于像素预测和(2)从监督预训练的工作。 现有网络的完全卷积版本预测来自任意大小输入的密集输出。 学习和推理都是通过密集前馈计算和反向传播一次全图像执行的。 网内上采样层通过子采样池实现网络中的像素预测和学习。

        这种方法无论是渐近还是绝对都是有效的,并且排除了对其他工作中的复杂性的需要。 Patchwise训练很常见[27,2,8,28,11],但缺乏完全卷积训练的效率。 我们的方法没有利用预处理和后处理的复杂性,包括超像素[8,16],建议[16,14],或随机字段或局部分类器的事后细化[8,16]。 我们的模型通过将分类网重新解释为完全卷积并从其学习的表示中进行微调,将最近在分类[19,31,32]中的成功转移到密集预测。 相比之下,以前的作品在没有受过监督的预训练的情况下应用了小型网络[8,28,27]。

        语义分割面临语义和位置之间的内在张力:全局信息解决了本地信息在何处解决的问题。 深度要素层次结构共同编码局部到全局金字塔中的位置和语义。 我们定义了一个新颖的“跳过”架构,将深度,粗略,语义信息和浅,精细的外观信息结合在4.2节(见图3)。

        在下一节中,我们将回顾有关深度分类网络,FCN以及使用convnet进行语义分割的最新方法的相关工作。 以下部分介绍了FCN设计和密集预测权衡,介绍了我们的网络上采样和多层组合的架构,并描述了我们的实验框架。最后,我们在PASCAL VOC 2011-2,NYUDv2上展示了最先进的结果, 和SIFT流程。

2、相关工作

        我们的方法借鉴了最近成功的深度网络图像分类[19,31,32]和迁移学习[4,38]。 首先在各种视觉识别任务[4,38],然后在检测上,以及在混合提议分类器模型中的实例和语义分段上展示转移[12,16,14]。 我们现在重新构建和微调分类网络,以直接,密集地预测语义分割。 我们绘制了FCN的空间,并在此框架中定位了历史和近期的先前模型。

        完全卷积网络据我们所知,将一个渐开线扩展到任意大小的输入的想法首先出现在Matan等人的脑海中。 [25],它扩展了经典的LeNet [21]以识别数字串。 由于他们的网络仅限于一维输入字符串,Matan等人使用Viterbi解码来获得它们的输出。 沃尔夫和普拉特[37]将信号输出扩展到邮政地址块四个角的二维检测分数图。这些历史着作中的两个都做了推理和学习,完全卷积检测。 宁等人。 [27]定义了一个用于完整卷积推理的秀丽隐杆线虫组织的粗多类分割的预测网。

        在当前的多层网络时代,也充分利用了卷积计算。 Sermanet等人的滑动窗口检测。 [29],Pinheiro和Collobert [28]的语义分割,以及Eigen等人的图像恢复。 [5]做完全卷积推理。 完全卷积训练很少见,但Tompson等人有效地使用了它。 [35]学习端到端部分探测器和姿态估计的空间模型,尽管他们没有在这个方法上进行论述或分析。

        或者,He等人。 [17]丢弃分类网的非卷积部分以制作特征提取器。 它们结合了提议和空间金字塔池,以产生用于分类的本地化固定长度特征。 虽然快速有效,但这种混合模式无法端到端地学习。

        使用convnet进行密集预测:最近的一些研究已经将谨慎应用于密集预测问题,包括Ning等人的语义分割。 [27],Farabet等[8],Pinheiro和Collobert [28]; Ciresan等人的电子显微镜边界预测。 [2]和Ganin和Lempitsky的混合神经网络/最近邻模型的自然图像[11]; 和Eigen等人的图像恢复和深度估计。 [5,6]。 这些方法的共同要素包括:

         • 限制容量和感受野的小模型;

        • 补丁训练[27,2,8,28,11];

        • 超像素投影后处理,随机场正则化,滤波或局部分类[8,2,11];

        • 输入移位和输出交织用于密集输出[28,11],由OverFeat [29]引入;

         • 多尺度金字塔处理[8,28,11];

        • 饱和tanh非线性[8,5,28]; 和

        • 集[2,11],

        而我们的方法没有这种机制。 然而,我们从FCN的角度研究了补丁训练3.4和“移位 - 缝合”密集输出3.2。 我们还讨论了网络上采样3.3,其中Eigen等人完全连接了预测。 [6]是一个特例。

        与这些现有方法不同,我们采用图像分类作为监督预训练,并完全卷积微调,以便从整个图像输入和整个图像真实标签中简单有效地进行调整和扩展深度分类体系结构。

        Hariharan等人。 [16]和Gupta等人。 [14]同样使深度分类网适应语义分割,但在混合提议 - 分类器模型中这样做。 这些方法通过对边界框和/或区域提议进行采样来微调R-CNN系统[12],以进行检测,语义分割和实例分割。 这两种方法都不是端到端学习的。

        他们分别在PASCAL VOC分割和NYUDv2分割方面取得了最新成果,因此我们直接将我们的独立端到端FCN与第5节中的语义分割结果进行比较。

3、全卷积网络

       卷积网络中的每个数据层都是大小为h×w×d的三维数组,其中h和w是空间维度,d是要素或通道维度。 第一层是图像,像素大小为h×w,d个颜色通道。较高层中的位置对应于它们路径连接的图像中的位置,称为它们的感受域。

        Convnet建立在翻译不变性的基础之上。 它们的基本组件(卷积,池化和激活函数)在局部输入区域上运行,并且仅依赖于相对空间坐标。 在特定层中的位置(i,j)处写入数据向量的xij,以及用于下一层的yij,这些函数通过以下方式计算输出yij:

                                                              

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值