基于深度卷积网和全连接条件随机场的语义图像分割(翻译笔记)

原标题:SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFs

作者:

Liang-Chieh Chen Univ. of California, Los Angeles lcchen@cs.ucla.edu

George Papandreou ∗ Google Inc. gpapan@google.com

Iasonas Kokkinos CentraleSupelec and INRIA ´ iasonas.kokkinos@ecp.fr

Kevin Murphy Google Inc. kpmurphy@google.com

Alan L. Yuille Univ. of California, Los Angeles yuille@stat.ucla.edu

原文链接:

1412.7062v4.pdf (arxiv.org)

简介

深度卷积神经网络(DCNNs)近来在高级别视觉任务,诸如图像分类和目标检测中已经展现出先进的性能。本文将DCNNs和概率图模型中的方法结合,来应对像素级的分类任务(也被称作语义图像分割)。我们将推出一个结论,在DCNNs最末尾的响应层,不足以对精确的目标分割提供足够的定位信息,这是由于能够使得DCNNs有利于处理高级别任务的特征往往是不易变化的。我们通过在DCNNs的最末尾曾整合进一个全连接条件随机场(CRF)来克服这个难以对特征本地化的问题。定性地讲,我们的“DeepLab”系统相较于以前的一些方法,是能够达到对分割边界进行精确定位的。再次定性地讲,我们的方法在PASCAL VOC2012数据集的语义分割任务中,将IOU的准确度带到了一个新的高度——在测试集上达到了71.6%的成绩。我们将展现如何能够高效地得到这样的结果,精心设计的网络重组和小波社区的“hole”算法的新应用允许在现代GPU上以每秒8帧的速度密集计算神经网络的响应。

1.引言

深度卷积神经网络(DCNNs)自LeCun等人的时代(1998)是文本识别的备选方案,直到最近,其成为了高级别视觉研究的主流。在过去两年,DCNNs已经使得一系列的高级别计算机视觉识别任务的性能突飞猛进,包括图片分类,目标识别,细粒度分类,等等。这些任务中,一个通常的场景是,利用了端到端训练的DCNNs,对比依靠精心设计的表征工程系统(例如SIFT或HOG特征),具有绝对的优势。这种成功部分得益于DCNNs对图片的局部变化具有内在的不变性,这增强了它们去学习数据中的层次抽象的能力。虽然这种不变性对高级别的视觉任务是显而易见的,但它却会妨碍低级别的视觉任务,例如姿态估计和语义分割——在这些任务中,我们更期待的网络能够做到的是精确定位而不是空间细节的抽象。

目前在图片标注任务中应用DCNNs有两个技术性障碍:信号下采样和空间“不敏感性”(不变性)。第一个问题是关于,由于在标准DCNNs的每层重复执行结合了下采样(通过步幅)的最大值池化而引起的信号解析衰减。对此,如Papandreou等人(2014)提出的,我们利用原创性地开发的“atrous”(空洞)算法,可以有效计算“不确定小波离散变换”。这使得在DCNN响应的密集计算比早期方案更为简单。第二个问题是源自,一个对空间变换需要具有不变性的分类器的目标中心决策问题,这内在的限制了DCNN模型的空间准确性。我们通过利用一个全连接条件随机场(CFR)来提升模型捕获精细细节的能力。条件随机场已经被广泛的应用到语义分割中,以使得通过多路分类器计算的分数,能够与通过像素和边缘(或超像素)的局部交互而捕获的低层信息相结合。即便已经提出了对层次依赖和/或分割的高阶(高次)依赖进行建模的复杂方法,但是我们用由Krahenbuhl&Koltun(2011)提出的全卷积配对CRF对其进行有效计算,在能够捕获精细的边缘细节的同时,也能够应付长程依赖。这个模型由Krahenbuhl&Koltun(2011)提出,来大大提升了基于增强(boosting-based)的像素级分类器的性能,在我们的工作中,我们证明了当使用一个基于DCNN的像素级分类器时,将会的到一个最好的结果。

我们的“DeepLab”系统的主要三个优势是 1)速度:得益于“atrous”算法,我们的密集DCNN可以运行在8帧每秒,其中对全连接CRF进行均值场推理(Mean Field Inference)需要0.5秒;2)精度:我们在PASCAL的语义分割挑战中获得了最优结果,以7.2%的优势超越第二名——由Mostajabi等人(2014)提出的方法;3)简洁性:我们的系统是一个由一系列完好的模型,DCNNs和CRFs构成的。

2. 相关工作

我们的系统直接对像素表征起作用,类似于Long等人(2014)。相较于两阶方法,这也是目前在利用DCNNs对语义分割的最常用的方法:这样的技巧通常用一个自底向上的级联图像分割和基于DCNN的区域分类级联,就是使得系统能够分担来自前端分割系统的潜在错误。例如,由Arbelaez等人(2014)和Uijlings等人(2013)发布的预选框(bounding box proposals)和掩膜区域(masked regions)被Girshick等人(2014)和Harihanran等人(2014b)作为一个DCNN的输入来为分类处理引入形状信息。类似的,Mostajabi等人(2014)依靠超像素表征。关于这项工作一个著名的非DCNN先驱是由Carreira(2012)提出的二阶池化方法,它同样需要对由Carreira&Sminchisescu(2012)提出的预选区域分配标签。为了了解致力于单阶分割的风险,Cogswell等人(2014)在Yadollahpour等人(2013)工作的基础上探索一组不同的基于CRF的预选分割,计算部分仍采用了Carreira&Sminchisescu(2012)的工作成果。这些预选分割会根据在一个特定重排序任务中训练过的DCNN进行重排。即便这个方法显式地尝试处理一个前端分割算法的反复无常,但对基于CFR的分割算法仍没有一个显而易见的解释:虽然DCNN只可用在具有因果效应的场景下,但在分割时直接尝试使用它的结果也是合理的。

在更接近我们的方法的一些工作中,几个其他研究者考虑对密集图像标签使用经过卷积运算的DCNN的特征。其中,Farabet等人(2013)是最早将DCNNs应用在多图像解析,然后又用一个分割树去平滑预测结果的;最近,Hariharan等人(2014a)提出,针对像素分类将DCNNs内的中间特征进行连接计算,Dai等人(2014)提出通过区域预选将中间特征图池化。即便这些工作仍然使用从DCNN分类器的结果分离出来的分割算法,我们相信分割只有应用在最后一个阶段才有优势,才可以避免产生不成熟的决策。

最近,由Long等人(2014)和Eigen&Fergus等人(2014)提出的免分割技巧直接对整图使用滑动窗口式的DCNN,通过卷积层取代了最后的全连接层。为了解决在引言部分提出的空间定位问题,Long等人(2014)对中间的特征图进行上采样和分值连接,而Eigen&Fergus(2014)通过将粗糙的结果传播给DCNN,达到了对预测结果进行提炼的目的。

我们模型和其他最先进模型的主要不同之处在于,像素级CRFs和基于DCNN的“单项”(unary terms)的结合。再来看看这个方向上的最新成果,Cogswell等人(2014)使用CRFs作为一个基于DCNN重排序系统的预选机制,而Farabet等人(2013)将超像素视作用来局部配对CRF的节点,然后用图分割作离散的推理;这样能够使得它们的结果被超像素计算所限制,同时还能忽略超像素的长程依赖。相反,我们的方法是将每个像素看作CRF的节点,利用长程依赖,并直接对优化一个DCNN驱动的损失函数使用CRF推理。我们注意到,平均场(mean field)已经在传统图片分割,或是边缘检测等任务中被广泛研究,Geiger&Girosi(1991);Geiger&Yille(1991);Kokkinos等人(2008),但最近Krahenbuhl&Koltun(2011)的成果表明,在全连接CRF的情况下,推理可以很有效;在语义分割的背景下,推理将部分有效。

当我们的第一个版本的初稿得以发表后,我们注意到有个两个组(Bell等人,2014;Zheng等人,2015)的研究已经同时并独立的走到了一个相似的方向上,即将DCNNs和密集链接CRFs进行结合。它们的模型在技术层面上有几点不同。Bell等人(2014)关注的是材质分类,而Zheng等人(2015)通过展开CRF均值场推理的步骤将整个系统转换为一个端到端的可训练的前馈网络。

在最近的工作中(Chen等人,2016)我们已经利用改进的方法更新了我们所提出的“DeepLab”系统。我们为对此感兴趣的读者们提供论文参考。

3. 针对密集图像学习的卷积神经网络

在此,我们将阐述我们是如何有针对性地(针对密集语义图像分割系统)将先进的VGG-16预训练模型(Imagenet预训练)进行用途重构和精调成为一个有效并且高效的密集特征提取器的。

3.1 利用Hole算法进行高效的密集滑动窗口特征提取

密集空间分数评估分数是我们的密集CNN特征提取器成功的基础。作为实现此步骤的第一步,我们将VGG-16的全连接层转换为一个卷积层,并将网络按照卷积的方式运行在图片原始的分辨率下。然而,当其产生非常稀疏的计算探测分值时,这仍然是不足够的(在stride值为32的情况下)。为了在我们的目标stride值8像素上进行更密集的计算分值,我们开发了一个由Giusti等人(2013);Sermanet等人(2013)提出的方法的变化版本。我们略过了Simonyan&Zisserman(2014)提出的网络中,最后两个最大池化层的子采样,并且修改了那些通过在层尾引入0来增加它们长度(在最后三个卷积层为2倍,在最后3个卷积层为4倍)的卷积层中的卷积过滤器。我们可以通过保持过滤器完整并且分别用2或4像素的步幅来替代特征图上的采样。如图1所示的这个方法,被称为“hole”算法(“atrous”算法)并且在用于高效计算匹配小波变换前已经被开发出。我们已经在Caffe框架下,通过添加im2col函数(它将多通道特征图转换为矢量块)来对特征图进行稀疏采样。这个方法是一种通用方法并允许我们在不引入任何逼近计算的情况下,高效地在任何目标子采样率下计算密集CNN特征图。·

未完待续!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值