深度学习论文翻译 -- DeepLab-V2

摘要:本文我们使用深度学习的方法解决语义分割的相关问题,我们作了三个主要贡献,并且都很有实用价值。首先,我们设计的空洞卷积非常适合稠密预测任务。借助空洞卷积(Atrous Convolution),我们可以有效控制输出特征图的分辨率。不仅如此,我们可以有效增大卷积核的感受野(field of view),并且不会增加参数量和计算代价。其次,我们提出带空洞的空间金字塔池化(ASPP)模块,通过不同的采样率(sampling rates)和有效的感受野,ASPP对输入特征图进行不同尺度的处理。最后,结合DCNN以及概率图模型(CRF),对边界进一步优化处理。常规的DCNN模型,连续的的池化和降采样获得不变性(invariance),对于定位精度是非常不合适的。我们通过对DCNN输出进行CRF处理,可以得到比较精细的分割结果。我们提出的DeepLab系统在PASCAL2012上得到最好的分割结果,达到79.7%的平均IOU。

1、Introduction

DCNN将计算机视觉系统的表现推向新的高度,尤其是在图像分类和目标检测领域。DCNN端到端的训练方式明显优于基于手工设计的特征。DCNN内在的不变性对于学习局部的图像变换尤为成功,使得可以学习比较抽象、高级的特征。这种不变性非常适合分类任务,但是阻碍了语义分割任务,抽象的空间信息是不需要的。

在语义分割任务中,DCNN面临方面挑战:(1)降低的特征图分辨率;(2)目标对象是多尺度;(3)较差的定位精度(due to DCNN invariance)。下面我们介绍如何解决上述问题。

第一个问题:用于分类的DCNN中连续的 Max-Pooling and Downsampling(striding)导致最终输出特征图的分辨率明显降低。为了克服这个阻碍,并且高效的产生稠密的特征图,我们将DCNN最后几层的max-pool去掉(通常是将滑动降为1),并且使用卷积进行上采样,保证特征图的采样率较高(rate值较高),指的是在非零的之间插入零值,也即是空洞卷积。该项技术广泛应用于信号处理,常用于处理undecimated waelet transform。我们使用术语“atrous convolution”作为具有上采样功能的卷积的简称。实际中,我们通过组合空洞卷积核,使得计算的特征图更加密集,后面添加简单的双线性插值,最终得到原图图像大小。相比于反卷积层,这种操作简单而且高效。与通常的具有更大的卷积核相比,空洞卷积可以增大感受野,并且不会增大计算参数。

第二个问题:实际情况下,目标通常是多尺度的,处理这种问题的标准方式是将图片进行不同尺度的缩放,然后将特征图进行融合。我们实验表明,这种方法确实有效果,但是引入过多的计算代价。受启发于空间金字塔池化(SPP),我们将输入特征图层进行不同rate的采样率。通过对原图进行不同尺度的卷积核(具有不同的感受野),可以获取到不同尺度的目标信息。与重复利用重采样特征不同的是,我们使用多个并行的空洞卷积层(with different sampling rate),我们称这种模块为ASPP。

第三个问题:分类问题倾向于DCNN空间不变性变换,但是限制了空间细节的精度。解决这种问题的一个办法是添加skip-layers来提取不同层次的特征,在最后进行融合,并得到分割结果。不同的是,我们使用CRF得到更好的细节。CRFs广泛应用于语义分割,将不同具有底层信息进行融合。尽管不断复杂的模型用于重建高层次的依赖,或者分割块之间的依赖性。我们提出全连接的CRF进行有效的计算和细节的获取,并且保持信息空间上长距离的依赖性。结合DCNN和CRF,我们获得较好的效果。

图1展示了DeepLab系统的整个过程,我们将VGG16和ResNet-101迁移到语义分割中,方式如下:(1)将全连接层转为卷积层;(2)通过空洞卷积提高特征图分辨率,将原图降低8倍,而不是32倍。然后使用双线性插值得到原图的分辨率,最后输入到CRF得到最后的分割结果。

从实际考虑,我们的主要优势:(1)速度:空洞卷积使得速度很快;(2)精确度很高;

相比于DeepLab-V1,我们更新的DeepLab-V2系统有如下几方面提高:(1)可以处理多尺度目标,使用多尺度输入或者ASPP;(2)采用ResNet-101,比VGG-16更好;(3)代码和模型:http://liangchiehchen.com/projects/DeepLab.html

2、Related Work

前十几年的,语义分割通常依赖手动设计的特征,并与分类器结合(比如Boosting,Random Forests,SVM等)。虽然采用了大量提取特征的方法,但是特征表达能力依然有限。随着深度学习在图像分类领域的成功,很多学者将其迁移到语义分割的任务。因为这种任务既包括分类也包括分割,所以如何将两者进行有效结合,是比较关注的问题。

此部分略过;

3、Methods

3.1、Atrous Convolution for Dense Feature Extraction and Field-of-View Enlargement

采用全卷积的网络结构,DCNN成功应用于语义分割或者其它稠密预测的任务。但是,DCNN中重复的最大池化(max-pooling)以及滑动(stride)极大降低了输出特征图的分辨率,通常降低32倍。FCN使用反卷积层解决分辨率低的问题,但会引入额外的计算代价。

不同的是,我们采用空洞卷积(atrous convolution),它最初用于高效的小波变换(undecimated wavelet transform)。该算法使得在任意层得到期望的分辨率。它可以用于后续处理,一旦网络训练完成,我们可以将空洞卷积添加网络中继续进行训练。

首先考虑一维的信号输入,空洞卷积的输入x[i],输出为y[i],卷积核为w[k](一维卷积核的长度为K)定义如下:

采样率为r与滑动相关,标准卷积的r=1,见Figure.2。

Figure.3 给出了2D上的简单例子。给定一张图像,首先进行2倍的降采样,然后执行7x7卷积操作。如果将输出特征图与原始图像相比,我们只是得到原图像1/4的响应。如果采用空洞卷积对原图进行卷积,并且上采样因子为2,引入零值插入,那么我们可以得到相对于原图大小的响应值。尽管卷积核尺寸增大,我们只需考虑卷积核非零值部分的值,那么卷积核参数量和操作量保持不变。我们可以随意明确的控制特征图响应的空间分辨率。

在DCNN网络结构中,可以在一系列层上连续使用空洞卷积,可以有效控制网络在任意高分辨率的最终响应值。比如,为了将VGG-16和ResNet-101特征图空间密度加倍,我们将pool5和conv5_1滑动距离设为1,然后替换后面的所有卷积为空洞卷积,rate=2。我们可以对所有层添加这种操作,但是会增加计算代价。我们采用兼顾精度和效率的方法,使用空洞卷积,将计算密度增加4倍,然后使用双线性插值(使用8倍的上采样),那么特征图就能恢复到原图的大小。因为DCNN的输出是很平滑的,所以插值操作是有效的,如图5所示。不像FCN的反卷积操作,需要学习额外的参数。

空洞卷积使得我们可以任意控制DCNN任何层的感受野。经典的DCNN网络使用的是小的卷积核(3x3)。空洞卷积采样率为r,则会引入r-1个零,有效增大了卷积核的尺寸为,不会增加参数和计算代价。那么这样就可以有效的控制感受野,有助于寻找精确到定位和内容一致性的平衡点。我们对这项技术作了充分的实验:我们的DeepLab-LargeFOV在VGG-16的fc6层采用r=12的采样率,并且获得较好的结果。

从应用的方面考虑,可以从两方面有效的使用空洞卷积。1、通过插入洞来上采样卷积核,或者对输入特征图进行采样。我们在早期的工作中使用这种操作,Caffe框架下添加im2col函数(it extracts vectorized patches from multichannel feature maps),该操作可以对特征图进行稀疏采样。2、使用与空洞采样率相同的倍数,对输入特征图进行采样,交错的产生r×r个降低分辨率的特征图,总共产生r*r个结果。然后对中间层层特征图使用标准的卷积,并通过再插值的方法产生原图大小的分割图。通过将空洞卷积转化为常规的卷积,我们可以使用现成的最优卷积操作。我们在tesnsorflow中使用第二种方法。

3.2、Multiscale Image Representations using Atrous Spatial Pyramid Pooling

由于在不同的目标尺寸的数据集上训练,DCNNs可以处理不同尺度的目标。明确的考虑目标尺度问题,可以有效处理大的目标和小的目标。

我们实验过两种处理不同的尺度目标的方法。1、标准的多尺度处理。我们提取不同尺度下原图的训练的DCNN网络,他们共享参数。为了得到最终的结果,我们将并行的DCNN网络特征图进行插值,得到原图大小的结果,选取最大值响应的方法进行融合。我们在训练和测试中都进行这样的操作。多尺度处理明显增加网络的表现。不同尺度的输入增加网络的计算代价。

2、第二个方式是受启发于RCNN中的空间金字塔采样,通过对单尺度目标进行不同程度的采样可以有效的分类。我们对这种方法进行变化,使用多个并行的空洞卷积核,具有不同的采样率,称之为ASPP(DeepLab-ASPP)方法,见Figure.4:

3.3、Structured Prediction with Fully-Connected Conditional Random Fields for Accurate Boundary Recovery

此处可以参考网上的解释,或者参考DeepLab-V1中的翻译部分。

4、Experiment Results

我们对ImageNet上预训练的VGG-16和ResNet-101网络进行微调,使其能够适应语义分割任务。与FCN一样,将1000类分类器修改为21类分类器,也正是语义分割的类数。损失函数使用交叉熵,计算输出特征图每一个像素的交叉熵之和(标签要进行8倍的降采样),所有位置像素权重相等。我们的目标是真实标签(8倍降采样)。优化器为SGD。我们将DCNN和CRF分开训练。

我们的评测数据集为:PASCAL  2012,PASCAL-Context,PASCAL-Person-Part,and Cityscapes。

4.1、PASCAL  VOC 2012

Dataset:PASCAL 2012 包含20类前景类和1类背景。原始数据集包括分别包括1464,1449,1456张训练集,验证集和测试集。额外的标注数据集为10582张(trainaug)为训练集。评测指标为IOU。

4.1.1、Results from our conference version

首先采用ImageNet预训练的VGG16网络结构,mini-batch=20,初始学习率为0.001(0.01 for the final clasifier layer),每2000步学习率降10倍,momentum=0.9,weight decay=0.0005。当在trainaug上微调DCNN后,交叉验证的方式学习CRF的参数。

Field of View and CRF:Table.1给出了不同感受野大小的DeepLab模型的变体,通过调整fc6层的卷积核的大小和采样率 r。首先直接使用VGG-16,使用原始的7x7卷积核,r=4,(since we use no stride for the last two max-pooling layers)。经过CRF后,精确度为67.64%,但是速度很慢。将卷积核降为4x4,速度增加(参考表1)。我们实验了两种小的卷积核,并且FOV很大,见表1 的最后两行。所有网络将fc6和fc7最后的两层卷积核数量从4096降为1024。最终,DeepLab-CRF-LargeFOV与直接对VGG-16的操作的效果相当(表一的第1和4行),速度是其3.36倍,参数更少(20.5MVS134.3M)。CRF可以使得准确率提高3%-5%.

Test Set Evalution:我们将DeepLab-CRF-LargeFOV模型在PASCAL VOC 2012官方测试集上测试,达到70.3%的平均IOU。

4.1.2、Improvements after conference version of this work

在DeepLab-v1的基础上,我们对模型作了如下更新:(1)训练阶段,不同的学习率调整方式;(2)提出ASPP;(3)引入更深的网络(ResNet-101)和多尺度处理。

Learning Rate Policy:在训练DeepLab-LargeFOV的过程中,我们探索了不同的学习率策略,我们发现“poly”衰减方式优于“step”衰减方式,poly衰减:。Table.2所示,使用poly(power=0.9),使用同样的batch size以及迭代次数,精度提升1.17%。固定batch size,提高训练次数,精度再次提高1.48%,达到64.9%。但是,总的训练时间增加了。当batch size=10,仍然能达到相近的精度(64.90%vs64.71%)。最后,我们固定batchsize=10,训练20k步。令人惊讶的是,验证集上精度达到65.88%(3.63% improvement over “step”),测试集达到67.7%。本文中,所有模型均采用poly学习率衰减。

Atrous Spatial Pyramid Pooling:我们实验了ASPP策略,如Fig.7所示,VGG-16中多个并行的fc6-fc7-fc8分支。他们都是用的3x3卷积核,但是fc6的 r 值不同。Table3中,作如下设置:(1)基准模型LargeFOV,只有一个分支,r=12;(2)ASPP-S,有四个分支,具有更小的采样率(r={2,4,8,12});(3)ASPP-L,四个分支,更大的采样率(r={6,12,18,24});每个结果都给出是否使用CRF。如表中所示,ASPP-S在baseline的基础上提升1.22%。但是,经过CRF处理后,两者相当。我们在测试集上测试了ASPP-L+CRF,达到72.6%。图像分割结果如Fig.8:

       

Deeper Networks and Multiscale Processing:我们将最近的ResNet-101网络迁移到语义分割。与VGG-16类似,我们使用空洞卷积。在之前处理的基础上,我们采用了其它的策略:(1)多尺度输入:我们分开的将输入图片缩放(scale=0.5,0.75,1)输入到DCNN,然后将他们最终的输出特征图进行融合(同位置取最大值);(2)模型在MS-COCO上预训练;(3)图像增强:训练过程中,随机对图片进行尺度缩放(from 0.5 to 1.5);Table.4中,我们在LargeFOV和ASPP模型之上分别评测了这些指标,显然ResNet-101明显优于VGG-16(eg our simplest ResNet-101达到68.72%,compared to 65.76% of our DeepLab-LargeFOV VGG-16 based variant, both before CRF)。多尺度融合提升2.55%,在MS-COCO上得到额外2.01%的提升。数据增强也是很有效的(提升1.6%)。采用LargeFOV(adding an atrous convolutional layer on top of ResNet, with kernel and rate=12)同样是有效的。CRF后处理最好的模型,达到77.9%。

Qualiative Results:我们提供了CRF前后视觉上的对比结果(our best model variant),如图Fig.6。没有CRFDeepLab可以得到不错的分割结果,使用CRF之后,可以得到更好的 结果。

VGG-16  VS. ResNet-101:实验表明,基于ResNet-101的DeepLab能得到更好的分割结果。我们认为ResNet-101中的恒等映射具有更为好的特征,可以提取中间层的局部特征。没有CRF的ResNet-101比采用CRF的VGG-16具有更好的结果。

4.2、PASCAL-Context

Dataset:PASCAL-Context数据集提供了整个场景下更为详细的语义分割,包括目标(eg. person)和背景(eg. sky)。训练最为常见的59类,以及一类背景。训练集和验证集分别为4998和5105张图。

Evalution:Table.6给出了基于VGG-16的LaregeFOV的结果,到达37.6%和39.6%(是否使用CRF),其它的结果可以参考表格中的数据以及相应的处理策略。

4.3、PASCAL-Person-Part

Dataset:我们在另一个数据集上进行训练和测试,PASCAL VOC 2010,[36]标注的数据。我们关注人体分块数据部分,包含更多的训练数据和更大的尺度和人体姿态变化。特别的,该数据集包含每个人的分块,比如眼睛,鼻子。我们合并分块为,头部,躯干,上下胳膊和上下腿,最终产生6个人体分类以及一个背景类。我们仅使用包含人体的图片训练(1716张图)和验证集(1817张图片)。

Evaluation:人体分割结果见Tab.7。【17】包含了VGG-16的实验结果,达到56.39%。因此,这一部分,我们主要关注基于ResNet-101的DeepLab模型。单独的DeepLab,达到58.9%,明显高于Deep-LargeFOV(VGG-16 net)和DeepLab-Attention,大概7%和2.5%。其它结果可以参考表格。图片结果见Fig.12。

4.4、Cityscapes

Dateset:该数据集(【37】提供),包含高质量的、像素集的标注数据,数量为5000张,从50个不同城市采集的路边场景。包含19个语义分割标签(属于7个大类:gound,construction,object,nature,sky,human and vehicle)。训练集,验证集合测试集分别包含2945,500和1525张图片。

Test set results of pre-release:我们曾经参与该数据集的发布,如Tab.8所示,我们的模型排名第三,达到63.1%和64.8%(在额外粗糙度数据集)。

Val Set Results:我们研究了验证集的评测结果,Cityscapes图片的分辨率为2048x1024,在有限GPU资源的情况下,很难训练深度网络。我们也尝试降低分辨率为1/2,但是使用原图分辨率的结果更好,带来1.9%和1.8%的提升(是否添加CRF)。为了在推断过程中使用高分辨率,我们将每一张图分解为重叠的小块,与37类似。我们用ResNet-101代替VGG-16,我们没有探索多尺度训练和测试,因为GPU内存有限。我们作了其它方面的探索:(1)更深的网络(ResNet-101);(2)数据增强;(3)LargeFOV或者ASPP;(4)CRF处理;

Current Test Result:我们最好的模型达到70.4%的结果,模型仅仅在训练集上训练,见图13.

5、Conclusion

我们的DeepLab系统,通过重新设计图像分类网络,使其适应于语义分割。通过添加空洞卷积,可以产生密集的预测。我们进一步提出ASPP结构,可以处理不同尺度的目标。为了能得到精细的结果,结合DCNN和CRF。

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值