【论文阅读】A review on deep learning techniques applied to semantic segmentation

Garcia-Garcia A, Orts-Escolano S, Oprea S, et al. A review on deep learning techniques applied to semantic segmentation[J]. arXiv preprint arXiv:1704.06857, 2017.

中文博客地址:http://liangjie.xyz/blogs/Segmentation/

一篇致力于综述用于语义分割的深度模型技术的文章:回顾了各种应用场景下利用深度学习技术解决语义分割问题的情况:首先,我们引入了领域相关的术语及必要的背景知识;然后,我们介绍了主要的数据集以及对应的挑战,帮助研究者选取真正适合他们问题需要及目标的数据集;接下来,我们介绍了现有的方法,突出了各自的贡献以及对本领域的积极影响;最后,我们展示了大量的针对所述方法及数据集的实验结果,同时对其进行了分析;我们还指出了一系列的未来工作的发展方向,并给出了我们对于目前最优的应用深度学习技术解决语义分割问题的研究结论。

迁移学习

即便是从较不相关的任务中迁移学习来的特征也要比直接从随机初始化学习的特征要好。合理选择进行微调的层是很重要的,一般选网络中较高的层因为底层一般倾向于保留更加通用的特征。合理的确定学习率也是重要的,一般选取较小的值,因为一般认为提前训练的权重相对比较好,无需过度修改。

数据预处理和数据增强

无论是加速收敛过程还是作为一个正则项,这也避免了过拟合并增强了模型泛化能力。还可以对该数据集的各个类的大小进行平衡,甚至手工地产生对当前任务或应用场景更加具有代表性的新样本。

数据集及竞赛

 

语义分割问题最关注的是二维图像。纯粹的三维数据集是稀缺的,通常可以提供CAD网格或者其他的体元表示如点云等。为分割问题获取三维数据集是困难的,因此很少有深度学习方法可以处理这种数据。也因此,三维数据集目前还不是很受欢迎。

方法

最成功用于语义分割的深度学习技术均来自同一个工作,即全卷积网络FCN ,该方法的出色之处在于,其利用了现存的CNN网络作为其模块之一来产生层次化的特征。作者将现存的知名的分类模型包括AlexNet、VGG-16、GoogLeNet和ResNet等转化为全卷积模型:将其全连接层均替换为卷积层,输出空间映射而不是分类分数。这些映射由小步幅卷积上采样(又称反卷积)得到,来产生密集的像素级别的标签。它阐释了CNN如何可以在语义分割问题上被端对端的训练,而且高效的学习了如何基于任意大小的输入来为语义分割问题产生像素级别的标签预测。

  

解码器变体(Decoder Variants):

SegNet。

 

整合上下文信息(Integrating Context Knowledge):

语义分割需要对多种空间尺度的信息予以整合,也需要对局部与全局信息进行平衡。一方面,细粒度的或者局部的信息对于提高像素级别的标注的正确率来说是关键的;另一方面,整合图像全局的上下文信息对于解决局部模糊性问题来说也是重要的。

采用很多方法来使CNN对全局信息敏感:用条件随机场(CRF)作为后处理过程来调优结果,多尺度聚合,或者甚至是将对上下文的建模延缓到另一种深度模型中,如RNN。

  1. 条件随机场(Conditional Random Fields)

CNN结构内在的空间转化不变性限制了其应用到分割问题上的准确率。CRF促成了底层图像信息与产生像素级别的类别标签的多类别推理输出的结合,这种结合对于捕捉长期依赖性质尤其重要,这也是关注于局部细节的CNN所未能考虑到的。

DeepLab模型,Wild网络,CRFasRNN模型。

  1. 扩张卷积(Dilated Convolutions)

扩张卷积是常规的利用上采样滤波器的方法。扩张卷积可以在任意分辨率图片上高效地提取密集特征。一般的卷积只是扩张率为1时的特殊情况。

多尺度上下文聚合模型,DeepLab模型(其升级版本),以及实时处理网络ENet。

  1. 多尺度预测(Multi-scale Prediction)

CNN中几乎每个单独的参数都会影响到得到的特征映射的大小,换句话说,非常相似的架构也会对输入图像的像素数量产生较大的影响,而这关系到每个特征映射。

一般都是选用多个处理不同尺度的网络,最后将他们的预测结果结合,产生一个单一的输出。

  1. 特征融合(Feature Fusion)

特征融合技术将一个全局特征(由某网络中较前面的层提取得到)与一个相对局部的特征映射(后边的层提取得)相结合。

常见的架构如原始FCN网络利用跳跃连接的方式进行延迟特征融合,也是通过将不同层产生的特征映射相结合。

  1. 循环神经网络(Recurrent Neural Networks)

视频序列

最具标志性的工作便是Shelhamer等人提出的时钟FCN网络。

采用了三维卷积的思想,是由Tran等人提出的一种深度的端对端的、体元对体元的预测系统。

评价指标

运行时间

占用存储空间

准确率

  1. 像素准确率(Pixel Accuracy (PA))

       计算正确分类的像素数量与所有像素数量的比值。

  1. 像素准确率平均值(Mean Pixel Accuracy (MPA))

       正确分类像素的比例是按类计算的,最终由类总数取平均。

  1. 平均交并比(Mean Intersection over Union (MIoU))

       计算的是两个集合的交集与其并集的重合比例,在本问题中,其计算的便是真实分割与系统预测的分割之间的交并比。

  1. 频率加权交并比(Frequency Weighted Intersection over Union(FWIoU))

       是对MIoU的改进,对每个类别按照重要性进行加权,重要性来自于其出现的频率。

最常用MIoU。

未来研究方向

三维数据集,序列数据集,使用图卷积网络(GCN)对点云进行分割,上下文知识,实时分割,存储空间,序列数据的时间一致性,多视角整合。

总结

很多方法缺少对运行时间与占用内存的评价。

考虑到方法各自的结果,我们认为DeepLab是最可靠的方法,其在几乎每个RGB图像数据集上都远远超过了其他方法。2.5维和多模态数据集上,循环的网络如LSTM-CF起到了主导作用。三维数据的分割问题仍有很长的路要走,PointNet为解决无序点云的分割问题开辟了道路。最后,处理视频序列同样作为一个待开发区域,至今并没有明确的方向,但是,时钟卷积神经网络凭借其效率和准确率还是成为了最可靠的方法。三维卷积是值得关注的,由于其强大的功能及对多通道输入数据的可扩展性,且三维卷积可以同时捕获时间空间信息。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值