使用深度学习技术的图像语义分割最新综述

http://abumaster.com/2017/07/10/%E4%BD%BF%E7%94%A8%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E6%8A%80%E6%9C%AF%E7%9A%84%E5%9B%BE%E5%83%8F%E8%AF%AD%E4%B9%89%E5%88%86%E5%89%B2%E6%9C%80%E6%96%B0%E7%BB%BC%E8%BF%B0/


A Review on Deep Learning Techniques Applied to Semantic Segmentation [A. Garcia-Garcia, S. Orts-Escolano, S.O. Oprea, V. Villena-Martinez, and J. Garcia-Rodriguez] 2017年4月22

文章的主要贡献:

  • 对现有用于图像语义分割的数据集的研究;
  • 深度有组织地对使用深度学习的图像语义分割重要算法它们的起源和贡献进行回顾;
  • 对它们的性能进行粗略的评估;
  • 对上述结果进行讨论,并对未来的研究方向进行探讨。
术语和背景概念

图像语义分割不是一个孤立的领域,而是一个从粗略到精细的自然的推理过程:预测输入图像中物体的类别,如果多类物体则预测多个类别;定位不同类别物体的位置;为图像中的每一个像素分类(图像语义分割);对同一类物体的不同物体进行区分(实例分割)。

数据预处理和增强 对于小的数据集,可以相应作出改变来增大数据集,往往会带来更好的效果。比如1500张图像的数据集可以缩放成不同的尺度,进行不同的旋转,进行不同的伽马变换,生成大数据集。

方法总结


当前,大多数优秀的深度学习技术用于图像语义分割都来自一个共同的先导者:全卷积网络(Long),这种方法的优势就是利用当前存在的CNNs作为有力的视觉模型,可以学习分层特征。通过改变一些著名的分类网络:改变最后的全连接层为全卷积层,输出特征图来取代分类得分。这些特征图(空域图)通过分数阶卷积(也被称为反卷积)来产生稠密像素级标记的输出图。反卷积网络的工作是一个里程碑式的工作,因为它展示了如何用CNNs训练端对端来解决视觉问题,是深度学习用于图像语义分割的基石。
缺陷:缺少不同特征的感知,阻碍了在具体问题和场景中的应用。固有的空间不变性,使它不能将全局的上下文信息考虑进去,默认不能感知实例,在高分辨率上不能达到实时的处理速度,不能适应无结构的数据,例如3-D点云和模型。
对于它的种种缺陷,不同的方法提供不同的改善方向和效果,主要分为以下几个方向。

解码变种

这是一种具有两个组件的网络,分别包含了编码器(卷积网络)和解码器(反卷积网络)。与普通的全卷积网络不同之处在于对低分辨率的特征图的处理,通过一个解码网络的东西。
SegNet,解码阶段是由一系列的上采样和卷积层组成的,上采样对应了编码过程的最大池化。上采样过的特征图通过一组可以训练的卷积核进行卷积生成了稠密特征图。经过解码后的图像与原始输入图像具有了相同的分辨率,然后经过一层softmax层分类器产生最终的分割图。

整合上下文信息

图像语义分割的一个问题就是需要整合不同空间尺度的信息。这意味着局部信息和全局信息的平衡,一方面,细粒度或者局部信息对于获得良好的像素级预测精度是非常重要的,另一方面,整合全局上下文信息,可以解决分割图局部模糊性。传统的CNNs网络因为池化层的存在是不能感知全局信息的,有许多方法可以使CNNs感知全局信息,比如,使用条件随机场作为后续的处理,膨胀卷积,多尺度聚合,甚至将上下文模型推广到另一种深度网络中如RNNs。
条件随机场
解决上述的问题,一种可能的方法优化输出图,提高捕捉细节的能力,是用条件随机场作为后期处理。条件随机场(CRF)可以组合低层次的像素级别的信息,这些是CNN无法做到的,其中DeepLab应用了全连接的条件随机场作为分割图的后续处理,像素作为图的节点,建立全连接充分考虑了短程和远程的连接。另一个CRFasRNN,将条件随机场作为网络的一部分进行端对端的训练。

[1] Semantic image segmentation with deep convolutional nets and fully connected crfs
[2] Conditional random fields as recurrent neural networks

膨胀卷积
也叫阿托斯卷积,通过增大卷积核的步伐来进行卷积操作,获得更宽的接受域。
多尺度聚合
首先[1]提出了将全卷积网络分为两个路径,图像分为原图和二倍图,分别放入浅层网络和全卷积网络,将全卷积网络的输出上采样结合浅层输出经过一系列的卷积的到最终的输出图。对尺度感知非常敏感?
[2]用了不同的思路,四个相同的网络,感知由粗糙到精细的尺度信息,如图,序列进行处理得到最终的输出。

[4]提出了n个全卷积网络的结构,分别对应处理不同的尺度,分为两个阶段学习:第一个分别独立训练,第二融合各网络的输出,得到最终的输出图。

[1] Multi-scale convolutional architecture for semantic segmentation
[2] A multi-scale cnn for affordance segmentation in rgb images
[3] Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture
[4] Multiscale fully convolutional network with application to industrial inspection

特征融合
提取不同层的特征,包含了不同的局部上下文信息,将之融合。
递归神经网络

实例分割

实例分割是语义分割之后的一步,同时也是与其他低级像素分割技术相比最具有挑战性的问题。主要是将同类物品的不同实例区别开。


  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
图像语义分割是指对图像中的每个像素进行语义信息标注的任务。它广泛应用于自动驾驶、肝癌检测等领域。语义分割的难点主要来自物体层次、类别层次和背景层次。这意味着语义分割任务需要在复杂多变的背景下正确标记出语义信息,并区分具有高度相似外观的不同类别物体。\[1\] 在图像语义分割中,有传统方法和基于神经网络的方法。传统方法包括显式特征方法、基于概率图模型的方法和无监督学习方法。而基于神经网络的方法则隐式地建立了像素到语义的映射,不需要后期人工参与即可完成整个分割过程。\[2\] 深度学习模型在图像语义分割中起到关键作用。其中,全卷积网络(FCN)是语义分割深度学习模型的开山之作,它建立了一种用于图像语义分割的通用模型框架。FCN通过有效推理和学习,可以输入任意尺寸的图像,并生成相应尺寸的输出,实现像素到像素的映射。此外,FCN还提出了多项参数用于衡量模型的性能表现,如像素正确率、平均像素正确率、平均交叠率和平均加权交叠率。\[3\] 除了FCN,还有其他深度学习模型如PNPNet,它通过空间池模块和空间场景解析网络,利用不同区域的上下文聚合全局上下文信息的能力,为像素级预测任务提供了优越的框架。\[3\] 总之,深度学习模型在图像语义分割中发挥着重要作用,通过训练和优化参数,可以实现对图像中每个像素的语义信息标注。 #### 引用[.reference_title] - *1* *2* *3* [【论文阅读笔记】图像语义分割深度学习模型综述(张新明等)](https://blog.csdn.net/box0115/article/details/113395028)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值