【论文阅读笔记】基于深度学习的图像语义分割方法综述(田萱,王亮,丁琪)

【论文阅读笔记】基于深度学习的图像语义分割方法综述(田萱,王亮,丁琪)

几个名词的缩写:
ISS(image semantic segmentation):图像语义分割
DL(deep learning):深度学习
DNN(deep neutral network):深度神经网络
ISSbDL(image semantic segmentation based on deep learning):基于深度学习的图像语义分割方法
ISSbRC(ISS based on the regional classification):基于区域分类的图像语义分割方法
ISSbPC(ISS based on the pixel classification):基于像素分类的图像语义分割方法
CNN(convolutional neural network):卷积神经网络
RNN(recurrent neural network):循环神经网络
GAN(generative adversarial network):生成对抗网络
ISSbFSL(ISS based on fully supervised learning):全监督学习图像语义分割方法
ISSbWSL(ISS based on weakly supervised learning):弱监督学习图像语义分割方法
FCN(fully convolutional network):全卷积网络

名词释义:
图像语义分割:为图像中的每一个像素分配一个预先定义好的表示其语义类别的标签。
(与传统的图像分割相比,ISS在其基础上为图像中的目标或前景加上一定的语义信息,能够根据图像本身的纹理、场景和其他高层语义特征来得出图像本身需要表达的信息,更具实用性)
文中插图
部分摘要
1 相关背景及早期研究介绍
深度学习技术可以有效提取图像中低级、中级和高级语义信息,并结合分类器辅助进行像素分类,提高图像语义分析方法的分割准确率。主流的深度学习模型有CNN、GAN和RNN。
流程图

2 基于区域分类的图像语义分割方法
(暂略)

3 基于像素分类的图像语义分割方法
ISSbRC方法取得了一定的分割效果,但是也存在图像分割精度不高和分割速度不够快等问题。所以就有研究者提出了直接在像素级别上进行图像语义分割,也就是ISSbPC。这种方法无需产生目标候选区域,直接为图像中的每一个像素进行分类,原始图像经过一个端对端模型后直接输出分割结果,使一种从训练数据出发,贯穿整个模型后直接输出结果的新模型。
ISSbPC方法主要分为两类:全监督学习图像语义分割方法和弱监督学习图像语义分割方法。
方法分类
3.1 全监督图像语义分割法
全监督学习图像语义分割方法使用经过人工精确加工的像素级标注作为训练样本,其分割流程为:先对图像中的每个像素预先给定一个语义标签得到标注数据,然后利用标注数据对深度神经网络进行训练,再将训练好的深度神经网络用于图像语义分割。
经过人工精确标注的图像样本能够提供大量细节信息和局部特征。有利于提高网络训练效率和分割精度。目前的基于深度学习的图像语义分割大多使全监督学习类型。全监督方法在训练阶段会利用深度神经网络从大量带有像素级标注的图像中提取丰富的视觉特征和语义信息,再利用这些特征和信息对图像像素进行分类。
由于早期的ISSbRC方法存在存储开销大,计算效率低,所以有研究者设计了一种兼容任意尺寸图像,以全监督学习方法方法进行图像语义分割的全卷积网络。FCN采用跨层方法,即同时兼顾全局语义信息和局部位置信息,又能从抽象特征中恢复出像素所属的类别,把图像级别的分类进一步延伸到了像素级别的分类,成功地将原本用于图像分类的网络转变为用于图像分割的网络

FCN现存问题:
图像经过池化之后,特征图的分辨率不断降低,部分像素的空间位置信息丢失。分割过程未能有效地考虑图像上下文信息,无法充分利用丰富空间位置信息,导致局部特征和全局特征的利用率失衡。 根据现存问题提出的解决方法有七类:基于FCN的方法、基于优化卷积结构的方法、基于编码器-解码器的方法、基于概率图模型的方法、基于特征融合的方法、基于RNN的方法和基于GAN的方法。

  • 基于FCN的方法
    FCN在进行图像语义分割时没有充分考虑到像素与像素之间的关系,缺乏空间一致性,对图像中的细节不够敏感,导致分割结果不够精细。**(算法方法)可以在FCN的末端增加全连接条件随机场,对粗糙分割图进行边界优化,并用带孔卷积扩大特征图的感受野,由此也提出了DeepLab网络。**之后更优化的方法就是在此方法的基础上进行改进的。

  • 基于优化卷积结构的方法
    在使用CNN进行图像语义分割过程中,池化操作能够增大特征图的感受野,并汇合图像的背景信息,但也带来了特征图分辨率不断降低、部分像素的空间位置信息丢失等问题。解决问题的思路就是对神经网络的卷积结构进行优化,使用经过优化的卷积结构来代替传统的卷积、池化操作。引入扩展卷积的概念,更有效地提取图像特征、增加感受野,并保留一部分像素的空间位置信息但是由于扩张卷积也存在一定的问题,所以将它优化为混合扩展卷积。

  • 基于编码器-解码器的方法
    在语义分割领域要解决“池化后特征图分辨率不断降低、部分像素空间位置信息丢失”等问题,除了对卷积结构进行优化之外,另一类方法就是使用编码器-解码器结构。这时一种利用堆成网络结构进行图像语义解析的机制,本质上**利用深度学习中的卷积、池化等操作所构成的编码器来编码被捕捉的像素位置信息和图像特征,再利用反卷积或上池化等操作所构成的解码器来对其解析,还原图像的空间维度和像素位置信息。**有U-net网络、SegNet-Basic网络、SegNet网络、DeconvNet网络…

  • 基于概率图模型的方法
    (暂略)

    3.2 弱监督图像语义分割法
    弱监督学习图像语义分割方法则使用弱标注数据作为样本对深度神经网络进行训练,再用训练后深度神经网络对图像进行语义分割。这种方法使用经过粗略标记的弱标注图像进行训练,减少了标注时间和成本。目前常见的弱标注数据大致有图像级标注、边框级标注和涂鸦级标注。因此ISSbWSL的方法就分为4类:基于边框级标注的方法、基于涂鸦级标注的方法、基于图像级表组的方法和多种弱标注数据混合的方法。

4 图像语义分割实验分析与对比
根据算法的应用场景和分割特色不同,选用的数据集也不同。当对常规静态图像进行图像语义分割时,大多选用PASCAL VOC 2012作为测试数据集。当进行动态场景解析或实时图像语义分割时,大多选用CityScapes作为测试数据集。

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页