【转载】语义分割综述2020.01_deeplab 发布时间-CSDN博客

转载：

作者： http://blog.csdn.net/john_bh/

出处：https://blog.csdn.net/john_bh/article/details/107044528

论文链接：Image Segmentation Using Deep Learning:A Survey

会议及时间： Arxiv 2020.01

图像分割是图像处理和计算机视觉中的关键主题，其应用包括场景理解，医学图像分析，机器人感知，视频监视，增强现实和图像压缩等。最近，由于深度学习模型在各种视觉应用中的成功，已经有大量的工作旨在使用深度学习模型开发图像分割方法。作者在本次调查中，涵盖了语义和实例级分割的广泛开创性工作，包括全卷积像素标记网络，编码器-解码器体系结构，多尺度以及基于金字塔的方法，递归网络，视觉注意模型和对抗环境中的生成模型。研究了这些深度学习模型的相似性，优势和挑战，研究了使用最广泛的数据集，报告了性能，并讨论了该领域有希望的未来研究方向。

文章目录

1. Introduction

图像分割是许多视觉理解系统中必不可少的组成部分。它涉及将图像（或视频帧）划分为多个片段或对象。分割在广泛的应用中起着核心作用，包括医学图像分析（例如，肿瘤边界提取和组织体积测量），自动驾驶车辆（例如，可导航的地面和行人检测），视频监控以及增强现实技术来计算很少。文献中已经开发了许多图像分割算法，从最早的方法（例如阈值化，基于直方图的捆绑，区域增长，k均值聚类，watersheds）到更高级的算法（例如活动轮廓，图割，有条件和马尔可夫随机场和基于稀疏性的方法）。然而，在过去的几年中，深度学习（DL）网络产生了新一代的图像分割模型，其性能得到了显着提高-通常在流行的基准上达到最高的准确率，导致许多人将其视为该领域的范式转变。例如，图1展示了杰出的深度学习模型DeepLabv3的样本图像分割输出。
在这里插入图片描述
可以将图像分割表述为具有语义标签的像素分类问题（语义分割）或单个对象的划分（实例分割）。语义分割对所有图像像素使用一组对象类别（例如，人，汽车，树木，天空）执行像素级标记，因此通常比图像分类要困难得多，后者要为整个图像预测一个标签。实例分割通过检测和描绘图像中的每个感兴趣的对象（例如，分割个人）进一步扩展了语义分割的范围。

这篇综述调查涵盖了图像分割方面的最新文献，并讨论了直到2019年提出的一百多种基于深度学习的分割方法，对这些方法的不同方面提供了全面的回顾和见解，包括训练数据，网络架构的选择，损失功能，训练策略及其主要作用。

根据深度学习的主要技术贡献将其分为以下几类：

Fully convolutional networks
Convolutional models with graphical models
Encoder-decoder based models
Multi-scale and pyramid network based models
R-CNN based models (for instance segmentation)
Dilated convolutional models and DeepLab family
Recurrent neural network based models
Attention-based models
Generative models and adversarial training
Convolutional models with active contour models
Other models

这篇综述的一些关键贡献可以总结如下：

这项调查涵盖了有关分割问题的当代文献，并概述了截至2019年提出的100多种分割算法，分为10类。
使用深度学习对分割算法的不同方面进行全面的回顾和深入的分析，包括训练数据，网络架构的选择，损失函数，训练策略及其主要贡献。
概述了约20种流行的图像分割数据集，分为2D，2.5D（RGBD）和3D图像。
提供了针对大众化基准进行细分的方法的性能和性能的比较摘要。
为基于深度学习的图像分割提供了一些挑战和潜在的未来方向。

2. Overiew of deep neural networks

2.1 CNNs

CNN是深度学习社区中最成功且使用最广泛的架构之一，尤其是对于计算机视觉任务而言。 CNN最初是由福岛（Fukushima）在他的关于“ Neocognitron”的开创性论文中提出的，其基础是Hubel和Wiesel提出的视觉皮层的分层感受野模型。随后，Waibel等人介绍了在时间感受野和反向传播训练之间共享权重的CNN，用于音素识别，LeCun等人开发了CNN架构用于文件识别（图2）。
在这里插入图片描述
CNN主要由三种类型的层组成：i）卷积层，其中卷积权重的核（或滤波器）以提取特征； ii）非线性层，它们在特征图上（通常是逐元素地）应用激活函数，以便能够通过网络对非线性函数进行建模； iii）合并层，这些合并层用一些统计数据替换了特征图的一小部分邻域
有关邻域的信息（平均值，最大值等），并降低空间分辨率。层中的单元是本地连接的；也就是说，每个单元都从前一层中较小的邻域（称为接收场）接收加权输入。通过堆叠图层以形成多分辨率金字塔，高层可以从越来越宽的接收场中学习特征。 CNN的主要计算优势在于，一层中的所有接收场均具有权重，因此与完全连接的神经网络相比，参数数量明显减少。一些最著名的CNN架构包括：AlexNet，VGGNet，ResNet，GoogLeNet，MobileNet和DenseNet。

2.2 RNNs & LSTM

RNN被广泛用于处理顺序数据，例如语音，文本，视频和时间序列，其中任何给定时间/位置的数据都取决于先前遇到的数据。在每个时间戳上，模型都会收集当前时间 X i X_iXi的输入和上一步h i − 1 h_{i-1}hi−1的隐藏状态，并输出目标值和新的隐藏状态（图3）。
在这里插入图片描述
RNN通常在长序列方面存在问题，因为它们无法捕获许多实际应用中的长期依赖关系（尽管它们在这方面没有任何理论上的限制），并且经常遭受梯度消失或爆炸问题的困扰。然而，一种称为长短期记忆（LSTM的RNN旨在避免这些问题。 LSTM体系结构（图4）包括三个门（输入门，输出门，遗忘门），它们调节信息进出存储单元的信息流，该存储单元在任意时间间隔内存储值。
在这里插入图片描述
输入、隐藏状态和不同门之间的关系:

2.3 Encoder-Decoder and Auto-Encoder Models

编码器-解码器模型是一组模型，可以学习通过两级网络将数据点从输入域映射到输出域：由编码函数 z = f ( x ) z = f(x)z=f(x) 表示的编码器将输入压缩为潜在空间表示；解码器 y = g ( z ) y = g(z)y=g(z) 旨在预测潜在空间表示的输出。这里的潜在表示本质上是指特征（矢量）表示，它能够捕获底层的
输入的语义信息，可用于预测输出。这些模型在图像到图像的翻译问题以及NLP中的序列模型中非常流行。图5示出了简单的编码器-解码器模型的框图。通常通过最小化重建损失 L ( y , y ^ ） L(y, \hat y）L(y,y^）来训练这些模型，重建损失 L ( y , y ^ ) L(y,\hat y)L(y,y^) 测量ground-truth y yy 和后续重建 y ^ \hat yy^ 之间的差异。此处的输出可以是图像的增强版本（例如，在图像去模糊或超分辨率中）或分段图。
在这里插入图片描述
自动编码器是编码器-解码器模型的特例，其中输入和输出相同。最受欢迎的一种是堆叠式降噪自动编码器（SDAE），它可以堆叠多个自动编码器并将其用于图像降噪。另一个流行的变体是变体自动编码器（VAE），它在潜在表示上施加了先验分布。 VAE能够根据给定的数据分布生成实际样本。对抗性自动编码器是另一种变体，它在潜在表示上引入对抗性损失，以鼓励它们近似先验分布。

2.4 GANs

GAN是较新的深度学习模型系列。它们由两个网络组成：一个生成器和一个鉴别器（图6）。
在这里插入图片描述
自从GANs发明以来，研究人员已努力通过多种方式来改进/修改GANs。例如，Radford等人提出了卷积GAN模型，当用于图像生成时，该模型比完全连接的网络工作得更好。 Mirza提出了一种条件GAN模型，该模型可以生成以类标签为条件的图像，从而可以生成具有指定标签的样本。 Arjovsky等人提出了一种基于Wasserstein的新损失函数（又称推土机距离），以更好地估计真实样本和生成样本的分布不重叠的情况下的距离（因此，KullbackLeiber散度并不是衡量该样本的好方法距离）。

2.5 Transfer Learning

在某些情况下，可以在新的应用程序/数据集上从头开始训练DL模型（假设有足够数量的标记训练数据），但是在许多情况下，没有足够的标记数据来从头开始训练模型，并且可以使用迁移学习解决这个问题。在迁移学习中，通常通过对新任务的适应过程，将在一个任务上训练的模型重新用于另一（相关）任务。例如，可以想象使在ImageNet上训练的图像分类模型适应不同的任务，例如纹理分类或面部识别。在图像分割的情况下，许多人使用在ImageNet上训练的模型（比大多数图像分割数据集更大的数据集）作为网络的编码器部分，并从这些初始权重中重新训练他们的模型。预训练的模型应该能够捕获分割所需图像的语义信息，并因此使他们能够用较少标签的样本来训练模型。

3. DL-based Image Segmentation Models

3.1 Fully Convolutional Networks

Long等人提出了使用全卷积网络（FCN）进行语义图像分割的首批深度学习作品之一。 FCN（图7）仅包含卷积层，这使它能够拍摄任意大小的图像并生成相同大小的分段图。作者修改了现有的CNN架构，例如VGG16和GoogLeNet，以通过将所有完全连接的层替换为完全卷积的层来管理大小不固定的输入和输出。结果，模型输出空间分割图而不是分类得分。
在这里插入图片描述
通过使用跳过连接，其中对模型最后层的特征图进行了上采样并与早期层的特征图（图8）融合，该模型将语义信息（来自较深，较粗糙的层）和外观信息（从浅层，细层开始）以生成准确且详细的细分。该模型在PASCAL VOC，NYUDv2和SIFT Flow上进行了测试，并实现了最新的分割性能。
在这里插入图片描述
这项工作被认为是图像分割的一个里程碑，表明可以对端到端的可变图像进行语义分割的深度网络训练。但是，尽管传统的FCN模型广受欢迎和有效，但它还是有一些局限性-它不够快，无法进行实时推断，它没有以有效的方式考虑全局上下文信息，并且不容易转换为3D 图像。

例如，Liu等人提出了一个名为ParseNet的模型，以解决FCN的一个问题-忽略全局上下文信息。 ParseNet通过使用一层的平均要素来扩展每个位置的要素，从而为FCN添加全局上下文。图层的特征图将在整个图像上合并，从而产生上下文向量。对该上下文向量进行规范化和解池化，以生成与初始大小相同的新特征图。然后将这些特征图连接起来。简而言之，ParseNet是一个FCN，其中所描述的模块代替了卷积层（图9）。
在这里插入图片描述
FCNs已经应用于多种分割问题，如脑瘤的分割，instance-aware语义分割，皮肤病变的分割，虹膜分割。

3.2 Convolutional Models With Graphical Models

如所讨论的，FCN忽略了可能有用的场景级语义上下文。为了集成更多上下文，几种方法将概率图形模型（例如条件随机场（CRF）和马尔可夫随机场（MRF））纳入DL体系结构。

Chen等人提出了一种基于CNN和完全连接的CRF的语义分割算法（图10）。他们表明，来自深层CNN的最后一层的响应未充分定位以进行精确的对象分割（由于不变性使CNN能够很好地完成高级任务，例如分类）。为了克服深层CNN的局限性，他们将最终CNN层的响应与完全连接的CRF相结合。他们表明，与以前的方法相比，他们的模型能够以更高的准确率定位路段边界。
在这里插入图片描述
Schwing和Urtasun 提出了一种完全连接的深度结构化网络，用于图像分割。他们提出了一种联合训练CNN和完全连接的CRF进行语义图像分割的方法，并在具有挑战性的PASCAL VOC 2012数据集上取得了令人鼓舞的结果。Zheng等提出了类似的建议，CRF与CNN集成的语义分割方法。

在另一项相关工作中，Lin等人提出了一种基于上下文深度CRF的高效语义分割算法。他们探索了“patch-patch”上下文（在图像区域之间）和“patch-background”上下文，以通过使用上下文信息来改善语义分割。

Liu等人提出了一种语义分割算法，该算法将丰富的信息合并到MRF中，包括高阶关系和标签上下文的混合。与以前使用迭代算法优化MRF的工作不同，他们提出了CNN模型，即解析网络，该模型可以在单个前向通过中进行确定性的端到端计算。

3.3 Encoder-Decoder Based Models

另一个流行的用于图像分割的深度模型系列基于卷积编码器-解码器体系结构。 大多数基于DL的分割工作都使用某种编码器/解码器模型，我们将这些工作分为两类：用于一般分割的编码器-解码器模型和用于医学图像分割的编码器/解码器模型（以更好地区分应用）。

Encoder-Decoder Models for General Segmentation
Noh等人发表了有关基于反卷积（也称为转置卷积）的语义分割的早期论文。他们的模型（图11）由两部分组成，一个是使用从VGG 16层网络采用的卷积层的编码器，另一个是将特征向量作为输入并生成像素级类概率图的反卷积网络。解卷积网络由解卷积层和解池层组成，这些层识别逐个像素的类标签并预测分段掩码。该网络在PASCAL VOC 2012数据集上取得了可喜的性能，并且在当时没有外部数据训练的方法中获得了最高的准确性（72.5％）。

在另一个被称为SegNet的有前途的工作中，Badrinarayanan等人提出了一种用于图像分割的卷积编码器-解码器架构（图12）。与反卷积网络类似，SegNet的核心可训练分割引擎由一个编码器网络组成，其拓扑结构与13层 VGG16网络中的卷积层，以及相应的解码器网络，然后是逐像素分类层。 SegNet的主要新颖之处在于解码器对其较低分辨率的输入特征图进行升采样。具体来说，它使用在相应编码器的最大池化步骤中计算出的合并索引来执行非线性上采样，从而消除了学习上采样的需求，然后将（稀疏）上采样图与可训练的滤波器卷积为生成密集的特征图。与其他竞争性体系结构相比，SegNet的可训练参数数量也明显更少。同一作者还提出了贝叶斯SegNet版本，以对卷积编码器-解码器网络用于场景分割的固有不确定性建模。

其他一些工作采用转置卷积或编码器/解码器进行图像分割，例如堆叠反卷积网络（SDN），Linknet ，W-Net 和用于RGBD分割的局部敏感反卷积网络。
Encoder-Decoder Models for Medical and Biomedical Image Segmentation
最初开发了几种用于医学/生物医学图像分割的模型，这些模型受FCN和编码器-解码器模型的启发。 U-Net和V-Net是两个众所周知的此类体系结构，现在也已在医疗领域之外使用。

Ronneberger等人建议使用U-Net分割生物显微镜图像。他们的网络和培训策略依靠数据增强来更有效地从可用的带注释的图像中学习。 U-Net体系结构（图13）包括两个部分，一个用于捕获上下文的收缩路径，一个用于精确定位的对称扩展路径。下采样或压缩部分具有类似于FCN的体系结构，可提取 3 ∗ 3 3 * 33∗3卷积的特征。上采样或扩展部分使用上卷积（或去卷积），在减少特征图数量的同时增加其尺寸。将网络下采样部分的特征图复制到上采样部分，以避免丢失模式信息。最终，1 ∗ 1 1 * 11∗1 卷积处理特征图以生成对输入图像的每个像素进行分类的分割图。 U-Net接受了30幅透射光显微镜图像的训练，并且在2015年ISBI细胞追踪挑战赛中大获全胜。

已针对不同种类的图像开发了U-Net的各种扩展。例如，Cicek提出了用于3D图像的U-Net体系结构。 Zhou等人开发了一个嵌套的U-Net架构。 U-Net也已应用于其他各种问题。例如，Zhang等人开发了基于U-Net的道路分割/提取算法。

V-Net（图14）是另一个著名的基于FCN的模型，由Milletari等人提出用于3D医学图像分割。对于模型训练，他们引入了基于Dice系数的新目标函数，使模型能够处理前景和背景中的体素数量之间存在强烈不平衡的情况。该网络经过端到端的MRI描绘前列腺体积的培训，并学会了一次预测整个体积的分割。

其他有关医学图像分割的相关工作包括渐进密集V-net（PDV-Net）等人，用于从胸部CT图像快速自动分割肺叶，以及用于病变分割的3D-CNN编码器。

3.4 Multi-Scale and Pyramid Network Based Models

多尺度分析是图像处理中一个比较古老的想法，已被部署在各种神经网络体系结构中。Lin等人提出的特征金字塔网络（FPN）是此类中最著名的模型之一，该模型主要是为目标检测，但随后也应用于分割。深度CNN固有的多尺度金字塔层次结构被用来构建具有少量额外成本的特征金字塔。为了合并低分辨率和高分辨率功能，FPN由自下而上的路径，自上而下的路径和横向连接组成。然后通过 3 ∗ 3 3 * 33∗3 卷积处理级联的特征图，以生成每个阶段的输出。最后，自顶向下路径的每个阶段都会生成预测以检测物体。 对于图像分割，作者使用两个多层感知器（MLP）生成masks.。图15显示了如何通过添加来合并横向连接和自上而下的路径。
在这里插入图片描述
Zhao等人开发了金字塔场景解析网络（PSPN），这是一个多尺度网络，可以更好地学习场景的全局上下文表示（图16），并使用残差网络（ResNet）作为输入从图像中提取不同的模式。特征提取器，具有扩展的网络。然后将这些特征图输入金字塔池模块中，以区分不同比例的图案。它们以四个不同的比例合并，每个比例对应于一个金字塔等级，并由 1 ∗ 1 1 * 11∗1 卷积层处理以减小其尺寸。金字塔等级的输出被上采样并与初始特征图连接，以捕获局部和全局上下文信息。最后，使用卷积层生成逐像素预测。
在这里插入图片描述
Ghiasi和Fowlkes开发了一种基于拉普拉斯金字塔的多分辨率重建体系结构，该体系结构使用高分辨率特征图的跳跃连接和乘性门控来依次细化从低分辨率图重建的分段边界，这表明卷积的明显空间分辨率特征图较低，高维特征表示包含重要的子像素定位信息。

还有其他使用多尺度分析进行细分的模型，例如DM-Net（动态多尺度过滤器网络），上下文对比网络和门控多尺度聚合（CCN），自适应金字塔上下文网络（APC-Net），多尺度上下文缠绕（MSCI）和显着对象分割。

3.5 R-CNN Based Models (for Instance Segmentation)

区域卷积网络（R-CNN）及其扩展（Fast R-CNN，Faster R-CNN，Maksed-RCNN）在对象检测应用中被证明是成功的。 R-CNN的某些扩展已被广泛用于解决实例分割问题。即同时执行对象检测和语义分割的任务。特别是，为对象检测而开发的Faster R-CNN体系结构（图17）使用区域提议网络（RPN: region proposal network）提议边界框候选。 RPN提取感兴趣区域（RoI:Region of Interest），RoIPool层从这些建议中计算要素，以推断出边界框坐标和对象的类别。
在这里插入图片描述
在该模型的一个扩展中，He等人提出了一种用于对象实例分割的Mask R-CNN，在许多COCO挑战中都击败了以前的所有基准。该模型有效地检测了图像中的对象，同时为每个实例生成了高质量的分割掩码。 Mask R-CNN本质上是具有3个输出分支的Faster RCNN（图18）-第一个计算边界框坐标，第二个计算关联的类，第三个计算二进制Mask 以分割对象。 Mask R-CNN损失函数将边界框坐标，预测类和分割蒙版的损失合并在一起，并共同训练它们。图19显示了一些样本图像上的Mask-RCNN结果。
在这里插入图片描述

Liu等人提出的路径聚合网络（PANet）基于Mask R-CNN和FPN模型（图20）。网络的特征提取器使用具有新的自底向上的增强路径的FPN架构，可改善低层特征的传播。第三条路径的每个阶段都将前一阶段的特征图作为输入，并使用 3 ∗ 3 3 * 33∗3 卷积层对其进行处理。使用横向连接将输出添加到自顶向下路径的同一阶段特征图，这些特征图将馈入下一个阶段。与Mask RCNN中一样，自适应特征池化层的输出将馈入三个分支。前两个使用完全连接的层来生成边界框坐标和关联对象类别的预测。第三部分使用FCN处理RoI以预测对象mask.。
在这里插入图片描述
Dai等人开发了一个用于实例感知语义分割的多任务网络，该网络由三个网络组成，分别区分实例，估计掩码和对对象进行分类。这些网络形成一个级联结构，旨在共享它们的卷积特征。Hu等人提出了一种新的部分监督的训练范例，以及一个新颖的权重传递函数，该模型使训练实例分割模型可以在大量类别上进行分类，所有类别都具有框注，但只有一小部分具有蒙版注解。Chen等人通过基于Faster R-CNN的语义和方向特征完善对象检测，从而开发了实例分割模型MaskLab（图21）。该模型产生三个输出，即框检测，语义分割和方向预测。在Faster-RCNN对象检测器的基础上，预测框提供了对象实例的精确定位。在每个感兴趣的区域内，MaskLab通过组合语义和方向预测来执行前景/背景分割。
在这里插入图片描述
另一个有趣的模型是由Chen等人提出的 Tensormask。这是基于密集的滑动窗口实例分割。他们将密集实例分割视为4D张量上的预测任务，并提出了一个通用框架，该框架使4D张量上的新颖运算符成为可能。他们证明张量视图可以带来比基线大的收益，并且产生的结果与Mask R-CNN相当。 TensorMask在密集对象分割方面取得了可喜的结果（图22）。
在这里插入图片描述
已经基于R-CNN开发了许多其他实例分割模型，例如为 mask proposals开发的模型，包括R-FCN，DeepMask，SharpMask，PolarMask和边界感知实例分割。值得注意的是，还有另一个很有前途的研究方向，它试图通过学习用于自下而上的分割的分组提示来解决实例分割问题，例如深度分水岭变换和通过深度度量学习的语义实例分割。

3.6 Dilated Convolutional Models and DeepLab Family

扩张卷积（又称“atrous””卷积）为卷积层引入了另一个参数，即扩张率。信号 x ( i ) x(i)x(i) 的扩张卷积（图23）定义为y i = ∑ k = 1 K x [ i + r k ] w [ k ] y_i=\sum_{k=1}^K x[i+rk]w[k]yi=∑k=1Kx[i+rk]w[k]，其中 r rr 是定义的扩张率。内核权重之间的间隔 w ww。例如，膨胀率为 2 22 的 3 ∗ 3 3 * 33∗3 内核将具有与 5 ∗ 5 5 * 55∗5 内核相同的大小接收场，同时仅使用 9 99 个参数，从而在不增加计算成本的情况下扩大了接收场。 膨胀卷积在实时分割领域中很流行，并且许多最近的出版物报道了这种技术的使用。最重要的一些特性包括DeepLab系列，多尺度上下文聚合，密集上采样卷积和混合扩张卷积（DUC-HDC），密集连接的Atrous空间金字塔池（DenseASPP）以及高效神经网络（ENet）。
在这里插入图片描述
DeepLabv1 和DeepLabv2 是Chen等人开发的一些最受欢迎的图像分割方法。后者具有三个关键特征。首先是使用扩张卷积来解决网络中分辨率下降的问题（这是由最大池和步幅引起的）。其次是Atrous空间金字塔池化（ASPP），它使用多个采样率的过滤器探测传入的卷积特征层，从而以多个比例捕获对象和图像上下文，从而以多个比例稳健地分割对象。第三是通过结合深层CNN和概率图形模型的方法来改进对象边界的定位。最好的DeepLab（使用ResNet-101作为骨干）在2012年PASCAL VOC挑战赛中达到79.7％的mIoU分数，在PASCAL-Context挑战赛中达到45.7％的mIoU分数，在Cityscapes挑战赛中达到70.4％的mIoU分数。图24说明了Deeplab模型，该模型类似于[38]，主要区别在于使用了扩展卷积和ASPP。
在这里插入图片描述
随后，Chen等人提出了DeepLabv3，它结合了扩展卷积的级联和并行模块。并行卷积模块在ASPP中分组。在ASPP中添加了 1 ∗ 1 1 * 11∗1 卷积和批处理规范化。所有输出通过另一个 1 ∗ 1 1 * 11∗1 卷积进行级联和处理，以创建最终输出，每个像素的对数均对数。

Chen等人在2018年发布了Deeplabv3 +，它使用了编码器-解码器体系结构（图25），其中包括粗糙的可分离卷积，包括深度卷积（输入每个通道的空间卷积）和点向卷积（1 ∗ 1 1 * 11∗1卷积,深度卷积作为输入）。他们使用DeepLabv3框架作为编码器。最相关的模型具有经过修改的Xception骨架，具有更多层，扩展的深度可分离卷积，而不是最大合并和批量归一化。在COCO和JFT数据集上预训练的最佳DeepLabv3+在2012年PASCAL VOC挑战中获得了89.0％的mIoU分数。
在这里插入图片描述

3.7 Recurrent Neural Network Based Models

尽管CNN很自然地适合解决计算机视觉问题，但它们并不是唯一的可能性。 RNN在建模像素之间的短期/长期依赖性方面很有用，以（可能）改善分割图的估计。使用RNN，可以将像素链接在一起并进行顺序处理以建模全局上下文并改善语义分割。但是，挑战之一是图像的自然2D结构。

Visin等人提出了一种基于RNN的语义分割模型ReSeg。该模型主要基于为图像分类开发的另一项作品ReNet。每个ReNet层（图26）由四个RNN组成，它们在两个方向上水平和垂直扫描图像，对补丁/激活进行编码，并提供相关的全局信息。为了使用ReSeg模型进行图像分割（图27），ReNet层堆叠在提取通用局部特征的预训练VGG-16卷积层之上。然后，在ReNet层之后是上采样层，以在最终预测中恢复原始图像分辨率。使用门控循环单元（GRU）是因为它们在内存使用和计算能力之间提供了良好的平衡。
在这里插入图片描述

在另一项工作中，Byeon等人使用长短期记忆（LSTM）网络开发了场景图像的像素级分割和分类。他们研究了自然场景图像的二维（2D）LSTM网络，同时考虑了标签的复杂空间依赖性。在这项工作中，分类，分割和上下文集成都由2D LSTM网络执行，从而允许在单个模型中学习纹理和空间模型参数。所提出的用于图像分割的2D LSTM网络的框图如图28所示。
在这里插入图片描述
Liang等人提出了一种基于图长短期记忆（Graph LSTM）网络的语义分割模型，该模型将LSTM从顺序数据或多维数据扩展为一般的图结构化数据，而不是将图像均匀划分为像素或小块在现有的多维LSTM结构（例如行，网格和对角线LSTM）中，它们将每个任意形状的超像素作为语义上一致的节点，并自适应地为图像构造无向图，其中超像素的空间关系自然用作边缘。

图29展示了传统的像素级RNN模型和图形LSTM模型的视觉比较。为了使Graph LSTM模型适应语义分割（图30），将在超像素图上构建的LSTM层附加到卷积层上，以增强具有全局结构上下文的视觉特征。卷积特征通过 1 ∗ 1 1 * 11∗1 卷积过滤器生成所有标签的初始置信度图。通过基于初始置信度图的置信度驱动方案确定后续Graph LSTM层的节点更新顺序，然后Graph LSTM层可以顺序更新所有超像素节点的隐藏状态。
在这里插入图片描述

Xiang和Fox建议将数据关联的递归神经网络（DA-RNN）用于联合3D场景映射和语义标记。 DA-RNN使用新的递归神经网络架构（图31）对RGB-D视频进行语义标记。网络的输出与诸如Kinect-Fusion之类的映射技术集成在一起，以便将语义信息注入到重建的3D场景中。
在这里插入图片描述
Hu等人开发了一种基于自然语言表达的语义分割算法，结合使用CNN编码图像和LSTM编码其自然语言描述。这与在预定义的语义类集合上的传统语义分段不同，例如，短语“两个人坐在正确的长凳上”仅需要对在正确的长凳上的两个人进行分段，而没有人站立或坐在另一个长凳上。为了产生用于语言表达的按像素细分，他们提出了一种端到端可训练的递归和卷积模型，该模型共同学习处理视觉和语言信息（图32）。在考虑的模型中，使用递归LSTM网络将参考表达式编码为矢量表示，并使用FCN从图像中提取空间特征图并输出目标对象的空间响应图。此模型的分割结果示例（针对查询“穿着蓝色外套的人”）如图33所示。
在这里插入图片描述

3.8 Attention-Based Models

Chen等人提出了一种注意力机制，该机制可以学习在每个像素位置轻柔地加权多尺度特征。他们采用了强大的语义分割模型，并结合多尺度图像和注意力模型对其进行了训练（图34）。注意机制的性能优于平均池和最大池，它使模型能够评估不同位置和比例下要素的重要性。
在这里插入图片描述
与其他训练卷积分类器以学习标记对象的代表性语义特征的工作相反，Huang等人提出了一种使用反向注意机制的语义分割方法。他们的逆向注意力网络（RAN）架构（图35）也训练模型以捕获相反的概念（即与目标类别不相关的功能）。 RAN是一个三分支网络，可同时执行直接和反向注意学习过程。
在这里插入图片描述
Li等人开发了用于语义分割的金字塔注意网络。该模型利用了全局上下文信息在语义分割中的影响，将注意力机制和空间金字塔相结合，以提取精确的密集特征进行像素标记，而不是使用复杂的卷积和人工设计的解码器网络。

最近，Fu等人提出了一种用于场景分割的双关注网络，该网络可以基于自关注机制捕获丰富的上下文依赖关系，具体而言，他们在扩张的FCN之上附加了两种类型的关注模块，该模块对FDI中的语义相互依赖关系进行建模。位置注意模块通过所有位置的特征的加权总和选择性地聚合每个位置的特征。双关注网络的体系结构如图36所示。
在这里插入图片描述
其他各种著作也探索了语义分割的注意力机制，例如OCNet，它提出了一种基于自我注意力机制的对象上下文池，期望最大化注意力（EMANet），交叉注意力网络（CCNet），端到端实例分割带有经常性注意力，用于场景解析的逐点空间注意力网络[98]和区分特征网络（DFN），该特征网络包括两个子网络：平滑网络（包含通道注意力块和全局平均池，以选择更多辨别特征）和边界网络（使边界的双边特征可区分）。

3.9 Generative Models and Adversarial Training

Luc等人提出了一种针对语义分割的对抗训练方法。他们训练了一个卷积语义分割网络（图37），以及一个对抗网络，该网络将地面真实分割图与由分割网络生成的地图区分开来。他们表明，对抗训练方法可以提高Stanford Background和PASCAL VOC 2012数据集的准确性。
在这里插入图片描述

图38显示了对来自斯坦福背景数据集的一幅示例图像进行对抗训练所带来的改进。
在这里插入图片描述
Souly等人提出了使用GAN的半弱监督语义分割。它由一个生成器网络组成，该生成器网络为GAN框架中的区分器提供了针对多类分类器的额外训练示例，该分类器从K个可能的类中为样本分配标签y或将其标记为假样本（额外类）。

在另一项工作中，Hung等人开发了一个使用对抗网络进行半监督语义分割的框架。他们设计了FCN鉴别器，以考虑空间分辨率，将预测的概率图与地面真实分割分布区分开。 该模型考虑的损失函数包含三个术语：基于分割地面事实的交叉熵损失，鉴别器网络的对抗损失和基于置信度图的半监督损失；以及即鉴别器的输出。 Hung及其同事的模型架构如图39所示。
在这里插入图片描述
Xue等人提出了一种具有多尺度L1损失的对抗网络，用于医学图像分割。他们使用FCN作为分割器来生成分割标签图，并提出了一种具有多尺度L1损失函数的新型对抗性评论者网络，以迫使评论者和细分者学习捕获了两者之间长距离和短距离空间关系的全局和局部特征像素。分割器和注释器网络的框图如图40所示。
在这里插入图片描述
其他各种出版物也报道了基于对抗训练的分割模型，例如使用GAN进行细胞图像分割，以及分割和生成对象的不可见部分。

3.10 CNN Models With Active Contour Models

FCN和活动轮廓模型（ACM：Active Contour Models）之间的协同作用探索最近引起了研究兴趣。一种方法是根据ACM原理制定新的损失函数。例如，受[106]的全球能量公式的启发，Chen等人提出了一种监督性损失层，该层在FCN训练期间结合了预测面罩的面积和大小信息，并解决了心脏MRI中的心室分割问题。同样，Gur等人提出了一种基于无边缘形态活动轮廓的无监督损失函数，用于微血管图像分割。

最初，一种不同的方法试图将ACM仅仅用作FCN输出的后处理器，并且通过预训练FCN进行了一些努力，试图进行适度的共同学习。 Le等人的工作（用于将自然图像进行语义分割的任务）的ACM后处理器的一个示例是其中将水平集ACM实现为RNN。 Rupprecht等人的“深度活动轮廓”是另一个示例。对于医学图像分割，Hatamizadeh等人提出了一种集成的深度活动病变分割（DALS）模型，该模型训练FCN主干来预测新颖的局部参数化水平集能量函数的参数函数。在另一项相关工作中，Marcos等人提出了“深层结构主动轮廓（DSAC）”，它在结构化预测框架中结合了ACM和预训练的FCN，用于在航空影像中进行实例分割（尽管有手动初始化）。对于相同的应用，Cheng等人提出了深动态射线网络（DarNet），它与DSAC相似，但是基于极坐标具有不同的显式ACM公式，以防止轮廓自相交。Hatamizadeh等人最近提出了一种真正的端到端反向传播可训练的，完全集成的FCN-ACM组合，称为“深度卷积主动轮廓（DCAC）”。

3.11 Other Models

除上述模型外，还有其他几种用于分割的流行DL架构，例如：上下文编码网络（EncNet），它使用基本的特征提取器并将特征映射馈送到上下文编码模块中。 RefineNet是一个多路径优化网络，可明确利用降采样过程中的所有可用信息，以使用远程残差连接实现高分辨率预测。 “对象上下文表示”（OCR），它在地面真理的监督下学习对象区域，并计算对象区域表示以及每个像素与每个对象区域之间的关系，并使用对象上下文表示来增强表示像素。 Seednet引入了具有深度增强学习功能的自动种子生成技术，该技术学会了解决交互式分割问题。Feedforward-Net将图像超像素映射到从一系列嵌套区域中提取的丰富特征表示，这些嵌套区域的范围不断扩大，并利用统计结构图像和标签空间中，而无需设置明确的结构化预测机制。

其他模型包括BoxSup，图卷积网络，Wide ResNet，Exfuse（增强低级和高级特征融合），双图像分割（DIS），FoveaNet（可感知场景的场景解析），梯形DenseNet，双边分割网络（ BiSeNet），场景解析的语义预测指南（SPGNet），门控形状的CNN，自适应上下文网络（AC-Net），动态结构化语义传播网络（DSSPN），符号图推理（SGR），CascadeNet，可缩放比例的卷积（ SAC），统一感知解析（UperNet）。

全景分割也是另一个有趣（且较新）的分割问题，并且越来越受欢迎，并且在这一方向上已经有一些有趣的工作，包括全景特征金字塔网络，用于全景分割的注意力指导网络和无缝场景分割。

图41说明了基于DL的流行作品进行语义分割的时间轴，以及自2014年以来的实例分割。鉴于过去几年开发的大量作品，我们仅显示一些最具代表性的作品。
在这里插入图片描述

4. Image Segmentation Datasets

4.1 2D Datasets

PASCAL Visual Object Classes (VOC)：
是计算机视觉中最受欢迎的数据集之一，带注释的图像可用于5个任务-分类，细分，检测，动作识别和人员布局。文献中报道的几乎所有流行的分割算法都已在该数据集上进行了评估。对于细分任务，有21类对象标签-车辆，家庭，动物，飞机，自行车，船，公共汽车，汽车，摩托车，火车，瓶，椅子，餐桌，盆栽，沙发，电视/显示器，鸟，猫，牛，狗，马，绵羊和人（如果像素不属于这些类别中的任何一个，则将其标记为背景）。此数据集分为两组，分别是训练和验证，分别包含1,464和1,449张图像。有一个针对实际挑战的私人测试仪。图42显示了示例图像及其按像素标记。
PASCAL Context
是PASCAL VOC 2010检测挑战的扩展，它包含所有训练图像的逐像素标签。它包含400多个类（包括原始的20个类以及PASCAL VOC分割的背景），分为三类（对象，填充和混合）。该数据集的许多对象类别太稀疏了；因此，通常会选择59个常见类别的子集来使用。图43显示了此数据集的三个样本图像的分割图。
Microsoft Common Objects in Context (MS COCO)
是另一种大规模的对象检测，分割和字幕数据集。 COCO包含日常复杂场景的图像，其中包含自然环境中的常见对象。该数据集包含91种对象类型的照片，并以328k图像的形式总共标记了250万个实例。
它主要用于分割单个对象实例。图44显示了给定样本图像的MS COCO标签与先前数据集之间的差异。检测挑战包括80多个类别，提供超过82k图像进行训练，提供40.5k图像进行验证以及超过80k图像进行测试。
Cityscapes
是一个大型数据库，专注于对城市街道场景的语义理解 。它包含来自50个城市的街道场景中记录的各种立体声视频序列集，5k帧的高质量像素级注释以及一组20k的弱注释帧，包括30类的语义和密集像素注释，分为8类-平面，人，车辆，建筑物，物体，自然，天空和空隙。图45显示了来自该数据集的四个样本分割图。
ADE20K /MIT Scene Parsing (SceneParse150)： 提供用于场景解析算法的标准培训和评估平台。该基准的数据来自ADE20K数据集[134]，其中包含超过20K的以场景为中心的图像，并用对象和对象部件进行了详尽注释。基准分为用于训练的20K图像，用于验证的2K图像和用于测试的另一批图像。该数据集中有150个语义类别。
SiftFlow： 包括来自LabelMe数据库子集的2688个带注释的图像。 256 * 256像素的图像基于8个不同的室外场景，其中包括街道，山脉，田野，海滩和建筑物。所有图像都属于33个语义类别之一。
Stanford background： 包含来自现有数据集（例如LabelMe，MSRC和PASCAL VOC）的场景的室外图像。它包含715张具有至少一个前景对象的图像。数据集按像素进行注释，可用于语义场景理解。使用Amazon的Mechanical Turk（AMT）获得了该数据集的语义和几何标签。
Berkeley Segmentation Dataset (BSD)： 包含来自30个人类受试者的1,000个Corel数据集图像的12,000个手工标记的分割。目的是为图像分割和边界检测研究提供经验基础。一半的分割是通过向对象呈现彩色图像获得的，另一半是通过呈现灰度图像获得的。基于此数据的公共基准包括300张图像的所有灰度和颜色细分。图像分为200个图像的训练集和100个图像的测试集。
Youtube-Objects： 包含从YouTube收集的视频，其中包括十个PASCAL VOC类的对象（飞机，鸟，船，汽车，猫，牛，狗，马，摩托车和火车）。原始数据集不包含逐像素注释（因为它最初是为检测对象而开发的，具有弱注释）。然而，Jain等人手动注释了126个序列的子集，然后提取了帧的子集以进一步生成语义标签。此数据集中总共有大约10,167个带注释的480x360像素帧。
KITTI： 是最流行的移动机器人和自动驾驶数据集之一。 它包含数小时的交通场景视频，并以各种传感器模式（包括高分辨率RGB，灰度立体摄像头和3D激光扫描仪）进行记录。原始数据集不包含用于语义分割的基本事实，但是研究人员出于研究目的手动注释了数据集的各个部分。例如，阿尔瓦雷斯（Alvarez）等人从道路检测挑战中生成了323个图像的地面真相，分为道路，vertical和天空3类。
Other Datasets：Semantic Boundaries Dataset (SBD),PASCAL Part,SYNTHIA,Adobes Portrait Segmentation

4.2 2.5D Datasets

NYU-D V2： 由Microsoft Kinect的RGB和深度相机记录的各种室内场景的视频序列组成。它包括来自3个城市的450多个场景中的1,449张密集标记的RGB和深度图像对。每个对象都标有一个类别和一个实例编号（例如cup1，cup2，cup3等）。它还包含407,024个未标记的帧。与其他现有数据集相比，该数据集相对较小。图46显示了样本图像及其分割图。
SUN-3D： 是一个大型RGB-D视频数据集，包含为41个不同建筑物中的254个不同空间捕获的415个序列；注释了8个序列，将来还会有更多注释。每个带注释的帧都带有场景中对象的语义分割，以及有关摄像头姿势的信息。
SUN RGB-D ： 提供RGB-D基准，以达到在所有主要场景理解任务中提高最新技术水平的目标。它由四个不同的传感器捕获，并包含10,000张RGB-D图像，其比例类似于PASCAL VOC。整个数据集都进行了密集注释，其中包括146,617个2D多边形和58,657个3D边界框，它们具有精确的对象方向以及3D房间类别和场景布局。图47显示了两个示例图像（带有标注）。
UW RGB-D Object Dataset： 包含使用Kinect样式3D相机记录的300个常见家庭对象。这些对象被分为51类，使用WordNet上位词-同义词关系（类似于ImageNet）进行排列。使用Kinect样式3D相机记录此数据集，该相机以30 Hz的频率记录并对齐并对齐的640 * 480像素RGB和深度图像。该数据集还包括8个带批注的自然场景视频序列，其中包含来自数据集的对象（UW RGB-D场景数据集）。
ScanNet： 是一个RGB-D视频数据集，在1,500多次扫描中包含250万个视图，并以3D相机姿态，表面重建和实例级语义分割进行注释。为了收集这些数据，设计了一个易于使用且可扩展的RGB-D捕获系统，该系统包括自动表面重建，并且语义标注是众包的。使用这些数据有助于在一些3D场景理解任务上实现最先进的性能，包括3D对象分类，语义体素标注和CAD模型检索。

4.3 3D Datasets

Stanford 2D-3D： 该数据集提供了来自2D，2.5D和3D域的各种相互注册的模态，带有实例级的语义和几何注释，并被收集在6个室内区域中。它包含70,000多个RGB图像，以及相应的深度，表面法线，语义注释，全局XYZ图像以及相机信息。
ShapeNet Core： ShapeNetCore是整个ShapeNet数据集的子集，其中包含单个干净的3D模型以及手动验证的类别和路线注释。它涵盖55个常见对象类别以及大约51,300个唯一3D模型。
Sydney Urban Objects Dataset： 该数据集包含在澳大利亚悉尼中央商务区收集的各种常见的城市道路对象。车辆，行人，标志和树木等类别的物体分别进行631次扫描。

5. Performance Review

5.1 Metrics For Segmentation Models

Pixel accuracy： 只是找到正确分类的像素比率除以像素总数。对于 K + 1 K + 1K+1 类（K个前景类和背景），像素精度定义为等式2：

其中 p i j p_{ij}pij是类别 i ii 的像素被预测为属于类别 j jj 的像素数。
Mean Pixel Accuracy (MPA)： 是PA的扩展版本，其中以每个类的方式计算正确像素的比率，然后在类的总数上求平均值，如等式3:
Intersection over Union (IoU) or the Jaccard Index： 是语义细分中最常用的指标之一。它定义为预测的分割图和 ground truth 之间的交集面积，除以预测的分割图和地面实况之间的并集面积：

其中A和B分别表示 ground truth 和预测的分割图。取值范围是0到1。
Mean-IoU： 是另一种流行的指标，定义为所有类别的平均IoU。它被广泛用于报告现代分割算法的性能。
Precision / Recall / F1 score： 是报告许多经典图像分割模型准确性的常用指标。可以为每个类别以及总体级别定义精度和召回率，如下所示：

其中TP表示真阳性分数，FP表示假阳性分数，FN表示假阴性分数。通常，我们会对精度和召回率的组合版本感兴趣。这种流行的度量称为F1分数，其定义为精确度和查全率的 harmonic mean：
Dice coefficient： 是另一种用于图像分割的流行指标，可以将其定义为预测图和真实图的重叠区域的两倍，再除以两个图像中像素的总数。 Dice系数与IoU非常相似：

当将Dice系数应用于布尔数据（例如二进制分割图）并将前景称为正类时，其Dice系数与F1分数基本相同，定义为等式8：

Dice系数与IoU呈正相关。

5.2 Quantitative Performance of DL-Based Models

在这里插入图片描述

6. Challenges & Opportunities

6.1 More Challenging Datasets

已经创建了几个大型图像数据集用于语义分割和实例分割。 但是，仍然需要更具挑战性的数据集以及不同类型图像的数据集。对于静止图像，具有大量对象和重叠对象的数据集将非常有价值。这可以使训练模型更适合处理密集的对象场景，以及对象之间的较大重叠，这在
真实场景。

随着3D图像分割的日益普及，尤其是在医学图像分析中，也非常需要大型3D图像数据集。这些数据集比维数较低的数据集更难创建。现有的可用3D图像分割数据集通常不够大，有些是合成的，因此更大，更具挑战性的3D图像数据集可能非常有价值。

6.2 Interpretable Deep Models

尽管基于DL的模型在具有挑战性的基准上取得了可喜的性能，但有关这些模型的问题仍然存在。例如，深度模型究竟要学习什么？我们应该如何解释这些模型学到的特征？能在给定的数据集上达到一定分割精度的最小神经架构是什么？ 尽管可以使用一些技术来可视化这些模型的学习卷积核，但是仍缺乏对这些模型的基本行为/动力学的具体研究。更好地理解这些模型的理论方面，可以开发出针对各种细分方案而设计的更好的模型。

6.3 Weakly-Supervised and Unsupervised Learning

弱监督（也就是很少有镜头学习）和无监督学习正在成为非常活跃的研究领域。这些技术有望对图像分割特别有价值，因为在许多应用领域，尤其是在医学图像分析中，采集用于分割问题的标记样本是有问题的 。转移学习方法是在大量带标签的样本（可能来自公共基准）上训练通用图像分割模型，然后在某些特定目标应用程序的几个样本上对该模型进行微调。自我监督学习是另一个有希望的方向，在各个领域都吸引了很多吸引力。借助自我监督学习，可以捕获图像中的许多细节，从而以更少的训练样本来训练分割模型。基于强化学习的模型也可能是另一个潜在的未来方向，因为它们很少受到图像分割的关注。

6.4 Real-time Models for Various Applications

在许多应用程序中，准确性是最重要的因素；但是，在某些应用程序中，具有可以接近实时或至少接近普通相机帧速率（每秒至少25帧）运行的分割模型也很关键）。这对于例如部署在自动驾驶汽车中的计算机视觉系统很有用。当前的大多数模型都远非这个帧速率。例如，FCN-8大约需要100毫秒来处理低分辨率图像。基于膨胀卷积的模型有助于在某种程度上提高分割模型的速度，但仍有很大的改进空间。

6.5 Memory Efficient Models

即使在推理阶段，许多现代分割模型也需要大量内存。到目前为止，已经进行了很多努力来提高这种模型的准确性，但是为了使它们适合特定的设备（例如移动电话），必须简化网络。这可以通过使用更简单的模型，或者通过使用模型压缩技术，甚至训练复杂的模型，然后使用知识提炼技术将其压缩为模仿复杂模型的较小的，内存有效的网络来完成。

6.6 3D Point-Cloud Segmentation

许多工作集中在2D图像分割上，但 处理3D点云分割的工作却很少 。然而，对点云分割的兴趣与日俱增，在3D建模，自动驾驶汽车，机器人技术中具有广泛的应用，建筑模型等。处理3D无序和非结构化数据（例如点云）带来了一些挑战。例如，尚不清楚在点云上应用CNN和其他经典深度学习架构的最佳方法。基于图的深度模型可能是探索点云分割的潜在领域，从而实现了这些数据的其他工业应用。