Image Segmentation Using Deep Learning: A Survey


  1. 引言

  2. 深度神经网络概述
    2.1 卷积神经网络 (CNNs)
    2.2 循环神经网络 (RNNs) 和长短时记忆网络 (LSTM)
    2.3 编码器-解码器和自编码器模型
    2.4 生成对抗网络 (GANs)

  3. 基于深度学习的图像分割模型
    3.1 全卷积网络
    3.2 带图形模型的卷积模型
    3.3 编码器-解码器模型

3.3.1 通用分割的编码器-解码器模型
3.3.2 医学和生物分割的编码器-解码器模型
3.4 多尺度和金字塔网络模型
3.5 基于 R-CNN 的模型 (用于实例分割)
3.6 膨胀卷积模型和 DeepLab 家族
3.7 基于循环神经网络的模型
3.8 基于注意力的模型
3.9 生成模型和对抗训练
3.10 带有主动轮廓模型的 CNN 模型
3.11 其他模型
4. 图像分割数据集
4.1 2D 数据集
4.2 2.5D 数据集
4.3 3D 数据集

  1. 性能评估
    5.1 图像分割模型的评价指标
    5.2 深度学习模型的定量性能

  2. 挑战与机遇
    6.1 更具挑战性的数据集
    6.2 可解释的深度模型
    6.3 弱监督和无监督学习
    6.4 各种应用的实时模型
    6.5 内存高效的模型
    6.6 3D 点云分割
    6.7 应用场景

  3. 结论




2 深度神经网络概述

本节概述了计算机视觉领域中一些最突出的深度学习架构,包括卷积神经网络 (CNNs) [13]、循环神经网络 (RNNs) 和长短时记忆网络 (LSTM) [14]、编码器-解码器 [15] 以及生成对抗网络 (GANs) [16]。随着近年来深度学习的流行,还提出了其他一些深度神经网络架构,如变压器、胶囊网络、门控循环单元、空间变换网络等,这里不进行详细介绍。







这些层中的单元是局部连接的,即每个单元从前一层的一个小邻域(称为感受野)中接收加权输入。通过堆叠层以形成多分辨率金字塔,更高级别的层从日益扩大的感受野中学习特征。CNN的主要计算优势在于每个层中的所有感受野共享权重,导致参数数量显著减小,相较于全连接神经网络。一些最知名的CNN架构包括:AlexNet [19]、VGGNet [20]、ResNet [21]、GoogLeNet [22]、MobileNet [23]和DenseNet [24]。

2.2 循环神经网络(RNNs)和长短时记忆网络(LSTM)







2.3 编码器-解码器和自编码器模型

编码器-解码器模型是一类通过两阶段网络学习将数据点从输入域映射到输出域的模型:编码器,表示为编码函数 f(z),将输入压缩成潜在空间表示;解码器 y=g(z) 旨在从潜在空间表示中预测输出[15],[26]。这里的潜在表示基本上指的是一个能够捕捉输入的基础语义信息、对于预测输出有用的特征(向量)表示。这些模型在图像到图像的翻译问题以及NLP中的序列到序列模型中非常流行。图5说明了一个简单编码器-解码器模型的框图。这些模型通常通过最小化重构损失 L(y, y ) 进行训练,该损失度量了地面实况输出 与后续重构 y 之间的差异。这里的输出可以是图像的增强版本(例如图像去模糊或超分辨率),也可以是分割图。自编码器是编码器-解码器模型的一种特殊情况,其中输入和输出相同。

2.4 生成对抗网络(GANs)总结







一些模型整合概率图形模型(如条件随机场和马尔可夫随机场)以提高全卷积网络的全局语境理解。这样的模型包括ParseNet、Fully-Connected Deep Structured Network等。


使用卷积编码器-解码器结构的模型是另一流行的图像分割方法。这些模型包括Noh et al.的Deconvolutional Semantic Segmentation、SegNet、以及HRNet等。这些模型在一般分割和医学图像分割领域都取得了成功。


Feature Pyramid Network(FPN)和Pyramid Scene Parsing Network(PSPN)等模型利用多尺度分析,构建金字塔特征以更好地学习全局上下文表示。Path Aggregation Network(PANet)也是一个基于金字塔结构的模型。


R-CNN及其扩展(Fast R-CNN、Faster R-CNN、Mask R-CNN)在对象检测中取得成功,并在实例分割中有所应用。Mask R-CNN通过同时检测对象并生成每个实例的高质量分割掩码,在实例分割任务中表现出色。一些扩展如Path Aggregation Network(PANet)和MaskLab进一步改进了实例分割性能。

3.6 空洞卷积模型和DeepLab家族

空洞卷积(也称为“atrous”卷积)引入了卷积层的另一个参数,即膨胀率。膨胀卷积的信号x(i)定义为yi = :定义了卷积核w的权重之间的间距。例如,膨胀率为2的3x3卷积核将具有与5x5卷积核相同大小的感受野,但只使用9个参数,从而在不增加计算成本的情况下扩大感受野。膨胀卷积在实时分割领域中很受欢迎,许多最近的出版物报告了这一技术的使用。其中一些最重要的包括DeepLab家族[78]、多尺度上下文聚合[79]、密集上采样卷积和混合膨胀卷积(DUC-HDC)[80]、密集连接Atrous空间金字塔池化(DenseASPP)[81]和高效神经网络(ENet)[82]。


DeepLabv1 [37] 和 DeepLabv2 [78] 是由Chen等人开发的一些最流行的图像分割方法。DeepLabv2具有三个关键特征。首先是使用膨胀卷积解决网络中分辨率下降的问题(由最大池化和步幅引起)。其次是Atrous空间金字塔池化(ASPP),它使用多个采样率的滤波器来探测传入的卷积特征层,从而在多个尺度上捕捉对象和图像上下文,以稳健地在多个尺度上分割对象。第三是通过结合深度CNN和概率图模型的方法改善对象边界的定位。最佳的DeepLab(使用ResNet-101作为骨干)在2012 PASCAL VOC挑战赛上达到了79.7%的mIoU分数,在PASCAL-Context挑战赛上达到了45.7%的mIoU分数,在Cityscapes挑战赛上达到了70.4%的mIoU分数。图22说明了DeepLab模型,与[37]类似,主要区别在于使用了膨胀卷积和ASPP。



2018年,Chen等人[83]发布了DeepLabv3+,它使用编码器-解码器架构(图23),包括膨胀可分离卷积,由深度卷积组成(输入的每个通道的空间卷积)和点卷积(1x1卷积,输入为深度卷积)。他们使用DeepLabv3框架作为编码器。最相关的模型具有修改后的Xception骨干,更多层次,使用膨胀深度可分离卷积代替最大池化和批归一化。在COCO和JFT数据集上预训练的最佳DeepLabv3+在2012 PASCAL VOC挑战赛上获得了89.0%的mIoU分数。


3.7 基于循环神经网络的模型


图24. ReSeg模型。未显示预训练的VGG-16特征提取器网络。来自[84]。
在另一项工作中,Byeon等人[86]使用长短时记忆(LSTM)网络开发了场景图像的像素级分割和分类。他们研究了用于自然场景图像的二维(2D)LSTM网络,考虑了标签的复杂空间依赖关系。在这项工作中,分类、分割和上下文集成都是由2D LSTM网络执行的,允许在单个模型内学习纹理和空间模型参数。
Lian等人[87]提出了一种基于图形长短时记忆(Graph LSTM)网络的语义分割模型,这是从时序数据或多维数据广义到一般图结构数据的LSTM。与现有的多维LSTM结构(例如行、网格和对角LSTM)均匀分割图像像素或图块不同,他们将每个任意形状的超像素视为语义一致的节点,并自适应地为图像构建一个无向图,其中超像素的空间关系自然用作边。图25呈现了传统像素级RNN模型和图形LSTM模型的视觉比较。为了将图形LSTM模型调整到语义分割(图26),在卷积层之上添加了建立在超像素地图上的LSTM层,以使用全局结构上下文增强视觉特征。卷积特征通过1x1卷积滤波器传递,以生成所有标签的初始置信度映射。用于后续图形LSTM层的节点更新顺序由基于初始置信度映射的置信度驱动方案确定,然后图形LSTM层可以顺序更新所有超像素节点的隐藏状态。


图27. 从自然语言表达中进行分割的CNN+LSTM体系结构。来自[89]。
图28. 查询“穿蓝大衣的人”生成的分割蒙版。来自[89]。

3.8 基于注意力机制的模型


图29. 基于注意力的语义分割模型。注意模型学会为不同尺度的对象分配不同的权重;例如,对于来自尺度1.0的小人(绿色虚线圆圈),模型为来自尺度0.5的大孩子(品红虚线圆圈)的特征分配大权重。来自[90]。
图30. 用于分割的反向注意网络。来自[91]。

图31. 用于语义分割的GAN。来自[100]。
其他作品探索了注意机制在语义分割中的应用,如OCNet [94] 提出了受自注意机制启发的对象上下文池化,Expectation-Maximization Attention(EMANet)[95],Criss-Cross Attention Network(CCNet)[96],具有递归注意的端到端实例分割[97],用于场景解析的逐点空间注意网络[98],包含两个子网络的判别特征网络(DFN)[99],其中包括平滑网络(包含通道注意块和全局平均池化以选择更有区别性的特征)和边界网络(用于使边界的双边特征可区分)。

3.9 生成模型和对抗训练

Luc等人[100]提出了一种用于语义分割的对抗训练方法。他们训练了一个卷积语义分割网络(图31),以及一个对抗网络,该网络将真实分割地图与由分割网络生成的地图区分开。他们表明,对抗训练方法可以提高在Stanford Background和PASCAL VOC 2012数据集上的准确性。
Xue等人[103]提出了一种用于医学图像分割的多尺度L1 Loss的对抗网络。他们使用FCN作为分割器生成分割标签图,提出了一种新颖的对抗性评论网络,具有多尺度L1损失函数,以迫使评论者和分割器学习捕获像素之间的长程和短程空间关系的全局和局部特征。

3.10 CNN模型与主动轮廓模型

FCN与ACM协同探索: 研究者们探索了FCN与主动轮廓模型(ACM)之间的协同关系。一种方法是制定受ACM原理启发的新损失函数。Chen等人提出了一个监督损失层,该层在训练FCN时结合了预测掩码的面积和大小信息,用于处理心脏MRI中心室分割的问题。

FCN与ACM的不同应用: 一些研究尝试将ACM作为FCN输出的后处理器,而其他努力则通过预训练FCN进行适度的协同学习。例如,Le等人的工作中,级集ACMs被实现为RNNs。在医学图像分割方面,Hatamizadeh等人提出了集成的Deep Active Lesion Segmentation(DALS)模型,用于训练FCN骨干以预测新颖的局部参数化级集能量函数的参数函数。其他相关工作包括Marcos等人的Deep Structured Active Contours(DSAC)以及Cheng等人的Deep Active Ray Network(DarNet)等。

全集成FCN-ACM组合: Hatamizadeh等人最近引入了一种全面的、可反向传播训练的全集成FCN-ACM组合,被称为Deep Convolutional Active Contours(DCAC)。

3.11 其他模型

其他流行的分割模型: 这一部分介绍了语义分割领域中的其他一些流行的深度学习架构。其中包括Context Encoding Network(EncNet)、RefineNet、Seednet、Object-Contextual Representations(OCR)、BoxSup、Graph convolutional networks、Wide ResNet、Exfuse、Feedforward-Net等等。这些模型采用不同的方法和结构来解决语义分割问题。

全景分割: 最后提到了全景分割问题的流行度上升,并介绍了一些相关的工作,如Panoptic Feature Pyramid Network、attention-guided network for Panoptic segmentation、Seamless Scene Segmentation等。

时序图表: 图表32展示了自2014年以来流行的DL-based语义分割和实例分割工作的时间线,展示了这个领域的发展趋势。

4 图像分割数据集

在这一部分,我们总结了一些最广泛使用的图像分割数据集。我们将这些数据集分为三类:2D图像、2.5D RGB-D(彩色+深度)图像和3D图像,并提供每个数据集的详细特征。这些列出的数据集具有像素级标签,可用于评估模型性能。


4.1 2D 数据集

PASCAL Visual Object Classes (VOC) [145]
PASCAL Context [147]
基于 PASCAL VOC 2010 检测挑战的扩展。
Microsoft Common Objects in Context (MS COCO) [148]
Cityscapes [149]
ADE20K / MIT Scene Parsing [132]
SiftFlow [150]
从 LabelMe 数据库的子集中获取的2,688张图像。
KITTI [155]
包括Semantic Boundaries Dataset (SBD) [157]、PASCAL Part [158]、SYNTHIA [159]、Adobe’s Portrait Segmentation [160]等。

4.2 2.5D 数据集

NYU-D V2 [161]
使用Microsoft Kinect的室内场景RGB-D图像。
SUN-3D [162]
SUN RGB-D [163]
UW RGB-D Object Dataset [164]
ScanNet [165]

4.3 3D 数据集

Stanford 2D-3D
ShapeNet Core
ShapeNet 数据集的子集,包含55个常见对象类别。
Sydney Urban Objects Dataset

5 性能评估


5.1 分割模型的指标


像素准确性(Pixel Accuracy): 正确分类的像素占总像素数的比例。

平均像素准确性(Mean Pixel Accuracy): 按类别计算正确像素的比率,然后对所有类别取平均。

交并比(Intersection over Union,IoU): 预测的分割图与实际情况的交集区域与并集区域之比。

平均交并比(Mean IoU): 所有类别的平均IoU。

Precision / Recall / F1分数: 用于报告传统图像分割模型准确性的流行指标。

Dice系数: 用于图像分割的另一个流行指标,可定义为预测和实际情况图的重叠区域的两倍,除以两个图中的总像素数。

5.2 基于深度学习模型的定量性能



PASCAL VOC测试集: 表格1总结了在该测试集上的性能,显示自引入第一个深度学习图像分割模型FCN以来,模型的准确性有了显著提高。

Cityscape测试集: 表格2聚焦于该数据集,最新模型相对于初始FCN模型在该数据集上提高了约23%。

MS COCO stuff测试集: 表格3关注该数据集,相比于PASCAL VOC和Cityescapes,该数据集更具挑战性。

ADE20k验证集: 表格4提供了该验证集上的性能总结,该数据集相对于PASCAL VOC和Cityescapes更具挑战性。




6.1 更具挑战性的数据集



6.2 可解释的深度模型


6.3 弱监督学习和无监督学习

弱监督学习(即少样本学习)[182] 和无监督学习[183] 正在成为非常活跃的研究领域。这些技术对于图像分割尤其有价值,因为在许多应用领域,特别是在医学图像分析中,为分割问题收集标记样本是困难的。迁移学习的方法是在大量标记样本上训练通用图像分割模型(可能来自公共基准测试),然后在一些特定目标应用的少量样本上微调该模型。自监督学习是另一个引起广泛关注的有前途的方向,在各个领域都受到了关注。通过自监督学习,可以利用图像中许多细节来训练具有更少训练样本的分割模型。基于强化学习的模型也可能是未来的潜在方向,因为它们在图像分割方面鲜有关注。例如,MOREL [184] 引入了一种深度强化学习方法,用于视频中的运动目标分割。

6.4 各种应用的实时模型


6.5 内存高效的模型


6.6 3D点云分割


6.7 应用场景


7 结论

我们对基于深度学习模型的100多种图像分割算法进行了调查,这些算法在各种图像分割任务和基准测试中取得了令人瞩目的性能,分为CNN和FCN、RNN、R-CNN、扩张CNN、基于注意力的模型、生成和对抗模型等十类。我们总结了这些模型在一些流行基准测试上的定量性能分析,如PASCAL VOC、MS COCO、Cityscapes和ADE20k数据集。最后,我们讨论了图像分割面临的一些挑战和未来可能的研究方向。


Shervin Minaee是Snapchat计算机视觉团队的机器学习主管。他于2018年在纽约大学获得电气工程和计算机科学博士学位。他的研究兴趣包括计算机视觉、图像分割、生物识别和深度学习应用。在博士期间,他发表了40多篇论文和专利。此前,他曾在三星研究、AT&T Labs、华为实验室以及Expedia集团担任研究科学家和数据科学家。

Yuri Boykov是滑铁卢大学Cheriton计算机科学学院的教授。他的研究集中在计算机视觉和生物医学图像分析领域,重点关注结构化分割、恢复、注册、立体、运动、模型拟合、识别、照片视频编辑和其他数据分析问题的建模和优化。他是《国际计算机视觉杂志》(IJCV)的编辑。他的工作被列为IEEE TPAMI(30年来的重要论文)中最有影响力的10篇之一。2017年,Google Scholar将他在分割领域的工作列为计算机视觉和模式识别中的“经典论文”(2006年)。2011年,他获得了IEEE颁发的赫尔姆霍兹奖和国际计算机视觉大会颁发的时间测试奖。

Fatih Porikli是Qualcomm圣地亚哥的高级总监,也是IEEE会士。最近曾在澳大利亚国立大学工程研究学院担任全职教授,并在华为CBG Device硬件部门担任副总裁。他曾领导NICTA澳大利亚的计算机视觉研究组,在剑桥的三菱电机研究实验室担任杰出研究科学家。2002年,他从纽约大学获得博士学位。他获得了2006年度R&D 100科学家奖,获得了六个最佳论文奖,发表了250多篇论文,共同编辑了两本书,并发明了100多项专利。在过去的15年里,他担任了许多IEEE会议的总主席和技术方案主席,并担任了IEEE和Springer期刊的副主编。

Antonio Plaza教授是IEEE会士,现任西班牙埃斯特雷马杜拉大学技术计算机与通信系的教授。他在1999年和2002年分别获得计算机工程硕士学位和博士学位。他发表了600多篇论文,包括300多篇JCR期刊论文(其中有170多篇在IEEE期刊上),24篇书章以及300多篇同行评审的会议论文。他获得了2015年IEEE信号处理杂志最佳专栏奖,2013年JSTARS杂志最佳论文奖,以及Journal of Parallel and Distributed Computing(2005-2010)中引用最多的论文奖。他被列入2018年和2019年高被引研究员名单。

Nasser Kehtarnavaz是德克萨斯大学达拉斯分校电气与计算机工程系的杰出教授。他的研究兴趣包括信号和图像处理、机器学习以及在嵌入式处理器上的实时实现。他撰写或合著了十本书和390多篇期刊论文、会议论文、专利、手册和社论。他是SPIE会士、持牌专业工程师,也是《实时图像处理杂志》的主编。

Demetri Terzopoulos是加利福尼亚大学洛杉矶分校的计算机科学杰出教授,他领导着UCLA计算机图形与视觉实验室。他还是VoxelCloud公司的联合创始人和首席科学家。他在1984年从麻省理工学院获得博士学位。他曾获得奥斯卡奖,是ACM、IEEE、加拿大皇家学会和伦敦皇家学会的会士,以及欧洲科学院、纽约科学院和Sigma Xi的成员。他曾因在基于物理的计算机动画方面的开创性工作获得奥斯卡奖,并因在可变形模型及其应用方面的开创性和持续研究而获得IEEE计算机视觉杰出研究员奖。他发表了400多篇研究论文和多卷著作。在1989年成为学者之前,他曾在加利福尼亚和德克萨斯的斯伦贝杰公司研究中心担任项目领导。

