图像分割综述–论文翻译
论文地址:https://arxiv.org/pdf/2001.05566.pdf
图像分割综述论文
- 图像分割综述--论文翻译
- 摘要
- 介绍
- 深度神经网络的介绍
- 基于深度学习的图像分割模型
- Fully Convolutional Networks
- Convolutional Models With Graphical Models
- Encoder-Decoder Based Models
- Multi-Scale and Pyramid Network Based Models
- R-CNN Based Models (for Instance Segmentation)
- Dilated Convolutional Models and DeepLab Family
- Recurrent Neural Network Based Models
- Attention-Based Models
- Generative Models and Adversarial Training
- CNN Models With Active Contour Models
- Other Models
- 图像分割数据集
- 图像分割性能评估
- 挑战和机遇
- 总结
- 参考文献
摘要
图像分割是图像处理以及计算机视频的关键内容,其应用场景非常广泛,如场景理解、医学图像分析、机器人感知、视频监控、增强显示和图像压缩等。目前关于图像分割的算法论文数量非常多。最近,由于深度学习模型在计算机视频任务中的出色表现,大量的图像分割研究工作都在开发深度学习模型在图像分割中的应用。在本次调查综述中,我们提供全面的图像分割的文献综述,涵盖了语义分割和实例分割的广泛开创性工作,其中包括全卷机像素标签网络、编码器-解码器的结构、基于多尺度和金字塔的方法、循环神经网络、视觉注意力机制模型和生成对抗网络。在本文研究这些图像分割深度学习模型的相似性,各自优缺点,并测试最广泛使用的测试集并展示各自的性能和讨论图像分割领域的未来发展方向
介绍
图像分割是许多计算机视觉理解系统的重要组成部分,主要将图像或者视频帧分割成多个分割对象。图像分割在很多应用场景中扮演着重要的角色,包括医学图像分析(如肿瘤边界提取以及人体组织的体积测量)、自动驾驶(如地面的导航和行人检测)、视频监控和显示增强技术。许多图像分割算法已经发表了,如阈值法[3],基于直方图的方法[5],K聚类方法[5],分水岭算法[6]。对于更先进的算法,如主动轮廓[7],图切割[8],条件和马尔科夫随机场[8]以及基于稀疏特征学习的算法[10]-[11]。在过去的几年,深度学习模型已经应用于新一代的图像分割任务中,它具有显著的性能提升:在流行的基准测试上达到较高的准确率,导致对图像分割领域思考方式发生重大变化(paradigm shift)。如下图所示的由DeeplabV3生产的语义分割结果:
图像分割可以表示为带有语义标签的像素的分类问题(语义分割)或单个对象的分割(实例分割)。语义分割对所有图像像素使用一组对象类别(如人类、汽车、树、天空)进行像素级标记,因此这通常是比图像分类更难的任务,图像分类预测整个图像的单个标签。实例分割通过检测和描述图像中每个感兴趣的对象(例如,个体的分割),进一步扩展了语义分割的范围。
我们的调查涵盖了图像分割的最新文献,并讨论了直到2019年提出的100多种基于深度学习的分割方法。我们对不同的图提供了一个全面的回顾和见解。这些方法的各个方面,包括训练数据、网络架构的选择、损失函数、训练策略及其关键贡献。我们比较总结了这些方法的性能,并讨论了基于深度学习的图像分割模型的几个挑战和潜在的未来方向。
我们对基于深度学习模型的算法进行分类:
- Fully convolutional networks
- Convolutional models with graphical models
- Encoder-decoder based models
- Multi-scale and pyramid network based models
- R-CNN based models (for instance segmentation)
- Dilated convolutional models and DeepLab family
- Recurrent neural network based models
- Attention-based models
- Generative models and adversarial training
- Convolutional models with active contour models
- Other models
本文主要贡献如下:
- 本调查涵盖了当代有关图像分割问题的文献,并概述了截至2019年提出的100多种分割算法,并将其分为10类。
- 我们对使用深度学习的分割算法的不同方面进行了全面的回顾和深刻的分析,包括训练数据、网络架构的选择、损失函数、训练策略和它们的关键贡献。
- 我们提供了大约20个流行的图像分割数据集的概述,分为2D、2.5D(RGBD)和3D图像。
- 我们提供了大约20个流行的图像分割数据集的概述,分为2D、2.5D(RGBD)和3D图像。
- 在流行的基准测试上,我们提供了所回顾的分割方法的属性和性能的比较总结。
- 在流行的基准测试上,我们提供了所回顾的分割方法的属性和性能的比较总结。
深度神经网络的介绍
本节概述了计算机视觉社区使用的一些最突出的深度学习架构,包括卷积神经网络(CNNs)[13]、循环神经网络(RNNs)和长期短期记忆(LSTM)[14]、编码器-解码器[15]和生成对抗网络(GANs)[16]。近年来,随着深度学习的普及,其他一些深度神经结构已经被提出,如注意力机制、胶囊网络、门控循环单元、空间注意力机制网络等,在这篇综述中就不再做详细的介绍了。
值得一提的是,在某些情况下,深度学习模型可以从头开始对新的应用程序/数据集进行训练(假设有足够数量的标记训练数据),但在许多情况下,没有足够的标记数据可以从头开始训练一个模型,可以使用迁移学习来解决这个问题。在迁移学习中,在一个任务上训练的模型被重新用在另一个(相关的)任务上,通常是通过对新任务的某个适应过程。例如,可以想象将ImageNet上训练的图像分类模型适应不同的任务,如纹理分类或人脸识别。在图像分割的情况下,许多人使用在ImageNet上训练的模型(比大多数图像分割数据集更大的数据集),如网络的编码器部分,可以从这些初始权重重新训练他们的模型。因为这些预先训练过的模型应该能够捕获分割所需的图像的语义信息,从而使它们能够用标记较少的样本来训练模型。
Convolutional Neural Networks (CNNs)
CNNs(卷积神经网络)是深度学习社区中最成功和最广泛使用的体系结构之一,特别是在计算机视觉任务方面。CNNs最初是由Fukushima在他关于“Neocognitron”[17]的开创性论文中提出的,是基于Hubel和Wiesel提出的视觉皮层的层次接受场模型。随后,Waibel等人[18]引入了在时间接受域之间共享权重的cnn和音素识别的反向传播训练,LeCun等人[13]开发了一个用于文档识别的CNN架构如下图所示。
CNNs主要由三种类型的层组成:
i)卷积层,其中权重的核(或滤波器)被卷积以提取特征;
ii)非线性层,对特征映射(通常是元素)应用激活函数,以实现网络对非线性函数的建模;
iii)池化层,用一些统计信息(平均值、最大值等)替换特征映射的一个小邻域。
关于邻域,降低了空间分辨率。层中的单元是局部连接的;也就是说,每个单元接收来自前一层单元的一个小邻域,即接受域,的加权输入。通过堆叠层形成多分辨率的金字塔,更高层次的层从越来越宽的接受域学习特征。cnn的主要计算优势是,一层中的所有接受域都共享权重,导致的参数数量明显少于完全连接的神经网络。一些最著名的CNN架构包括:AlexNet[19]、VGGNet[20]、ResNet[21]、谷歌LeNet[22]、MobileNet[23]和DenseNet[24]
Recurrent Neural Networks(RNNs) and the LSTM
RNNs(循环神经网络)擅长处理时序数据,比如语音、文本、视频和时间序列,其中任何给定时间/位置的数据都取决于先验数据。在每个时间戳中,收集模型当前时间 X i X_i Xi的输入和上一个步骤 h i − 1 h_{i-1} hi−1的隐含状态,以及输出目标值和一个新的隐含状态。
RNNs在长序列处理存在弱点,因为他们不能在许多现实世界的应用程序中获取长期的依赖关系(尽管在这点上仍然没有理论证据)以及经常遇到梯度消失或者梯度爆炸的问题。然而一种被称为长短期记忆(LSTM)的循环神经网络被设计出避免出现这些问题。LSTM架构包括三个门(输入门、输出门、忘记门),它们调节进出内存单元的信息流,并在任意时间间隔内存储值。
Encoder-Decoder and Auto-Encoder Models
编码器-解码器是通过两阶段的网络,从输入域的数据点映射到输出域上的点这一系列的模型:由编码函数 z = f ( x ) z=f(x) z=f(x)表示的编码器,将输入压缩成潜在的压缩空间;由 y = g ( x ) y=g(x) y=g(x)表示的解码器旨在预测潜在空间的表示[15],[26]等。这里的潜在空间表示指的是一个特征(向量)表示,它能够捕获到输入的底层语义信息,对预测输出很有用。这些模型在图像到图像翻译问题以及NLP的序列到序列模型中都非常流行。这些模型通常通过最小化重建损失函数 L ( y , y ^ ) L(y, \hat y ) L(y,y^),该损失函数评估ground-true输出 y y y和推理预测重建的 y ^ \hat y y^之间的距离。输出可以是原图的增强版本(如图像去模糊或图像超分辨率),或者分割映射。自动编码器(Auto-encoders)是一种特殊的编码器-解码器,它的输入输出都是相同的。
Generative Adversarial Networks(GANs)
GANs是一种较新的深度学习模型类型。它们由两个网络组成,一个是生成器(Generator)另一个是判别器(Discriminator)。传统的GAN中的生成器网络 G = z → y G=z\rightarrow y G=z→y学习噪声 z z z(具有先验分布)到目标分布 y y y的损失函数,类似于真实样本。判别器网络 D D D视图将生成的样本(“伪造的”)与“真实的”样本区分开来。 G A N GAN GAN损失函数为 L G A N = E x ∼ p d a t a [ l o g D ( x ) ] + E x ∼ p d a t a [ l o g ( 1 − D ( G ( z ) ) ] L_{GAN}=\mathbb{E}_{x \sim p_{data}}[logD(x)] + \mathbb{E}_{x \sim p_{data}}[log(1-D(G(z))] LGAN=Ex∼pdata[logD(x)]+Ex∼pdata[log(1−D(G(z))],我们可以 把GAN看作是G和D之间的极大极小博弈,其中D试图在区分假样本和真实样本时尽量减少其分类误差,从而最大化损失函数。G试图最大化判别器的误差,从而最小化损失函数。GAN训练后生成的器的模型为 G ∗ = a r g m i n G m a x D G^{*}=arg \space min_G \space max_D G∗=arg minG maxD。在真实训练中, L G A N L_{GAN} LGAN可能不能提供足够的梯度来进行有效地训练G,特别是初始训练(当 D D D很容易区分假样本和真实样本时)。与其最小化 E x ∼ p d a t a [ l o g ( 1 − D ( G ( z ) ) ] \mathbb{E}_{x \sim p_{data}}[log(1-D(G(z))] Ex∼pdata[log(1−D(G(z))],一种可能是最大化 E x ∼ p d a t a [ l o g D ( x ) ] \mathbb{E}_{x \sim p_{data}}[logD(x)] Ex∼pdata[logD(x)]
自GANs的发明以来,研究人员一直在努力通过几种方式来改进/修改GANs。例如,雷德福等人。[27]提出了一种卷积GAN模型,该模型在用于图像生成时比全连接网络工作得更好。Mirza[28]提出了一个条件GAN模型,该模型可以基于类标签生成图像,使人们能够生成具有指定标签的样本。Arjovsky等人。[29]提出了一种新的基于Wasserstein (a.k.a. earth mover’s distance)更好地估计真实样本和生成样本分布不重叠的距离(因此KL散度不是一个很好的距离测量)。有关其他作品,我们请读者参考[30]。
基于深度学习的图像分割模型
这一节详细回顾从2019年以来提出的100多种基于深度学习的图像分割方法,(基于各自的模型架构)分为十个类别。值得一提的是,这些方法中有常见公共部分,如编码器和解码器部分,skip-connection,多尺度分析以及扩充卷积。基于此,很难去区分每个算法的独特贡献,但是可以通过各自的基础架构贡献进行分组。除了图像分割算法模型的架构分类外,还可以根据分割目标分为:语义分割、实例分割、泛视和深度分割类别。
Fully Convolutional Networks
Long等人[31]提出了第一个深度学习工作,使用全卷积网络(FCN)。FCN只包括卷积层,这使它能够拍摄任意大小的图像,并生成相同大小的分割图。作者修改了现有的CNN体系结构,如VGG16和GoogLeNet,通过用全卷积的层替换所有全连接,来管理非固定大小的输入和输出。因此,该模型输出一个空间分割图,而不是分类分数。
通过使用跳跃连接,将来自模型的最后一层的特征图进行上采样,并与早期层的特征图融合,该模型结合了语义信息(来自深层、粗层)和外观信息(来自浅层、细层),以产生准确和详细的分割。该模型在pascalVOC、NYUDv2和SIFT流上进行了测试,并取得了最先进的分割性能。
这项工作被认为是图像分割的一个里程碑,证明了深度网络可以在可变图像上以端到端的方式进行语义分割。然而,尽管传统的FCN模型很受欢迎和有效,但它也有一些局限性——对于实时推理不够快,它没有以有效的方式考虑全局上下文信息,也不容易转移到3D图像上。
Liu等人[32]提出了一个名为ParseNet的模型,以解决FCN的一个问题——忽略了全局上下文信息。ParseNet通过使用一个层的平均特征来增强每个位置的特征,将全局上下文添加到fcn中。某一层的特征映射被汇集在整个图像上,从而产生一个上下文向量。这个上下文向量被归一化和未合并,以生成与初始向量相同大小的新特征图。然后连接这些特征映射。简而言之,ParseNet是一个FCN,其中所描述的模块取代了卷积层。
FCNs已被应用于各种分割问题,如脑肿瘤分割[33]、即时感知语义分割[34]、皮肤损伤分割[35]和虹膜分割[36]。
Convolutional Models With Graphical Models
如前所述,FCN忽略了潜在有用的场景级语义上下文。为了集成更多的上下文,一些方法将概率图形模型,如条件随机场(CRFs)和马尔可夫随机场(MRFs)合并到DL架构中。
Chen等人[37]提出了一种基于cnn和全连接CRFs组合的语义分割算法。他们表明,来自最后一层深度CNNs的反应没有足够的定位,无法进行精确的对象分割(由于不变性使CNNs适合于高级任务,如分类)。为了克服深度CNN的差定位特性,他们将最终CNN层的响应与一个全连接的CRF结合起来。他们表明,他们的模型能够以比以前的方法更高的精度来定位段边界。
Schwing和Urtasun[38]提出了一种全连接的深度结构化图像分割网络。他们提出了一种联合训练cnn和完全连接的CRFs进行语义图像分割的方法,并在具有挑战性的pascalVOC2012数据集上取得了令人鼓舞的结果。在[39],Zheng等人提出了一种集成CRF与CNN的类似语义分割方法。
在另一项相关工作中,林等人[40]提出了一种基于上下文深度crf的有效语义分割算法。他们探索了“patch-patch”的背景。(在图像区域之间)和“patch-background”上下文,通过使用上下文信息来改进语义分割。Liu等人[41]提出了一种语义分割算法,将丰富的信息纳入MRFs,包括高阶关系和标签上下文的混合。与之前使用迭代算法优化mrf的工作不同,他们提出了一个CNN模型,即解析网络,它能够在单次前传中实现确定性的端到端计算。
Encoder-Decoder Based Models
另一个流行的图像分割深度模型方法是基于卷积编码器-解码器体系结构。大多数基于深度学习的分割工作使用某种编码器-解码器模型。我们将这些工作分为两类,用于一般分割的编码器-解码器模型,以及用于医学图像分割(以更好地区分应用程序)。
Encoder-Decoder Models for General Segmentation
Noh等人[42]发表了一篇关于基于反卷积的语义分割的早期论文(转置卷积)。他们的模型由两部分组成,一个编码器使用来自VGG16层网络的卷积层的编码器,另一个解卷积网络,以特征向量作为输入并生成像素类概率图。该反褶积网络由反褶积层和非池化层组成,它们可以识别像素级的类标签和预测分割掩码。
该网络在pascalVOC2012数据集上取得了良好的性能,并在当时没有外部数据训练的方法中获得了最好的准确率(72.5%)。
在另一项的工作,如SegNet中, Badri-narayanan等人[15]提出了一种用于图像分割的卷积编码器解码器架构。与反卷积网络类似,SegNet的核心可训练分割引擎由一个编码器网络组成,该网络拓扑与VGG16网络中的13个卷积层相同,以及一个相应的解码器网络,然后是一个像素分类层。SegNet的主要新颖之处在于解码器对其低分辨率的输入特征图进行上采样;具体来说,它使用在相应编码器的最大池化步骤中计算的池化索引来执行非线性上采样。这就消除了学习上样本的需要。然后,将(稀疏的)上采样的映射与可训练的过滤器来生成密集的特征图。SegNet在可训练参数方面的数量上也明显小于其他竞争架构。同一作者还提出了一个贝叶斯seg版本的net来建模场景分割[43]的卷积编码器-解码器网络固有的不确定性。
另一个流行的模型分割网络,高分辨率网络(HRNet)[44]。除了像DeConvNet、SegNet、U-Net和V-Net中那样恢复高分辨率表示外,HRNet通过并行连接高到低分辨率的卷积流,并跨分辨率反复交换信息,通过编码过程维护高分辨率表示。许多最近关于语义分割的工作都利用HRNet作为主干,通过利用上下文模型,如自我注意及其扩展。
其他一些工作采用转置卷积,或编码器-解码器用于图像分割,如堆叠解卷积网络(SDN)[45]、Linknet[46]、W-Net[47]和局部敏感反褶积网络用于RGBD分割[48]。基于编码器-解码器的模型的一个局限性是,由于编码过程中导致的高分辨率表示的丢失,图像的细粒度信息的丢失。然而,这个问题在一些最近的架构中得到了解决,如HR-Net。
Encoder-Decoder Models for Medical and Biomedical Image Segmentation
最初开发了几个针对医学/生物医学图像分割的模型,它们受到fcn和编码器-解码器模型的启发。U-Net[49]和V-Net[50]是两种著名的体系结构,现在也在医疗领域之外使用。
Ronneberger等人[49]提出了用于分割生物显微镜图像的U-Net。他们的网络和训练策略依赖于使用数据增强来有效地从极少数带注释的图像中学习。U-Net架构包括两部分,一个是捕获上下文的收缩路径和一个能够实现精确定位的对称扩展路径。降采样或收缩部分具有一个类似FCN的体系结构,它可以用3×3卷积提取特征。上采样或展开部分使用上卷积(或反卷积),减少特征映射的数量,同时增加它们的维度。将网络下采样部分的特征映射复制到上采样部分,以避免丢失模式信息。最后,一个1×1卷积处理特征映射,以生成一个分割映射,对输入图像的像素进行映射分类。U-Net对30张透射光镜图像进行了训练,并以巨大优势赢得了2015年的ISBI细胞跟踪挑战。
U-Net的各种扩展已经被开发为不同类型的图像。例如,Cicek[51]提出了一种用于三维图像的U-Net架构。周等人[52]开发了一个嵌套的U-Net体系结构。U-Net也被应用于其他各种问题。例如,Zhang等人[53]开发了一种基于U-Net的道路分割/提取算法。
V-Net是另一个著名的、基于FCN的模型,由Milletari等人提出[50]用于三维医学图像分割。在模型训练中,他们引入了一种基于骰子系数的新目标函数,使模型能够处理前景和背景中体素数量存在强烈不平衡的情况。对网络进行MRI前列腺体积的端到端训练,并学会同时预测整个体积的分割。其他一些关于医学图像分割的相关工作包括渐进密集V-net(PDV-Net)等。用于从胸部CT图像中快速、自动分割肺叶,而3D-CNN编码器用于病变分割[54]。
Multi-Scale and Pyramid Network Based Models
多尺度分析是图像处理中一个相当古老的想法,已经被部署在各种神经网络架构中。这类最突出的模型之一是Lin等人提出的特征金字塔网络(FPN)[55],主要用于目标检测开发,但也应用于分割。利用深度cnn固有的多尺度锥体层次来构建金字塔特征图。为了合并低分辨率和高分辨率的特征,FPN由一个自下而上的路径、一个自上而下的路径和横向连接组成。然后通过3×3卷积处理,以产生每个阶段的输出。最后,自上而下路径的每个阶段都生成一个预测来检测一个对象。对于图像分割,作者使用两个多层感知器(MLPs)来生成掩膜。
赵等人[56]开发了金字塔场景解析网络(PSPN),这是一个多尺度网络,以更好地学习场景的全局上下文表示(图15)。使用残余网络(ResNet)作为特征提取器,从输入图像中提取不同的模式。然后,这些特征映射被输入到一个金字塔池化模块中,以区分不同尺度的模式。它们以四个不同的尺度汇集,每个尺度对应一个金字塔层,并由一个1×1的卷积层处理,以减少它们的尺寸。金字塔层的输出被上采样,并与初始特征映射连接起来,以捕获本地和全局上下文信息。最后,利用卷积层生成像素级预测。
Ghiasi和Fowlkes[57]开发了一种基于拉普拉斯金字塔的多分辨率重建体系结构,该架构使用从高分辨率特征地图的跳过连接和乘法门控来连续细化从低分辨率地图重建的段边界。结果表明,虽然卷积特征图的表观空间分辨率较低,但高维特征表示包含了显著的亚像素定位信息。
还有其他使用多尺度分析进行分割的模型,如DM-Net(动态多尺度滤波器网络)[58]、上下文对比网络和门控多尺度聚合(CCN)[59]、自适应金字塔上下文网络(APC-Net)[60]、多尺度上下文交织(MSCI)[61]以及显著对象分割[62]。
R-CNN Based Models (for Instance Segmentation)
区域卷积网络(R-CNN)及其扩展(Fast R-CNN、Faster R-CNN、Maksed-RCNN)在目标检测应用中已被证明是成功的。特别是,为对象检测开发的更快的R-CNN[63]体系结构使用一个区域建议网络(RPN)来提出边界框候选方案。RPN提取感兴趣区域(RoI),RoIPool层从这些建议中计算特征,以推断边界框坐标和对象的类。R-CNN的一些扩展已被广泛用于解决实例分割问题;即,同时执行对象检测和语义分割的任务。
在这个模型的一个扩展中,He等人[64]提出了一种用于对象实例分割的Mask R-CNN,它在许多COCO挑战上击败了之前的基准测试。该模型可以有效地检测图像中的对象,同时为每个实例生成高质量的分割掩码。掩码R-CNN本质上是一个具有3个输出分支的更快的RCNN——第一个计算边界框坐标,第二个计算相关的类,第三个计算二进制掩码来分割对象。MaskR-CNN损失函数结合了边界框坐标、预测类和分割掩模的损失,并联合训练。
Liu等人提出基于MaskR-CNN和FPN的路径聚合网络(PANet)[65]。网络的特征提取器使用FPN架构,具有新的增强自下而上路径,改善了底层特征的传播。这第三个路径的每个阶段都以前一个阶段的特征图作为输入,并使用一个3×3的卷积层来处理它们。使用横向连接将输出添加到自上而下路径的同一阶段特征图中,这些特征图将提供下一个阶段。与MaskRCNN一样,自适应特征池层的输出提供三个分支。前两个层使用一个完全连接的层来生成边界框坐标和相关的对象类的预测。第三个是使用FCN处理RoI来预测对象掩码。
Dai等人[66]开发了一个用于实例感知语义分割的多任务网络,该网络由三个网络组成,分别区分实例、估计掩码和分类对象。这些网络形成了一个级联结构,并被设计为共享它们的卷积特征。Hu等人[67]提出了一种新的部分监督训练范式,以及一种新的权重传递函数,可以在大量类别上训练实例分割模型,所有这些类别都有框注释,但只有一小部分有掩码注释。
Chen等人[68]开发了一个实例分割模型MaskLab,通过基于更快的语义和方向特征来细化对象检测。该模型产生盒子检测、语义分割和方向预测三个输出。在FasterRCNN对象检测器上,预测的盒子提供了对象实例的精确定位。在每个感兴趣的区域内,MaskLab通过结合语义和方向预测来进行前景/背景分割。
另一个有趣的模型是由Chen等人提出的张量掩模[69],它是基于密集的滑动窗口实例分割。他们将密集实例分割视为四维张量上的预测任务,并提出了一个通用框架,使四维张量上有新的算符。他们证明,张量视图导致超过基线的大增益,并产生与掩码R-CNN相当的结果。张量掩模在密集目标分割上取得了很有很好的效果。
基于R-CNN还开发了许多其他实例分割模型,比如那些为掩模推荐开发的模型,包括R-FCN[70]、DeepMask[71]、偏振掩模[72]、边界感知实例分割[73]和中心掩模[74]。值得注意的是,还有另一个有前途的研究方向试图通过学习自下而上分割的分组线索来解决实例分割问题,如深度流域转换[75]、实时实例分割[76]和通过深度度量学习[77]进行语义实例分割。
Dilated Convolutional Models and DeepLab Family
膨胀卷积(空洞卷积)引入了另一个参数到卷积层,膨胀速率。信号 x ( i ) x(i) x(i)的膨胀卷积定义为 y i = ∑ k = 1 K x [ i + r k ] w [ k ] yi=\sum^{K}_{k=1}x[i+rk]w[k] yi=∑k=1Kx[i+rk]w[k],其中r是定义核 w w w权值之间的间距。例如,一个扩张率为2的3×3核与5×5核具有相同大小的接受域,而只使用9个参数大小的接受域,从而在不增加计算成本的情况下增加接受域。膨胀卷积在实时分割领域已经很流行,最近的许多出版物报道了这种技术的使用。其中最重要的包括DeepLab系列[78]、dense upsampling convolution[79]、 hybrid dilatedconvolution(DUC-HDC)[80]、densely connected Atrous Spatial Pyramid Pooling(DenseASPP)[81]和efficient neural network(ENet)[82]。
DeepLabv1[37]和DeepLabv2[78]是由Chen等人开发的一些最流行的图像分割方法之一。后者有三个关键特征。首先是使用扩展卷积来解决网络中分辨率的下降问题(这是由最大池化和大步处理造成的)。其次是空间空间金字塔池(ASPP),它在多个采样速率用滤波器探测传入的卷积特征层,从而在多个尺度上捕获对象和图像上下文,从而在多个尺度上稳健地分割对象。第三,通过结合深度cnn和概率图形模型的方法,改进了对象边界的定位。最好的DeepLab(使用resnet-101作为骨干)在2012年PascalVOC挑战中达到79.7%,Pascal Context挑战中mIoU得分为45.7%,在Cityscapes挑战中mIoU得分为70.4%。下图说明了Deeplab模型,类似于[37],主要区别是使用扩张卷积和ASPP。
随后,Chen等人[12]提出了DeepLabv3,它结合了扩展卷积的级联和并行模块。并行卷积模块在ASPP中被分组。在ASPP中添加了一个1×1的卷积和批处理归一化。所有的输出都被连接并由另一个1×1卷积处理,以为每个像素创建带有分数的最终输出。2018年,Chen等人[83]发布了Deeplabv3+,它使用了编码器-解码器架构,包括深度可分离卷积,由深度卷积(输入的每个通道的空间卷积)和点卷积(以深度卷积作为输入的1×1卷积)组成。他们使用DeepLabv3框架作为编码器。最相关的模型有一个改进的Xception主干,具有更多的层,扩展了深度可分离卷积,而不是最大池和批归一化。
Recurrent Neural Network Based Models
虽然cnn很自然地适合计算机视觉问题,但它们并不是唯一的可能性。rnn在建模像素之间的短期/长期依赖关系方面很有用,以(潜在地)改进分割图的估计。使用rnn,像素可以连接在一起并按顺序处理,以建模全局上下文和改进语义分割。然而,其中一个挑战是图像的自然二维结构
Visin等人[84]提出了一种基于RNN的语义分割模型,称为ReSeg。该模型主要是9基于另一个工作,ReNet[85],它是为图像分类而开发的。每个ReNet层由四个rnn组成,它们在两个方向上水平和垂直地扫描图像,编码补丁/激活,并提供相关的全局信息。为了使用ReSeg模型进行图像分割(图24),ReNet层被堆叠在预先训练的VGG-16卷积层上,这些层提取一般的局部特征。然后在ReNet层之后是上采样层,以恢复最终预测中的原始图像分辨率。使用门控递归单元(gru)是因为它们在内存使用和计算能力之间提供了很好的平衡。
在另一项工作中,Byeon等人[86]开发了一种使用长期短期记忆(LSTM)网络对场景图像的像素级分割和分类。他们研究了自然场景图像的二维(2D)LSTM网络,考虑到了标签复杂的空间依赖性。在这项工作中,分类、分割和上下文集成都是由二维LSTM网络进行的,允许在单个模型中学习纹理和空间模型参数。
Attention-Based Models
Liang等人[87]提出了一种基于图长短期记忆(GraphLSTM)网络的语义分割模型,这是一种将LSTM从序列数据或多维数据推广到一般图结构数据的方法。它们不是将图像在现有的多维LSTM结构中(如行、网格和对角线lstm)均匀地将图像均匀划分为像素或斑点,而是将每个任意形状的超像素作为语义一致的节点,并为图像自适应地构造了一个无向图,其中超像素的空间关系自然被用作边。图25显示了传统的像素级RNN模型和graph-LSTM模型的可视化比较。为了将GraphLSTM模型适应于语义分割(图26),构建在超像素映射上的LSTM层被附加在卷积层上,以增强全局结构上下文增强视觉特征。卷积特征通过1个×1个卷积滤波器来生成所有标签的初始置信度图。后续图LSTM层的节点更新序列由基于初始置信图的置信驱动方案确定,然后图LSTM层可以依次更新所有超像素节点的隐藏状态。
Hu等人[89]开发了一种基于自然语言表达式的语义分割算法,使用CNN的组合对图像和LSTM进行编码它的自然语言描述。这不同于传统的预定义语义分割,例如,“两个人坐在右边的长凳上”只需要把两个人分割在正确的长凳上,没有人站或坐在另一个长凳上。为了为语言表达的像素分割,他们提出了一个端到端可训练的循环和卷积模型,该模型共同学习处理视觉和语言信息(图27)。在所考虑的模型中,使用循环LSTM网络将引用表达式编码为向量表示,并使用FCN从图像中提取空间特征图,并输出目标对象的空间响应图。图28显示了该模型的一个分割结果的示例(对于查询“蓝色外套的人”)所示。
基于RNN的模型的一个局限性是,由于这些模型的顺序性质,它们将比CNN对应的模型要慢,因为这种顺序计算不容易并行化。陈等人[90]提出了一种注意机制,在每个像素位置的多尺度特征加轻微权重。他们采用了一个强大的语义分割模型,并与多尺度图像和注意力模型共同进行训练(图29)。注意机制优于平均和最大池,它使模型能够评估特征在不同位置和尺度上的重要性。
与其他训练卷积类符来学习标记对象的代表性语义特征的工作相比,Huang等人[91]提出了一种利用反向注意机制的语义分割方法。他们的反向注意网络(RAN)架构(图30)也训练模型以捕获相反的概念(即与目标类没有关联的特性)。RAN是一个三分支网络,同时执行直接和反向注意力学习过程。
Li等人[92]开发了一个用于语义分割的金字塔注意网络。该模型利用了全局上下文信息在语义分割中的影响。他们将注意机制和空间金字塔相结合,提取精确的密集特征进行像素标记,而不是复杂的扩张卷积和人工设计的解码器网络。最近,Fu等人[93]提出了一种场景分割的双注意网络,它可以基于自我注意机制捕获丰富的上下文依赖性。具体来说,他们在一个扩展的FCN上附加了两种类型的注意模块,它们分别建模了空间维度和通道维度上的语义相互依赖关系。位置注意模块通过所有位置的特征的加权和选择性地聚集每个位置的特征。
其他各种工作探索语义分割的注意机制,如OCNet[94]提出了一个受自注意机制启发的对象上下文池,期望最大化注意(EMANet)[95]、交叉注意网络(CCNet)[96]、循环注意[97]的端到端实例分割,用于场景解析[98]的点态空间注意网络和判别特征网络(DFN)[99],它包括两个子网络:一个平滑网络(它包含一个信道注意块和全局平均池来选择更明显的特征)和一个边界网络(使边界的双边特征可区分)。
Generative Models and Adversarial Training
自引入以来,GANs已被广泛应用于计算机视觉领域的任务,并已被用于图像分割。
Luc等人[100]提出了一种语义分割训练方法。他们训练了一个卷积语义分割网络(图31),以及一个对抗性网络,它可以区分Ground-True分割地图和那些由分割网络生成的分割地图。他们表明,对抗性训练方法可以提高在 Stanford Background和Pascal-VOC2012数据集上的准确性.
Souly等人[101]提出了利用gan进行的半弱监督语义分割。它由一个生成器网络组成,为多类分类器提供额外的训练示例,在GAN框架中作为鉴别器,从K个可能的类中分配一个标签y,或将其标记为一个假样本(额外的类)。在另一项工作中,Hung等人[102]开发了一个使用对抗性网络的半监督语义分割框架。他们设计了一个FCN鉴别器来区分预测的概率图和Ground-True分割分布,考虑到空间分辨率。该模型所考虑的损失函数包含三项:分割Ground-True值上的交叉熵损失、鉴别器网络的对抗性损失和基于置信图的半监督损失;即鉴别器的输出。
Xue等人[103]提出了一种具有多尺度L1损失的医学图像分割对抗性网络。他们使用FCN作为分割器来生成分割标签地图,并提出了一种具有多尺度L1损失函数的新型对抗性critic 网络,以迫使critic 网络和分割器学习全局和局部特征,以捕捉像素之间的长期和短期空间关系。其他各种论文也报道了基于对抗性训练的分割模型,如使用GANs[104]的细胞图像分割,以及目标[105]的不可见部分的分割和生成。
CNN Models With Active Contour Models
FCNs与主动轮廓模型(ACMs)[7]之间的协同作用的探索最近引起了研究的兴趣。一种方法是制定受ACM原理启发的新的损失函数。例如,受[106]的全球能量公式的启发,Chen等人[107]提出了一个监督损失层,该层在FCN训练过程中包含了预测掩模的面积和大小信息,并解决了心脏MRI中的心室分割问题。
另一种方法最初试图仅仅将ACM作为FCN输出的后处理器,并且一些努力尝试通过预训练FCN来进行适度的共同学习。自然图像语义分割的一个例子是Le等人的工作[108],其中级别集的acm被实现为rnn。鲁普雷希特等人的深度活动轮廓[109]。对于医学图像分割,哈塔米扎德等人[110]提出了一个集成的深度活动损伤分割(DALS)模型,该模型训练FCN主干来预测一种新的、局部参数化的水平集能量函数的参数函数。在另一项相关的努力中,马科斯等人[111]提出了深度结构化活动轮廓(DSAC),它将acm和预先训练过的FCNs结合在一个结构化预测框架中,用于在空中图像中构建实例分割(尽管是手动初始化)。对于同样的应用程序,Cheng等人[112]提出了深度主动射线网络(DarNet),它与DSAC相似,但基于极坐标的显式ACM公式不同,以防止轮廓自交。Hatamizadeh等人最近引入了一种真正的端到端反向传播、可训练的、完全集成的FCN-ACM组合,被称为深度卷积活动轮廓(DCAC)[113]。
Other Models
除了上述模型之外,还有其他几种流行的DL分割架构,例如如下:上下文编码网络(EncNet),它使用基本特征提取器并将特征映射输入上下文编码模块[114]。RefineNet[115]是一个多路径细化网络,它显式地利用下采样过程中所有可用的信息,以使用长程残差连接实现高分辨率预测。种子网[116]引入了一种具有深度强化学习的自动种子生成技术,学习解决交互式分割问题。“对象-上下文表示”(OCR)[44],它在地面真相的监督下学习对象区域,并计算对象区域表示以及每个像素与每个对象区域之间的关系,并使用对象上下文表示来增强表示像素。additional models include BoxSup[117],Graph convolutional networks[118],Wide ResNet[119],Exfuse(enhancing low-level and high-level features fusion)[120],Feedforward-Net[121],saliency-aware models for geodesic video segmentation[122],dual image segmentation(DIS)[123],FoveaNet(Perspective-aware scene parsing)[124],Ladder DenseNet[125],Bilateral segmentation network(BiSeNet)[126],Semantic Prediction Guidance for Scene Parsing(SPGNet)[127],Gated shape CNNs[128],Adaptive context network(AC-Net)[129],Dynamicstructured semantic propagation network(DSSPN)[130],symbolic graph reasoning(SGR)[131],CascadeNet[132],Scale-adaptive convolutions(SAC)[133],Unified perceptual parsing(UperNet)[134],segmentation by re-training and selftraining[135],densely connected neural architecture search[136],hierarchical multi-scale attention[137]。
全光分割[138]也是另一个有趣的分割问题,已经有一些有趣的工作,包括全光特征金字塔网络[139],全光分割[140],无缝场景分割[141],全光分割[142],统一的全光分割网络[143],高效的全光分割[144]。
图像分割数据集
在本节中,我们将总结一些最广泛使用的图像分割数据集。我们将这些数据集分为3类——2D图像、2.5DRGB-D(彩色+深度)图像和3D图像——并提供关于每个数据集特征的详细信息。列出的数据集具有像素级标签,可用于评估模型性能。
值得一提的是,其中一些工作,使用数据增强来增加标记样本的数量,特别是那些处理小数据集的样本(如在医疗领域)。图像增强通过对图像(即输入图像和分割地图)应用一组转换(在数据空间或特征空间中,有时两者都应用)来增加训练样本的数量。一些典型的图像增强的方式包括平移、反射、旋转、扭曲、缩放、颜色空间移动、裁剪和对主成分的投影。图像增强已被证明可以提高模型的性能,特别是在从有限的数据集学习时,如医学图像分析。它还可以有利于产生更快的收敛,减少过拟合的机会,并增强泛化。对于一些小的数据集,数据增强已被证明可以提高模型性能超过20%。
2D数据集
PASCAL Visual Object Classes (VOC)[145]是计算机视觉中最受欢迎的数据集之一,其注释图像可用于5个任务——分类、分割、检测、动作识别和人员布局。文献中报道的几乎所有流行的分割算法都在这个数据集上进行了评估。在分割任务中,有21类对象标签——车辆、家庭、动物、飞机、飞机、自行车、船、公共汽车、汽车、摩托车、火车、瓶子、椅子、餐桌、盆栽、植物、沙发、电视/显示器、鸟、猫、牛、狗、马、羊和人(如果它们不属于这些类别,像素被标记为背景)。该数据集分为训练和验证两组,分别有1464张和1449张图像。有一个针对实际挑战的私人测试集。图33显示了一个示例图像及其像素级标签。
PASCAL Context[147]是PASCAL VOC 2010检测挑战的扩展,它包含了所有训练图像的像素级标签。它包含超过400个类(包括最初的20个类加上来自pascalVOC分割的背景),分为三个类别(对象、东西和混合种)。这个数据集的许多对象类别太稀疏;因此,通常选择59个频繁类的子集进行使用。
Microsoft Common Objects in Context MS COCO是另一个大规模的对象检测、分割和t图像描述数据集。COCO包括复杂的日常场景的图像,它们在自然上下文中包含共同的物体。这个数据集包含91种对象类型的照片,在32.8万张图像中总共有250万个标记实例。下图显示了给定样本图像的MS-COCO标签与之前的数据集之间的差异。检测挑战包括80多个类,提供超过82k图像用于训练,40.5k图像用于验证,超过80k图像用于其测试集。
Cityscapes是一个专注于城市街道场景语义理解的大型数据库。它包含了一组在50个城市的街景中记录的不同的立体视频序列,具有高质量的5k帧像素级注释,以及一组20k弱注释帧。它包括30个类的语义和密集的像素注释,分为8类——平面、人、车辆、建筑、物体、自然、天空和空洞。
ADE20K /MIT Scene Parsing SceneParse150为场景解析算法提供了一个标准的训练和评估平台。这个基准测试的数据来自ADE20K数据集[132],它包含超过20K的场景中心图像,详尽地注释了对象和对象部分。基准测试被分成20K张图像进行训练,2K张图像用于验证,另一批图像用于测试。在这个数据集中有150个语义类别。
SiftFlow包括来自LabelMe数据库的一个子集的2,688个注释图像。这256张×256像素的图像是基于8种不同的户外场景,其中包括街道、山脉、田野、海滩和建筑。所有的图像都属于33个语义类之一。
Stanford background包含来自现有数据集的户外场景图像,如LabelMe、MSRC和pascalVOC。它包含715个带有至少有一个前景对象的图像。该数据集是按像素级注释的,可用于语义场景理解。该数据集的语义和几何标签是使用亚马逊的土耳其机械技术(AMT)获得的。
Berkeley Segmentation Dataset BSD包含来自30个人类受试者的1,000个Corel数据集图像的12,000个手工标记的分割。旨在为图像分割和边界检测的研究提供经验依据。一半的分割来自呈现受试者的彩色图像,另一半来自呈现灰度图像。
Youtube-Objects包含从YouTube收集的视频,其中包括来自10个pascal VOC类别(飞机、鸟、船、汽车、猫、牛、狗、马、摩托车和火车)的物体。原始数据集不包含像素级注释(因为它最初是为对象检测而开发的,注释较弱)。然而,耆那教等人。[154]手动注释了126个序列的子集,然后提取一个帧的子集来进一步生成语义标签。在这个数据集中,总共有大约10,167个带注释的480x360像素的帧。
KITTI它是最流行的移动机器人和自动驾驶数据集之一。它包含数小时的交通场景视频,用各种传感器模式(包括高分辨率RGB、灰度立体声相机和3D激光扫描仪)录制。原始数据集不包含用于语义分割的基本真实信息,但研究人员已经手动注释了部分数据集,用于研究目的。例如,阿尔瓦雷斯等人。[156]为道路探测挑战的323张图像生成了Ground-True,包括道路、垂直和天空。
其他数据集也可用于图像分割的目的,如Semantic Boundaries Dataset (SBD)[157],PASCAL Part [158], SYNTHIA [159], 和Adobe’sPortrait Segmentation [160]。
2.5D数据集
NYU-DV2[161]由来自各种室内场景的视频序列组成,由微软Ginect的RGB和深度摄像机记录。它包括1449对密集标记的对齐RGB对和来自3个城市的450多个场景的深度图像。每个对象都标记有一个类和一个实例号(例如,杯1、杯2、杯3等)。它还包含407,024个未标记的帧。与其他现有数据集相比,该数据集相对较小。
SUN-3D[162]是一个大规模的RGB-D视频数据集,包含41个不同建筑中的254个不同空间捕获的415个序列;8个序列被注释,未来将有更多的注释。每个带注释的帧都带有场景中对象的语义分割,以及关于相机姿势的信息。
SUNRGB-D[163]提供了一个RGB-D基准测试,以推进所有主要场景理解任务中最先进的水平。它由四个不同的传感器捕获,并包含10,000张RGB-D图像,其规模类似于Pascal VOC。整个数据集被密集注释,包括146617个2D多边形和58657个精确对象方向的三维边界框,以及场景的3D房间类别和布局。
UWRGB-D对象数据集[164]包含300个使用Kinect风格的3D相机记录的常见家庭对象。这些对象被分为51类,使用WordNet超下关系关系(类似于ImageNet)排列。该数据集是使用Kinect风格的3D相机记录的,该相机记录了同步和对齐的640×480像素RGB和30Hz的深度图像。该数据集还包括8个带注释的自然场景视频序列,其中包含来自数据集(UWRGB-D场景数据集)的对象。
ScanNet[165]是一个RGB-D视频数据集,包含超过1500次扫描中的250万次视图,注释了3D相机姿态、表面重建和实例提升语义分割。为了收集这些数据,我们设计了一个易于使用和可扩展的RGB-D捕获系统,其中包括自动表面重建,语义注释是众包的。使用这些数据有助于在一些三维场景理解任务上实现最先进的性能,包括3D对象分类、语义体素标记和CAD模型检索。
3D数据集
Stanford 2D-3D:该数据集提供了来自2D、2.5D和3D域的各种相互注册的模式,具有实例级语义和几何注释[166],并在6个室内区域收集。它包含超过70,000张RGB图像,以及相应的深度、表面法线、语义注释、全局XYZ图像以及相机信息。
ShapeNet Core是完整的ShapeNet数据集[167]的一个子集,带有单个干净的3D模型和手动验证的类别和对齐注释[168]。它涵盖了55个常见的对象类别,大约51,300个独特的3D模型。
Sydney Urban Objects Dataset:该数据集包含各种常见的城市道路对象,收集在澳大利亚悉尼的中央商务区。有631个单独扫描对象的车辆,行人,标志和树木[169]。
图像分割性能评估
模型评价指标
理想情况下,模型应该在多个方面进行评估,如定量精度、速度(推理时间)和存储需求(内存占用)。然而,到目前为止,大多数研究工作都集中在评估模型准确性的指标上。下面我们总结了评估分割算法的准确性的最受欢迎的指标。虽然定量指标用于比较基准上的不同模型,但模型输出的视觉质量在决定哪个模型最好时也很重要(因为人类是许多为计算机视觉应用程序开发的模型的最终消费者)
Pixel accuracy简单地定义为正确分类的像素的比值,除以像素的总数。对于K个+1类(K个前景类和背景),像素精度公式如下:
其中
p
i
j
p_{ij}
pij是
i
i
i类预测为属于
j
j
j类的像素数。
平均像素精度 Mean Pixel Accuracy,MPA是像素精确度的扩展版本,其中正确像素的比率以每个类的方式计算,然后占类总数的平均值:
联合交叉点(IoU)或Jaccard索引是语义分割中最常用的指标之一。定义为预测分割图与地面真相的相交面积,除以预测分割图与Ground-True的结合面积:
其中,
A
A
A和
B
B
B分别表示Ground-True和预测的分割图。其范围在0到1之间。
Mean-IoU是另一个流行的度量,它被定义为所有类的平均交并比。它被广泛应用于评价图像分割算法的性能。
Precision / Recall / F1 score
Dice coefficient是另一种流行的图像分割度量(更常用于医学图像分析),它可以定义为预测和Ground-True重叠面积的两倍,除以两幅图像中的像素总数。Dice coefficient与IoU非常相似:
深度学习模型量化指标
本节将列出前面讨论的几个算法在流行的分割基准测试上的性能。值得一提的是,尽管大多数模型在标准数据集上报告它们的性能并使用标准指标,但其中一些模型没有做到这一点,这使得全面比较变得困难。此外,只有一小部分论文以一种可复现的方式提供了额外的信息,如执行时间和内存占用,这对分割模型(如无人机、自动驾驶汽车、机器人等)的工业应用非常重要。这可能快速、轻量模型运行在计算能力和存储有限的嵌入式设备上至关重要。
下表总结了几种突出的基于深度学习的分割模型在不同数据集上的性能。表1主要关注Pascal尔VOC测试集。显然,自从引入第一个基于dl的图像分割模型FCN以来,这些模型的准确性有了很大的提高。表2集中于城市景观测试数据集。最新模型的相对FCN模型的增益约为23%。表3重点介绍了MSCOCO材料测试集。这个数据集比Pascal尔VOC更具挑战性,而且城市逃逸,因为最高的mIoU约为40%。表4集中于ADE20k验证集。这个数据集也比PascalVOC和城市逃逸数据集更具挑战性。
挑战和机遇
毫无疑问,图像分割从深度学习中获益良多,但未来面临着几个挑战。接下来,我们将介绍一些有前途的研究方向,我们相信这将有助于进一步推进图像分割算法。
更多挑战性数据集
几个大型的图像数据集可用于语义分割和实例分割。然而,仍然需要更具挑战性的数据集,以及针对不同类型图像的数据集。对于静态图像,具有大量对象和重叠对象的数据集将非常有价值。这可以使训练模型能够更好地处理密集的对象场景,以及在现实世界中的场景中常见的对象之间的大型重叠。
随着三维图像分割的日益普及,特别是在医学图像分析中,也迫切需要大规模的三维图像数据集。这些数据集比它们的低维的对应数据集更难创建。现有的用于三维图像分割的数据集通常不够大,有些是合成的,因此更大、更具挑战性的三维图像数据集可能非常有价值。
可解释模型
虽然基于深度学习的模型在具有挑战性的基准测试上取得了良好的性能,但关于这些模型仍然存在悬而未决的问题。例如,深度模型的学习到底是什么?我们应该如何解释这些模型所学到的特征?什么是能够在给定的数据集上实现一定的分割精度的最小神经结构?虽然有一些技术可用来可视化这些模型的学习卷积内核,但缺乏对这些模型的潜在行为/动力学的具体研究。更好地理解这些模型的理论方面,可以开发针对各种分割场景的更好的模型。
弱监督和无监督学习
弱监督的[182]和无监督学习[183]正成为非常活跃的研究领域。这些技术对于图像分割具有特别的价值,因为收集标记样本在许多应用领域是有问题的,特别是在医学图像分析中。迁移学习方法是在大量标记样本(可能来自公共基准)上训练一个通用的图像分割模型,然后在来自某些特定目标应用程序的少数样本上对该模型进行微调。自监督学习是另一个在各个领域吸引很有吸引力的方向。在自监督学习的帮助下,图像中有许多细节可以用更少的训练样本来训练分割模型。基于强化学习的模型也可能是另一个潜在的未来方向,因为它们在图像分割中很少得到人们的关注。例如,morel[184]引入了一种深度强化学习方法来在视频中移动对象分割。
实时检测模型
在许多应用中,准确性是最重要的因素;然而,在一些应用中,分割模型能够接近实时运行,或者至少接近常见的相机帧率(至少25帧每秒也至关重要)。这对于计算机视觉系统很有用,例如,部署在自动驾驶汽车上。目前的大多数模型都远非这个帧率;例如,FCN-8处理大约需要100ms的低分辨率图像。基于扩展卷积的模型在一定程度上有助于提高分割模型的速度,但仍有很大的改进空间。
高效内存模型
许多现代分割模型甚至在推理阶段也需要大量的内存。到目前为止,人们已经在努力提高这些模型的准确性,但为了使它们适应特定的设备,如手机,网络必须简化。这可以通过使用更简单的模型来实现,也可以通过使用模型压缩技术,甚至训练一个复杂的模型,然后使用知识蒸馏技术将其压缩成一个更小、内存效率高的网络来模拟复杂的模型。
三维点云分割
许多工作已经集中在二维图像分割,但很少有工作已经解决三维点云分割。然而,人们对点云分割在三维建模、自动驾驶汽车、机器人技术、建筑建模等领域有着越来越广泛的应用,这使人们越来越感兴趣。处理三维无序和非结构化数据,如点云提出了几个挑战。例如,在点云上应用其他经典cnn和其他深度学习架构的最佳方法尚不清楚。基于图的深度模型可以成为点云分割的一个潜在探索领域,使这些数据的额外工业应用成为可能。
应用场景
在本节中,我们将简要研究最近基于深度学习的分割方法的一些应用场景,以及未来的一些挑战。最值得注意的是,这些方法已成功地应用于遥感[185]领域的卫星图像分割,包括城市规划[186]或精确农业[187]技术。机载平台[188]和无人机[189]收集的遥感图像也使用基于深度学习的技术进行了图像分割,为解决重要的环境问题,如涉及气候变化提供了机会。分割这类图像的主要挑战与数据的非常大的维数(通常由具有数百甚至数千个光谱波段的成像光谱仪收集)和有限的Ground-True信息来评估分割算法获得的结果的准确性有关。基于Dl分割的另一个非常重要的应用领域是医学成像[190]。在这里,一个机会是设计标准化的图像数据库,可用于评估快速传播的新疾病和大流行病。
总结
我们调查了100多种基于深度学习模型的图像分割算法,这些算法在各种图像分割任务和基准中取得了令人印象深刻的性能,分为十类:CNN和FCN、RNN、R-CNN、扩展CNN、基于注意力的模型、生成和对抗模型等。我们总结了在一些流行的基准测试上对这些模型的定量性能分析,如pascalVOC、MSCOCO、城市景观和ADE20k数据集。最后,我们讨论了未来几年图像分割可能面临的一些开放挑战和潜在的研究方向。
参考文献
[1] R. Szeliski, Computer vision: algorithms and applications. Springer Science & Business Media, 2010.
[2] D. Forsyth and J. Ponce, Computer vision: a modern approach. Prentice Hall Professional Technical Reference, 2002.
[3] N. Otsu, “A threshold selection method from gray-level histograms,” IEEE transactions on systems, man, and cybernetics, vol. 9, no. 1, pp. 62–66, 1979.
[4] R. Nock and F. Nielsen, “Statistical region merging,” IEEE Transactions on pattern analysis and machine intelligence, vol. 26, no. 11, pp. 1452–1458, 2004.
[5] N. Dhanachandra, K. Manglem, and Y. J. Chanu, “Image segmentation using k-means clustering algorithm and subtractive clustering algorithm,” Procedia Computer Science, vol. 54, pp. 764–771, 2015.
[6] L. Najman and M. Schmitt, “Watershed of a continuous function,” Signal Processing, vol. 38, no. 1, pp. 99–112, 1994.
[7] M. Kass, A. Witkin, and D. Terzopoulos, “Snakes: Active contour models,” International journal of computer vision, vol. 1, no. 4, pp. 321–331, 1988.
[8] Y. Boykov, O. Veksler, and R. Zabih, “Fast approximate energy minimization via graph cuts,” IEEE Transactions on pattern analysis and machine intelligence, vol. 23, no. 11, pp. 1222–1239, 2001.
[9] N. Plath, M. Toussaint, and S. Nakajima, “Multi-class image segmentation using conditional random fields and global classifi- cation,” in Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009, pp. 817–824.
[10] J.-L. Starck, M. Elad, and D. L. Donoho, “Image decomposition via the combination of sparse representations and a variational approach,” IEEE transactions on image processing, vol. 14, no. 10, pp. 1570–1582, 2005.
[11] S. Minaee and Y. Wang, “An admm approach to masked signal decomposition using subspace representation,” IEEE Transactions on Image Processing, vol. 28, no. 7, pp. 3192–3204, 2019.
[12] L.-C. Chen, G. Papandreou, F. Schroff, and H. Adam, “Rethinking atrous convolution for semantic image segmentation,” arXiv preprint arXiv:1706.05587, 2017.
[13] Y. LeCun, L. Bottou, Y. Bengio, P. Haffner et al., “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, vol. 86, no. 11, pp. 2278–2324, 1998.
[14] S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.
[15] V. Badrinarayanan, A. Kendall, and R. Cipolla, “Segnet: A deep convolutional encoder-decoder architecture for image segmentation,” IEEE transactions on pattern analysis and machine intelligence, vol. 39, no. 12, pp. 2481–2495, 2017.
[16] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in Advances in neural information processing systems, 2014, pp. 2672–2680.
[17] K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position,” Biological cybernetics, vol. 36, no. 4, pp. 193–202, 1980.
[18] A. Waibel, T. Hanazawa, G. Hinton, K. Shikano, and K. J. Lang, “Phoneme recognition using time-delay neural networks,” IEEE transactions on acoustics, speech, and signal processing, vol. 37, no. 3, pp. 328–339, 1989.
[19] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classifi- cation with deep convolutional neural networks,” in Advances in neural information processing systems, 2012, pp. 1097–1105.
[20] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” arXiv preprint arXiv:1409.1556, 2014.
[21] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778.
[22] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 1–9.
[23] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, “Mobilenets: Efficient convolutional neural networks for mobile vision applications,” arXiv preprint arXiv:1704.04861, 2017. 18
[24] G. Huang, Z. Liu, L. Van Der Maaten, and K. Q. Weinberger, “Densely connected convolutional networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 4700–4708.
[25] D. E. Rumelhart, G. E. Hinton, R. J. Williams et al., “Learning representations by back-propagating errors,” Cognitive modeling, vol. 5, no. 3, p. 1, 1988.
[26] I. Goodfellow, Y. Bengio, and A. Courville, Deep learning. MIT press, 2016.
[27] A. Radford, L. Metz, and S. Chintala, “Unsupervised representation learning with deep convolutional generative adversarial networks,” arXiv preprint arXiv:1511.06434, 2015.
[28] M. Mirza and S. Osindero, “Conditional generative adversarial nets,” arXiv preprint arXiv:1411.1784, 2014.
[29] M. Arjovsky, S. Chintala, and L. Bottou, “Wasserstein gan,” arXiv preprint arXiv:1701.07875, 2017.
[30] https://github.com/hindupuravinash/the-gan-zoo.
[31] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 3431– 3440.
[32] W. Liu, A. Rabinovich, and A. C. Berg, “Parsenet: Looking wider to see better,” arXiv preprint arXiv:1506.04579, 2015.
[33] G. Wang, W. Li, S. Ourselin, and T. Vercauteren, “Automatic brain tumor segmentation using cascaded anisotropic convolutional neural networks,” in International MICCAI Brainlesion Workshop. Springer, 2017, pp. 178–190.
[34] Y. Li, H. Qi, J. Dai, X. Ji, and Y. Wei, “Fully convolutional instanceaware semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 2359–2367.
[35] Y. Yuan, M. Chao, and Y.-C. Lo, “Automatic skin lesion segmentation using deep fully convolutional networks with jaccard distance,” IEEE transactions on medical imaging, vol. 36, no. 9, pp. 1876–1886, 2017.
[36] N. Liu, H. Li, M. Zhang, J. Liu, Z. Sun, and T. Tan, “Accurate iris segmentation in non-cooperative environments using fully convolutional networks,” in 2016 International Conference on Biometrics (ICB). IEEE, 2016, pp. 1–8.
[37] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Semantic image segmentation with deep convolutional nets and fully connected crfs,” arXiv preprint arXiv:1412.7062, 2014.
[38] A. G. Schwing and R. Urtasun, “Fully connected deep structured networks,” arXiv preprint arXiv:1503.02351, 2015.
[39] S. Zheng, S. Jayasumana, B. Romera-Paredes, V. Vineet, Z. Su, D. Du, C. Huang, and P. H. Torr, “Conditional random fields as recurrent neural networks,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1529–1537.
[40] G. Lin, C. Shen, A. Van Den Hengel, and I. Reid, “Efficient piecewise training of deep structured models for semantic segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 3194–3203.
[41] Z. Liu, X. Li, P. Luo, C.-C. Loy, and X. Tang, “Semantic image segmentation via deep parsing network,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1377–1385.
[42] H. Noh, S. Hong, and B. Han, “Learning deconvolution network for semantic segmentation,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1520–1528.
[43] A. Kendall, V. Badrinarayanan, and R. Cipolla, “Bayesian segnet: Model uncertainty in deep convolutional encoder-decoder architectures for scene understanding,” arXiv preprint arXiv:1511.02680, 2015.
[44] Y. Yuan, X. Chen, and J. Wang, “Object-contextual representations for semantic segmentation,” arXiv preprint arXiv:1909.11065, 2019.
[45] J. Fu, J. Liu, Y. Wang, J. Zhou, C. Wang, and H. Lu, “Stacked deconvolutional network for semantic segmentation,” IEEE Transactions on Image Processing, 2019.
[46] A. Chaurasia and E. Culurciello, “Linknet: Exploiting encoder representations for efficient semantic segmentation,” in 2017 IEEE Visual Communications and Image Processing (VCIP). IEEE, 2017, pp. 1–4.
[47] X. Xia and B. Kulis, “W-net: A deep model for fully unsupervised image segmentation,” arXiv preprint arXiv:1711.08506, 2017.
[48] Y. Cheng, R. Cai, Z. Li, X. Zhao, and K. Huang, “Locality-sensitive deconvolution networks with gated fusion for rgb-d indoor semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 3029–3037.
[49] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” in International Conference on Medical image computing and computer-assisted intervention. Springer, 2015, pp. 234–241.
[50] F. Milletari, N. Navab, and S.-A. Ahmadi, “V-net: Fully convolutional neural networks for volumetric medical image segmentation,” in 2016 Fourth International Conference on 3D Vision (3DV). IEEE, 2016, pp. 565–571.
[51] ¨O. C¸ ic¸ek, A. Abdulkadir, S. S. Lienkamp, T. Brox, and O. Ronneberger, “3d u-net: learning dense volumetric segmentation from sparse annotation,” in International conference on medical image computing and computer-assisted intervention. Springer, 2016, pp. 424–432.
[52] Z. Zhou, M. M. R. Siddiquee, N. Tajbakhsh, and J. Liang, “Unet++: A nested u-net architecture for medical image segmentation,” in Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Springer, 2018, pp. 3–11.
[53] Z. Zhang, Q. Liu, and Y. Wang, “Road extraction by deep residual u-net,” IEEE Geoscience and Remote Sensing Letters, vol. 15, no. 5, pp. 749–753, 2018.
[54] T. Brosch, L. Y. Tang, Y. Yoo, D. K. Li, A. Traboulsee, and R. Tam, “Deep 3d convolutional encoder networks with shortcuts for multiscale feature integration applied to multiple sclerosis lesion segmentation,” IEEE transactions on medical imaging, vol. 35, no. 5, pp. 1229–1239, 2016.
[55] T.-Y. Lin, P. Doll´ar, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature pyramid networks for object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 2117–2125.
[56] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia, “Pyramid scene parsing network,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 2881–2890.
[57] G. Ghiasi and C. C. Fowlkes, “Laplacian pyramid reconstruction and refinement for semantic segmentation,” in European Conference on Computer Vision. Springer, 2016, pp. 519–534.
[58] J. He, Z. Deng, and Y. Qiao, “Dynamic multi-scale filters for semantic segmentation,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 3562–3572.
[59] H. Ding, X. Jiang, B. Shuai, A. Qun Liu, and G. Wang, “Context contrasted feature and gated multi-scale aggregation for scene segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 2393–2402.
[60] J. He, Z. Deng, L. Zhou, Y. Wang, and Y. Qiao, “Adaptive pyramid context network for semantic segmentation,” in Conference on Computer Vision and Pattern Recognition, 2019, pp. 7519–7528.
[61] D. Lin, Y. Ji, D. Lischinski, D. Cohen-Or, and H. Huang, “Multiscale context intertwining for semantic segmentation,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 603–619.
[62] G. Li, Y. Xie, L. Lin, and Y. Yu, “Instance-level salient object segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 2386–2395.
[63] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards realtime object detection with region proposal networks,” in Advances in neural information processing systems, 2015, pp. 91–99.
[64] K. He, G. Gkioxari, P. Doll´ar, and R. Girshick, “Mask r-cnn,” in Proceedings of the IEEE international conference on computer vision, 2017, pp. 2961–2969.
[65] S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, “Path aggregation network for instance segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 8759–8768.
[66] J. Dai, K. He, and J. Sun, “Instance-aware semantic segmentation via multi-task network cascades,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 3150–3158.
[67] R. Hu, P. Doll´ar, K. He, T. Darrell, and R. Girshick, “Learning to segment every thing,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 4233–4241.
[68] L.-C. Chen, A. Hermans, G. Papandreou, F. Schroff, P. Wang, and H. Adam, “Masklab: Instance segmentation by refining object detection with semantic and direction features,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 4013–4022.
[69] X. Chen, R. Girshick, K. He, and P. Doll´ar, “Tensormask: A foundation for dense object segmentation,” arXiv preprint arXiv:1903.12174, 2019. 19
[70] J. Dai, Y. Li, K. He, and J. Sun, “R-fcn: Object detection via region-based fully convolutional networks,” in Advances in neural information processing systems, 2016, pp. 379–387.
[71] P. O. Pinheiro, R. Collobert, and P. Doll´ar, “Learning to segment object candidates,” in Advances in Neural Information Processing Systems, 2015, pp. 1990–1998.
[72] E. Xie, P. Sun, X. Song, W. Wang, X. Liu, D. Liang, C. Shen, and P. Luo, “Polarmask: Single shot instance segmentation with polar representation,” arXiv preprint arXiv:1909.13226, 2019.
[73] Z. Hayder, X. He, and M. Salzmann, “Boundary-aware instance segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 5696–5704.
[74] Y. Lee and J. Park, “Centermask: Real-time anchor-free instance segmentation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 13 906–13 915.
[75] M. Bai and R. Urtasun, “Deep watershed transform for instance segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 5221–5229.
[76] D. Bolya, C. Zhou, F. Xiao, and Y. J. Lee, “Yolact: Real-time instance segmentation,” in Proceedings of the IEEE international conference on computer vision, 2019, pp. 9157–9166.
[77] A. Fathi, Z. Wojna, V. Rathod, P. Wang, H. O. Song, S. Guadarrama, and K. P. Murphy, “Semantic instance segmentation via deep metric learning,” arXiv preprint arXiv:1703.10277, 2017.
[78] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs,” IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 4,
pp. 834–848, 2017.
[79] F. Yu and V. Koltun, “Multi-scale context aggregation by dilated convolutions,” arXiv preprint arXiv:1511.07122, 2015.
[80] P. Wang, P. Chen, Y. Yuan, D. Liu, Z. Huang, X. Hou, and G. Cottrell, “Understanding convolution for semantic segmentation,” in winter conference on applications of computer vision. IEEE, 2018, pp. 1451–1460.
[81] M. Yang, K. Yu, C. Zhang, Z. Li, and K. Yang, “Denseaspp for semantic segmentation in street scenes,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 3684–3692.
[82] A. Paszke, A. Chaurasia, S. Kim, and E. Culurciello, “Enet: A deep neural network architecture for real-time semantic segmentation,” arXiv preprint arXiv:1606.02147, 2016.
[83] L.-C. Chen, Y. Zhu, G. Papandreou, F. Schroff, and H. Adam, “Encoder-decoder with atrous separable convolution for semantic image segmentation,” in Proceedings of the European conference on computer vision (ECCV), 2018, pp. 801–818.
[84] F. Visin, M. Ciccone, A. Romero, K. Kastner, K. Cho, Y. Bengio, M. Matteucci, and A. Courville, “Reseg: A recurrent neural network based model for semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2016, pp. 41–48.
[85] F. Visin, K. Kastner, K. Cho, M. Matteucci, A. Courville, and Y. Bengio, “Renet: A recurrent neural network based alternative to convolutional networks,” arXiv preprint arXiv:1505.00393, 2015.
[86] W. Byeon, T. M. Breuel, F. Raue, and M. Liwicki, “Scene labeling with lstm recurrent neural networks,” in IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 3547–3555.
[87] X. Liang, X. Shen, J. Feng, L. Lin, and S. Yan, “Semantic object parsing with graph lstm,” in European Conference on Computer Vision. Springer, 2016, pp. 125–143.
[88] Y. Xiang and D. Fox, “Da-rnn: Semantic mapping with data associated recurrent neural networks,” arXiv:1703.03098, 2017.
[89] R. Hu, M. Rohrbach, and T. Darrell, “Segmentation from natural language expressions,” in European Conference on Computer Vision. Springer, 2016, pp. 108–124.
[90] L.-C. Chen, Y. Yang, J. Wang, W. Xu, and A. L. Yuille, “Attention to scale: Scale-aware semantic image segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 3640–3649.
[91] Q. Huang, C. Xia, C. Wu, S. Li, Y. Wang, Y. Song, and C.-C. J. Kuo, “Semantic segmentation with reverse attention,” arXiv preprint arXiv:1707.06426, 2017.
[92] H. Li, P. Xiong, J. An, and L. Wang, “Pyramid attention network for semantic segmentation,” arXiv preprint arXiv:1805.10180, 2018.
[93] J. Fu, J. Liu, H. Tian, Y. Li, Y. Bao, Z. Fang, and H. Lu, “Dual attention network for scene segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 3146–3154.
[94] Y. Yuan and J. Wang, “Ocnet: Object context network for scene parsing,” arXiv preprint arXiv:1809.00916, 2018.
[95] X. Li, Z. Zhong, J. Wu, Y. Yang, Z. Lin, and H. Liu, “Expectation maximization attention networks for semantic segmentation,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 9167–9176.
[96] Z. Huang, X. Wang, L. Huang, C. Huang, Y. Wei, and W. Liu, “Ccnet: Criss-cross attention for semantic segmentation,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 603–612.
[97] M. Ren and R. S. Zemel, “End-to-end instance segmentation with recurrent attention,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 6656–6664.
[98] H. Zhao, Y. Zhang, S. Liu, J. Shi, C. Change Loy, D. Lin, and J. Jia, “Psanet: Point-wise spatial attention network for scene parsing,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 267–283.
[99] C. Yu, J. Wang, C. Peng, C. Gao, G. Yu, and N. Sang, “Learning a discriminative feature network for semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 1857–1866.
[100] P. Luc, C. Couprie, S. Chintala, and J. Verbeek, “Semantic segmentation using adversarial networks,” arXiv preprint arXiv:1611.08408, 2016.
[101] N. Souly, C. Spampinato, and M. Shah, “Semi supervised semantic segmentation using generative adversarial network,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 5688–5696.
[102] W.-C. Hung, Y.-H. Tsai, Y.-T. Liou, Y.-Y. Lin, and M.-H. Yang, “Adversarial learning for semi-supervised semantic segmentation,” arXiv preprint arXiv:1802.07934, 2018.
[103] Y. Xue, T. Xu, H. Zhang, L. R. Long, and X. Huang, “Segan: Adversarial network with multi-scale l 1 loss for medical image segmentation,” Neuroinformatics, vol. 16, no. 3-4, pp. 383–392, 2018.
[104] M. Majurski, P. Manescu, S. Padi, N. Schaub, N. Hotaling, C. Simon Jr, and P. Bajcsy, “Cell image segmentation using generative adversarial networks, transfer learning, and augmentations,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2019, pp. 0–0.
[105] K. Ehsani, R. Mottaghi, and A. Farhadi, “Segan: Segmenting and generating the invisible,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 6144–6153.
[106] T. F. Chan and L. A. Vese, “Active contours without edges,” IEEE Transactions on Image Processing, vol. 10, no. 2, pp. 266–277, 2001.
[107] X. Chen, B. M. Williams, S. R. Vallabhaneni, G. Czanner, R. Williams, and Y. Zheng, “Learning active contour models for medical image segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 11 632–11 640.
[108] T. H. N. Le, K. G. Quach, K. Luu, C. N. Duong, and M. Savvides, “Reformulating level sets as deep recurrent neural network approach to semantic segmentation,” IEEE Transactions on Image Processing, vol. 27, no. 5, pp. 2393–2407, 2018.
[109] C. Rupprecht, E. Huaroc, M. Baust, and N. Navab, “Deep active contours,” arXiv preprint arXiv:1607.05074, 2016.
[110] A. Hatamizadeh, A. Hoogi, D. Sengupta, W. Lu, B. Wilcox, D. Rubin, and D. Terzopoulos, “Deep active lesion segmentation,” in Proc. International Workshop on Machine Learning in Medical Imaging, ser. Lecture Notes in Computer Science, vol. 11861.
Springer, 2019, pp. 98–105.
[111] D. Marcos, D. Tuia, B. Kellenberger, L. Zhang, M. Bai, R. Liao, and R. Urtasun, “Learning deep structured active contours end to end,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 8877–8885.
[112] D. Cheng, R. Liao, S. Fidler, and R. Urtasun, “Darnet: Deep active ray network for building segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 7431–7439.
[113] A. Hatamizadeh, D. Sengupta, and D. Terzopoulos, “End-to-end deep convolutional active contours for image segmentation,” arXiv preprint arXiv:1909.13359, 2019.
[114] H. Zhang, K. Dana, J. Shi, Z. Zhang, X. Wang, A. Tyagi, and A. Agrawal, “Context encoding for semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 7151–7160. 20
[115] G. Lin, A. Milan, C. Shen, and I. Reid, “Refinenet: Multi-path refinement networks for high-resolution semantic segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 1925–1934.
[116] G. Song, H. Myeong, and K. Mu Lee, “Seednet: Automatic seed generation with deep reinforcement learning for robust interactive segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 1760–1768.
[117] J. Dai, K. He, and J. Sun, “Boxsup: Exploiting bounding boxes to supervise convolutional networks for semantic segmentation,” in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1635–1643.
[118] C. Peng, X. Zhang, G. Yu, G. Luo, and J. Sun, “Large kernel matters–improve semantic segmentation by global convolutional network,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 4353–4361.
[119] Z. Wu, C. Shen, and A. Van Den Hengel, “Wider or deeper: Revisiting the resnet model for visual recognition,” Pattern Recognition, vol. 90, pp. 119–133, 2019.
[120] Z. Zhang, X. Zhang, C. Peng, X. Xue, and J. Sun, “Exfuse: Enhancing feature fusion for semantic segmentation,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 269–284.
[121] M. Mostajabi, P. Yadollahpour, and G. Shakhnarovich, “Feedforward semantic segmentation with zoom-out features,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 3376–3385.
[122] W. Wang, J. Shen, and F. Porikli, “Saliency-aware geodesic video object segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 3395–3402.
[123] P. Luo, G. Wang, L. Lin, and X. Wang, “Deep dual learning for semantic image segmentation,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 2718–2726.
[124] X. Li, Z. Jie, W. Wang, C. Liu, J. Yang, X. Shen, Z. Lin, Q. Chen, S. Yan, and J. Feng, “Foveanet: Perspective-aware urban scene parsing,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 784–792.
[125] I. Kreso, S. Segvic, and J. Krapac, “Ladder-style densenets for semantic segmentation of large natural images,” in IEEE International Conference on Computer Vision, 2017, pp. 238–245.
[126] C. Yu, J. Wang, C. Peng, C. Gao, G. Yu, and N. Sang, “Bisenet: Bilateral segmentation network for real-time semantic segmentation,” in European Conference on Computer Vision, 2018, pp. 325–341.
[127] B. Cheng, L.-C. Chen, Y. Wei, Y. Zhu, Z. Huang, J. Xiong, T. S. Huang, W.-M. Hwu, and H. Shi, “Spgnet: Semantic prediction guidance for scene parsing,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 5218–5228.
[128] T. Takikawa, D. Acuna, V. Jampani, and S. Fidler, “Gated-scnn: Gated shape cnns for semantic segmentation,” in IEEE International Conference on Computer Vision, 2019, pp. 5229–5238.
[129] J. Fu, J. Liu, Y. Wang, Y. Li, Y. Bao, J. Tang, and H. Lu, “Adaptive context network for scene parsing,” in Proceedings of the IEEE international conference on computer vision, 2019, pp. 6748–6757.
[130] X. Liang, H. Zhou, and E. Xing, “Dynamic-structured semantic propagation network,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 752–761.
[131] X. Liang, Z. Hu, H. Zhang, L. Lin, and E. P. Xing, “Symbolic graph reasoning meets convolutions,” in Advances in Neural Information Processing Systems, 2018, pp. 1853–1863.
[132] B. Zhou, H. Zhao, X. Puig, S. Fidler, A. Barriuso, and A. Torralba, “Scene parsing through ade20k dataset,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[133] R. Zhang, S. Tang, Y. Zhang, J. Li, and S. Yan, “Scale-adaptive convolutions for scene parsing,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 2031–2039.
[134] T. Xiao, Y. Liu, B. Zhou, Y. Jiang, and J. Sun, “Unified perceptual parsing for scene understanding,” in Proceedings of the European
Conference on Computer Vision (ECCV), 2018, pp. 418–434.
[135] B. Zoph, G. Ghiasi, T.-Y. Lin, Y. Cui, H. Liu, E. D. Cubuk, and Q. V. Le, “Rethinking pre-training and self-training,” arXiv preprint arXiv:2006.06882, 2020.
[136] X. Zhang, H. Xu, H. Mo, J. Tan, C. Yang, and W. Ren, “Dcnas: Densely connected neural architecture search for semantic image segmentation,” arXiv preprint arXiv:2003.11883, 2020.
[137] A. Tao, K. Sapra, and B. Catanzaro, “Hierarchical multi-scale attention for semantic segmentation,” arXiv preprint arXiv:2005.10821, 2020.
[138] A. Kirillov, K. He, R. Girshick, C. Rother, and P. Doll´ar, “Panoptic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 9404–9413.
[139] A. Kirillov, R. Girshick, K. He, and P. Dollar, “Panoptic feature pyramid networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 6399–6408.
[140] Y. Li, X. Chen, Z. Zhu, L. Xie, G. Huang, D. Du, and X. Wang, “Attention-guided unified network for panoptic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition, 2019.
[141] L. Porzi, S. R. Bulo, A. Colovic, and P. Kontschieder, “Seamless scene segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 8277–8286.
[142] B. Cheng, M. D. Collins, Y. Zhu, T. Liu, T. S. Huang, H. Adam, and L.-C. Chen, “Panoptic-deeplab,” arXiv preprint arXiv:1910.04751, 2019.
[143] Y. Xiong, R. Liao, H. Zhao, R. Hu, M. Bai, E. Yumer, and R. Urtasun, “Upsnet: A unified panoptic segmentation network,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 8818–8826.
[144] R. Mohan and A. Valada, “Efficientps: Efficient panoptic segmentation,” arXiv preprint arXiv:2004.02307, 2020.
[145] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman, “The pascal visual object classes (voc) challenge,” International journal of computer vision, vol. 88, pp. 303–338, 2010.
[146] http://host.robots.ox.ac.uk/pascal/VOC/voc2012/.
[147] R. Mottaghi, X. Chen, X. Liu, N.-G. Cho, S.-W. Lee, S. Fidler, R. Urtasun, and A. Yuille, “The role of context for object detection and semantic segmentation in the wild,” in IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 891–898.
[148] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll´ar, and C. L. Zitnick, “Microsoft coco: Common objects in context,” in European conference on computer vision. Springer, 2014.
[149] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele, “The cityscapes dataset for semantic urban scene understanding,” in IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 3213–3223.
[150] C. Liu, J. Yuen, and A. Torralba, “Nonparametric scene parsing: Label transfer via dense scene alignment,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2009.
[151] S. Gould, R. Fulton, and D. Koller, “Decomposing a scene into geometric and semantically consistent regions,” in 2009 IEEE 12th international conference on computer vision. IEEE, 2009, pp. 1–8.
[152] D. Martin, C. Fowlkes, D. Tal, and J. Malik, “A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics,” in Proc. 8th Int’l Conf. Computer Vision, vol. 2, July 2001, pp. 416–423.
[153] A. Prest, C. Leistner, J. Civera, C. Schmid, and V. Ferrari, “Learning object class detectors from weakly annotated video,” in 2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012, pp. 3282–3289.
[154] S. D. Jain and K. Grauman, “Supervoxel-consistent foreground propagation in video,” in European conference on computer vision. Springer, 2014, pp. 656–671.
[155] A. Geiger, P. Lenz, C. Stiller, and R. Urtasun, “Vision meets robotics: The kitti dataset,” The International Journal of Robotics Research, vol. 32, no. 11, pp. 1231–1237, 2013.
[156] J. M. Alvarez, T. Gevers, Y. LeCun, and A. M. Lopez, “Road scene segmentation from a single image,” in European Conference on Computer Vision. Springer, 2012, pp. 376–389.
[157] B. Hariharan, P. Arbel´aez, L. Bourdev, S. Maji, and J. Malik, “Semantic contours from inverse detectors,” in 2011 International Conference on Computer Vision. IEEE, 2011, pp. 991–998.
[158] X. Chen, R. Mottaghi, X. Liu, S. Fidler, R. Urtasun, and A. Yuille, “Detect what you can: Detecting and representing objects using holistic models and body parts,” in IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 1971–1978.
[159] G. Ros, L. Sellart, J. Materzynska, D. Vazquez, and A. M. Lopez, “The synthia dataset: A large collection of synthetic images for semantic segmentation of urban scenes,” in IEEE conference on computer vision and pattern recognition, 2016, pp. 3234–3243.
[160] X. Shen, A. Hertzmann, J. Jia, S. Paris, B. Price, E. Shechtman, and I. Sachs, “Automatic portrait segmentation for image stylization,” in Computer Graphics Forum, vol. 35, no. 2. Wiley Online Library, 2016, pp. 93–102.
[161] N. Silberman, D. Hoiem, P. Kohli, and R. Fergus, “Indoor segmentation and support inference from rgbd images,” in European Conference on Computer Vision. Springer, 2012, pp. 746–760. 21
[162] J. Xiao, A. Owens, and A. Torralba, “Sun3d: A database of big spaces reconstructed using sfm and object labels,” in IEEE International Conference on Computer Vision, 2013, pp. 1625–1632.
[163] S. Song, S. P. Lichtenberg, and J. Xiao, “Sun rgb-d: A rgb-d scene understanding benchmark suite,” in IEEE conference on computer vision and pattern recognition, 2015, pp. 567–576.
[164] K. Lai, L. Bo, X. Ren, and D. Fox, “A large-scale hierarchical multiview rgb-d object dataset,” in 2011 IEEE international conference on robotics and automation. IEEE, 2011, pp. 1817–1824.
[165] A. Dai, A. X. Chang, M. Savva, M. Halber, T. Funkhouser, and M. Nießner, “Scannet: Richly-annotated 3d reconstructions of indoor scenes,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 5828–5839.
[166] I. Armeni, A. Sax, A. R. Zamir, and S. Savarese, “Joint 2D-3DSemantic Data for Indoor Scene Understanding,” ArXiv e-prints, Feb. 2017.
[167] A. X. Chang, T. Funkhouser, L. Guibas, P. Hanrahan, Q. Huang, Z. Li, S. Savarese, M. Savva, S. Song, H. Su et al., “Shapenet: An information-rich 3d model repository,” arXiv preprint arXiv:1512.03012, 2015.
[168] L. Yi, L. Shao, M. Savva, H. Huang, Y. Zhou, Q. Wang, B. Graham, M. Engelcke, R. Klokov, V. Lempitsky et al., “Large-scale 3d shape reconstruction and segmentation from shapenet core55,” arXiv preprint arXiv:1710.06104, 2017.
[169] M. De Deuge, A. Quadros, C. Hung, and B. Douillard, “Unsupervised feature learning for classification of outdoor 3d scans,” in Australasian Conference on Robitics and Automation, vol. 2, 2013, p. 1.
[170] C.-Y. Fu, M. Shvets, and A. C. Berg, “Retinamask: Learning to predict masks improves state-of-the-art single-shot detection for free,” arXiv preprint arXiv:1901.03353, 2019.
[171] P. O. Pinheiro, T.-Y. Lin, R. Collobert, and P. Doll´ar, “Learning to refine object segments,” in European Conference on Computer Vision. Springer, 2016, pp. 75–91.
[172] H. Liu, C. Peng, C. Yu, J. Wang, X. Liu, G. Yu, and W. Jiang, “An end-to-end network for panoptic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 6172–6181.
[173] K. Sofiiuk, O. Barinova, and A. Konushin, “Adaptis: Adaptive instance selection network,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 7355–7363.
[174] J. Lazarow, K. Lee, K. Shi, and Z. Tu, “Learning instance occlusion for panoptic segmentation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 10 720–10 729.
[175] Z. Deng, S. Todorovic, and L. Jan Latecki, “Semantic segmentation of rgbd images with mutex constraints,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1733–1741.
[176] D. Eigen and R. Fergus, “Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture,” in IEEE international conference on computer vision, 2015, pp. 2650–2658.
[177] A. Mousavian, H. Pirsiavash, and J. Kosecka, “Joint semantic segmentation and depth estimation with deep convolutional networks,” in International Conference on 3D Vision. IEEE, 2016.
[178] X. Qi, R. Liao, J. Jia, S. Fidler, and R. Urtasun, “3d graph neural networks for rgbd semantic segmentation,” in IEEE International Conference on Computer Vision, 2017, pp. 5199–5208.
[179] W. Wang and U. Neumann, “Depth-aware cnn for rgb-d segmentation,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 135–150.
[180] S.-J. Park, K.-S. Hong, and S. Lee, “Rdfnet: Rgb-d multi-level residual feature fusion for indoor semantic segmentation,” in IEEE International Conference on Computer Vision, 2017, pp. 4980–4989.
[181] J. Jiao, Y. Wei, Z. Jie, H. Shi, R. W. Lau, and T. S. Huang, “Geometryaware distillation for indoor semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 2869–2878.
[182] Z.-H. Zhou, “A brief introduction to weakly supervised learning,” National Science Review, vol. 5, no. 1, pp. 44–53, 2018.
[183] L. Jing and Y. Tian, “Self-supervised visual feature learning with deep neural networks: A survey,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.
[184] V. Goel, J. Weng, and P. Poupart, “Unsupervised video object segmentation for deep reinforcement learning,” in Advances in Neural Information Processing Systems, 2018, pp. 5683–5694.
[185] L. Ma, Y. Liu, X. Zhang, Y. Ye, G. Yin, and B. A. Johnson, “Deep learning in remote sensing applications: A meta-analysis and review,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 152, pp. 166 – 177, 2019.
[186] L. Gao, Y. Zhang, F. Zou, J. Shao, and J. Lai, “Unsupervised urban scene segmentation via domain adaptation,” Neurocomputing, vol. 406, pp. 295 – 301, 2020.
[187] M. Paoletti, J. Haut, J. Plaza, and A. Plaza, “Deep learning classifiers for hyperspectral imaging: A review,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 158, pp. 279 – 317, 2019.
[188] J. F. Abrams, A. Vashishtha, S. T. Wong, A. Nguyen, A. Mohamed, S. Wieser, A. Kuijper, A. Wilting, and A. Mukhopadhyay, “Habitat-net: Segmentation of habitat images using deep learning,” Ecological Informatics, vol. 51, pp. 121 – 128, 2019.
[189] M. Kerkech, A. Hafiane, and R. Canals, “Vine disease detection in uav multispectral images using optimized image registration and deep learning segmentation approach,” Computers and Electronics in Agriculture, vol. 174, p. 105446, 2020.
[190] N. Tajbakhsh, L. Jeyaseelan, Q. Li, J. N. Chiang, Z. Wu, and X. Ding, “Embracing imperfect datasets: A review of deep learning solutions for medical image segmentation,” Medical Image Analysis, vol. 63, p. 101693, 2020.
[191] A. Amyar, R. Modzelewski, H. Li, and S. Ruan, “Multi-task deep learning based ct imaging analysis for covid-19 pneumonia: Classification and segmentation,” Computers in Biology and Medicine, vol. 126, p. 104037, 2020.
[192] Y. Song, Z. Huang, C. Shen, H. Shi, and D. A. Lange, “Deep learning-based automated image segmentation for concrete petrographic analysis,” Cement and Concrete Research, vol. 135, p. 106118, 2020.