Semantic Video Segmentation: A Review on Recent Approaches视频语义分割:近年来的研究进展的翻译&思考

摘要

本文综述了语义分割的研究现状,并对其与其他视觉基础任务的关系、不同的数据集和常用的评价参数进行了阐述。本调查还全面回顾了各种最新的方法(RDF、MRF、CRF等)及其优点和挑战,并展示了基于CNN的语义分割系统在CamVid和NYUDv2数据集上的优越性。此外,还提到了一些未来工作的理想领域。

关键字

Semantic Segmentation, Video Segmentation, Deep Learning, Convolutional Networks, RDF, MRF, CRF, SVM, Unsupervised Graph Modeling, CNN.

介绍

语义分割是机器视觉领域的基本任务之一,它是指对场景中所有物体进行分割,并根据概念对其进行分类。这个领域很重要,因为它可以被认为是其他任务的重要预处理,包括对象检测、场景理解和场景解析。语义分割对物体的概念和性质进行分析和分类,并在场景[1]中识别物体及其形状。因此,它可以由目标检测、形状识别和分类[2]这三个基本步骤组成。这三个步骤都需要研究来提高效率,许多研究人员已经研究了一个或多个步骤,并在这方面进行了改进。Object detection,shape recognition and classfication

很明显, 这三个步骤不能被认为是相互独立的,它们的准确性和效率直接影响着下一步的工作。例如,一个在目标检测中存在错误的系统,很可能无法实现高性能的形状识别。即使系统可以借助辅助工具识别形状,在第三步也会遇到麻烦,即分类。因此,一个同时检查这三个步骤并以平衡的方式提高系统性能的过程是非常重要的。这是很自然的,这一任务的大部分在基于模型的基础上,应该为系统进行训练。许多参数直接影响到模型的质量,包括使用的数据集的质量、提取的特征、学习和分类方法。

作为设计和提供各种功能系统的主要领域,机器学习引入以来存在的问题之一是缺乏大型、完整和参考的数据集。当然,随着时间的推移,这个问题已经在一定程度上得到了解决,具有标准训练和测试程序的参考数据集已经得到了很好的开发。但是,它们在现有类别的数量和全面性方面仍然不足。最近,随着标记数据集领域的良好发展,语义分割也引起了机器视觉研究者的关注。考虑到像素级标记的数据集的增长和发展在时间上是昂贵的,可能包括人为错误[3],半监督和弱监督的方法受益于自己的优势,并在研究人员中占有自己的位置。除了这些不同的好处之外,还需要注意的是,带视频级标记的数据集在位置检测和分割方面存在问题,因此需要采用其他一些方法来保持系统性能,这增加了基于这些数据集[4]的系统设计和开发的成本。例如,图形模型,如条件随机字段(CRF),需要大量的训练数据和高精度的标记,不适合在这些数据集[1]上工作。

一般研究者对语义分割领域的态度是基于分类的,但也有人将其转化为聚类问题[5-7]。虽然聚类算法对图像的计算要求是部分可管理的,但是对于视频来说,情况是完全不同的。由于硬件的限制和聚类视频的计算需求的不足,这个任务通常分为两个单独的步骤来实现和运行,即图形构建和聚类[5]。这些图提供了图像或视频序列的自然表示,因此其边缘包括可用的时空结构,以及它们的传递性特性,可在长期内提供推论。

如上所述,语义分割通常分为目标检测、形状识别和分类三个步骤。对象检测步骤的常用方法之一是使用大量的候选框,然后对它们进行排序。在这种情况下,分类的质量取决于系统假设和可能性[8]的质量。语义部分分割是基于候选框的场景检测系统在场景[9]中检测目标的一个例子。当然,还有其他方法可以用于对象检测和设计语义分割系统的其他步骤,这些方法将在下面的小节中介绍。

二十多年以来通过引入语义细分领域的基于机器视觉的基本预处理步骤的系统,但由于广泛变化的外观对象等角度和方向,大小和规模、模糊和降低质量,伪装的环境中的对象,对象重叠等。在[10]领域,主要的挑战仍然存在。然而,最近随着深度神经网络(DNNs)和其他相关概念的引入,这些问题中的很大一部分已经得到了解决,并且基于这些问题的系统也得到了解决
概念已经显示出显著的效率。在过去,分割概念涉及到由系统设计者定义的语义和空间属性的组合。但是随着深度网络的引入,作为最强大的机器学习和建模领域之一,这些特性与深层层次结构和非线性空间一起,创建了一个比旧系统更有效的组合。研究表明,随着网络深度的增加,网络的效率提高。随着时间的推移,在深度网络的帮助下的特征提取已经被考虑在内,并且像ImageNet[11]这样的大型数据集所提供的框架的使用也得到了扩展。

卷积神经网络(convolutional neural networks, CNNs)随着在深度网络领域提出的各种工具和方法,在图像分类、目标检测、视觉跟踪和动作识别等图像和视频的不同领域都表现出了优异的性能。CNN网络在特征表示方面的优势远远超过其他方法,这使得研究人员将其用于结构问题,如语义分割和目标姿态估计[12]。之后引入deconvoutional神经网络(DeConvNets)[13],研究人员试图改变CNN的结构和其架构转换为完全卷积网络(FCN),这样他们可以获得一个大地图的整体形象的标签分类的每个小区域形象。同时,通过线性插值实现反褶积过程,实现图像[12]的像素标签。

本文首先回顾了与语义视频分割领域相关的常用数据集以及评价系统效率和准确性的各种方法。然后,我们将回顾其他研究人员所做的工作,以及他们在开发语义分割系统的每个步骤中所采用的方法。同时,我们也会对卷积神经网络的方法做一个简单的介绍。此外,我们还将回顾这一领域仍然存在的挑战和未来的工作。

数据集和评估

方法需要恒定的测试结构和标准的测量参数来与其它方法进行比较。由于这个原因,一些数据集已经成为评估系统精度的标准度量。同时,一些质量指标也成为常用的评价参数。在本节中,我们将介绍语义视频分割中常用的数据集。此外,还将介绍最常用的方法评价方法。

数据集

系统设计人员选择和使用的数据集对训练后的模型质量和系统性能起着非常重要的作用。在选择数据集时涉及到一些重要的参数,这些参数通常并不都存在于数据集中。因此,为任务选择合适的数据集可能是研究过程开始时最具挑战性的工作之一。对于完整数据集来说,最重要的可定义参数有以下几种:

  • 数据集在不同类别下的全面性
  • 输入质量和大小
  • 每个可用类别的训练和测试样本比例都很高
  • 高精度培训标签
  • 培训标签的真实性和质量

在视频帧上有各种语义标签的数据集。其中,训练和测试数据的量、基于像素或视频的训练标签精度的类型(有时称为弱标注)以及不同的语义类别存在较大差异。但是,数据集优于其他数据集的原因之一可能是研究人员对使用数据集以及将自己的工作与其他工作进行比较感兴趣。因此,某些数据集可以作为研究主题的原始参考。在接下来的小节中,将描述一些在语义分割中最常用的数据集

CamVid 数据集

Cambridge-driving带标签的视频数据库(CamVid)是第一个带有对象类语义标签的视频集合,包含元数据[14,15]。数据集提供了基本真值标签,将每个像素与32个语义类中的一个关联起来。尽管该地区已有许多使用固定摄像机开发的数据集,但这些系列数据是使用安装在汽车上并在城市街道上移动的摄像机收集的。CamVid datase拥有超过10分钟的30Hz质量的视频,其中超过700帧是手动标记的,并已得到其他人的审核和批准。一些Camvid数据集的示例已在图1中说明。
在这里插入图片描述

NYU-Depth V2 Dataset

NYU-Depth V2数据集由RGB和微软Kinect[16]深度摄像机记录的各种室内场景的视频序列组成。它拥有1449对密集标记的RGB和深度图像,464个来自3个城市的新场景和407024个新的未标记帧。这个数据集有超过1000个类,来自26个不同的场景类型(办公室,卧室,办公室走廊,客厅等)。NYU-Depth数据集的一些示例如图2所示。
在这里插入图片描述

Wild8 Dataset

Liu等人提供了Wild8数据集[17],该数据集由来自3个纪录片系列的100个弱监督视频序列组成,其中33个序列用像素级的ground-truth手动标记以进行评估。该数据集包括八个类别(鸟、狮子、大象、天空、树、草、沙和水)。Wild8是一个多类视频分割数据集,所有的序列都与多个类别相关联。图3展示了Wild8数据集的一些示例
在这里插入图片描述

YouTube-Objects Dataset

通过查询10个对象类[18]的名称,YouTube- objects (YTO)数据集由来自YouTube的126个视频组成。每节课包含9到24个视频,每个视频的时长从30秒到3分钟不等。YTO是一个弱注释的数据集,在场景中有对象的名称,并且每10帧有一个边界框。这个数据集中的每个视频只属于10个类中的一个,并且只能在那个视频中显示相关的对象。这个集合包含了720000帧6975号。已经被标记,并且指定了它们的包围框。图4展示了YTO数据集的一些示例。

SUNY Dataset

SYNU数据集是Xigh.org视频[19]的集合,由8个视频和24个类组成。这个数据集具有挑战性,因为在少量的序列中有大量的类。另外,有些类只存在于一个序列[17]中。然而,尽管存在这些挑战,在帧中使用像素级标签使得训练比弱标记的数据集更简单。

VSB100 Dataset

Galasso等人为Berkeley视频数据集提供了ground-truth注解,该数据集包含100个高清质量的视频,分别分为包含40个视频的训练文件夹和包含60个视频的测试文件夹[20,21]。每段视频都由四名不同的人员进行标注,以降低标注不准确的概率。VSB100数据集的一些示例如图5所示。在这里插入图片描述

SegTrack V2 Dataset

SegTrack v2是一个视频分割数据集,在每个视频[22]内的每一帧的多个对象上都有完整的像素级注释。该数据集由14个视频组成,每个视频中都有单个对象或交互对象。与此区域的大多数数据集不同,数据集的一个子集被选择并标记为像素级,或者所有帧都被标记为弱标记,在这个集合中,所有视频的所有帧都标记为像素级。SegTrack V2数据集包含具有挑战性的情况,包括前景/背景遮挡、大形状变形和摄像机运动。图6显示了一个具有不同基本原理的输入示例。

在这里插入图片描述

Cityscapes Dataset

这个数据集收集了来自50个不同城市在不同季节和一天中不同时间的视频记录。这个集合包含5000个带有详细标签的帧(图7),20000个帧包含大约30个不同的类[23]的标签(图8)。场景中实体的深度也包含在这个数据集中。
该数据集是最近才引入的,但是基于其标记的高精度,它将成为图像和视频处理领域性能评估的主要参考之一
在这里插入图片描述

评估参数

介绍一个新系统的一个重要部分是提供一份关于系统性能、准确性和在不同条件下的精度的完整报告。因此,研究人员试图将他们的系统结果与其他系统进行比较,以证明他们的系统比其他研究人员引入的类似系统具有更好的性能。相似的测试条件意味着测试数据集和质量评价参数是相同的。因此,随着时间的推移,许多测试方法和参数被认为是相互比较方法的标准基准。评价参数一般分为两类

  • 标签参数的准确性
  • 分割参数的准确性
    在这里,最常用的措施,已用于准确性评估已描述包括标记性能和分割性能参数。

Mean Accuracy per-pixel

PPA是忽略背景[24]时正确像素与总像素的比率。为式(1)中定义的标识性能参数。这种测量方法有时被称为全局精度。
在这里插入图片描述
其中,nii是第i类像素中被正确预测为第i类像素的像素个数,ti是第i类像素的总个数。

Mean Accuracy per-class

MCA是类明智像素精度[24]的平均值。为式(2)中定义的标识性能参数,ncl是类别的数目
在这里插入图片描述

Mean Intersection over Union

并集上的平均相交
均值IU是一个分割性能参数,通过计算交集/并集[25]的比值来衡量两个对象的重叠程度。这是很受欢迎的,因为它既惩罚过度分割和不足分割分别[24]。它在式3中定义在这里插入图片描述

Frequency Weighted IU

该参数定义为TP/(TP+FP+FN),其中TP为真阳性,FP为假阳性,FN为假阴性。然而,为了计算交集/联合分数的平均值,应该计算二进制属性的这个分数,然后除以属性(即类)[26]的数量。
在这里插入图片描述

时间一致性

这个参数是基于轨道的一致性。如果轨道上的所有像素都具有相同的标签[27],则轨道被标记为一致的。因此,标记的一致性就是标记一致的轨迹的比例。

最近的研究

在语义切分领域已经有了广泛的研究。除了某些方法相对于其他方法的优点之外,还可以根据它们接受作为系统输入的数据类型、用于从输入数据中提取特征的方法以及建模和分类的方法来研究这些方法。在下面,我们将描述这些项目

语义分割系统的输入

可以为分割系统定义多种输入。诸如前景和背景这样的二进制输入是最简单的输入类型之一,它们用于将对象分割为前景,将场景的其余部分分割为背景[28,29]。这些系统最突出的可定义应用之一是场景中的异常检测系统,该系统将异常建模为类别,并将场景的其余部分定义为离群类[30]。相反,可以研究基于多类输入的几种方法[17,19,31-34]。在这些系统中,根据训练数据集中存在的类别,可以从实验场景中接收到多类输出。训练类别的数量及其质量和准确性取决于系统训练数据集中可用类别的数量和质量。
考虑到现有数据集的质量,近十年来该领域的几乎所有研究都使用了彩色视频(RGB)[4、5、7、17、35、36]。但与此同时,许多方法都侧重于3D输入[37-39]。由于一些训练数据集最近提供的特性,一些研究人员已经被吸引到在场景中使用地理坐标。在该系统中,除了对场景进行语义分割外,还可以借助场景中不同部分的地理坐标来提高分割的准确性,并且可以在场景[40]中分解的部分使用合适的地理和地名

特征提取

特征选择与提取是机器学习系统设计与实现中最具影响力的步骤之一。视频语义分割也不例外。从训练视频中选择最佳的可提取特征集来创建最佳模型是提高系统效率和分割质量的重要步骤。不同系统中使用的特性可以分为两大类。第一类包括从整幅图像中提取的特征,如颜色和直方图特征等,后面会讨论。而基于区域的特征提取技术则是先选取图像的某些区域进行特征提取,然后将每个区域的特征作为向量分别放入特征空间中。这就是为什么选择和提取图像区域的方法是重要的。这将在下面讨论

Super-voxel 立体像素

像素一词指的是图像中最小的分量,体素一词指的是视频中最小的分量,它可以被看作是图像的三维结构。这一概念是值得注意和重要的,因为在许多引入视频处理领域的工作中,研究人员首先对输入视频进行预处理,以检测体素和超体素,然后从超体素[17]中提取所定义的特征。可以实现多种提取超体素的方法,包括均值移位法、基于图的方法、基于层次图的方法和基于SWA的方法。根据所进行的研究,不同的提取方法根据所使用的数据集类型和视频系统设计者[41]的期望应用显示出不同的性能。这使得提取超体素的方法成为基于超体素方法中最具影响力的步骤之一。

手工艺品的特征 Hand-craft Features

定义新的手工特征是机器学习这一新研究领域出现后的一个动态领域。后创建一个新的研究领域,它的基本基础设施的定义,基本可确定的创始人,提供的功能在这一领域,随着时间的推移,由于研究人员越来越多的关注和学术界之间的领域的扩展,定义的功能也进一步发展和质量参数的特性,比如全面性和可分性改善。
一个基本特征,已被用于大多数的视频作品和语义分割,视频帧的像素颜色特征(5、7、17日,32岁的38岁42-44]包括三个特性为RGB, HSV三个特性,得到的直方图统计特性以及直方图均衡化方法
在每个图像像素上定义的其他一组特征中,我们可以提到方向梯度直方图(histogram of oriented gradient, HOG),它可以在x轴和y轴上定义和实现[7,32,35,45]。当然,在视频作品中,其他类型的直方图如hue Color histogram和texton histogram是可以定义和提取的[4,33,46]。
另一组可以在视频中定义的手工特征是基于外观的特征,如跨界外观特征、纹理特征和时空外观特征,其中一些已经在近期的作品中使用[5,7,17,32,34 - 36,44,47]。
在RGBD数据集上所做的工作中也使用了三维空间特征和三维光流特征[37,38]。

自治特性 Automatic Features

与传统的使用手工特征设计系统的方法相比,深度学习方法最近被提出,它的特点之一是定义和从数据集中提取可分离特征的最佳集合
由于卷积深度网络在图像和视频处理任务中表现出了很好的性能,人们对利用这些网络来定义和提取特征产生了浓厚的兴趣。在卷积网络中使用预训练模型是从输入数据中提取自动特征的常用方法之一[8,39,48 -55]。

建模和分类

在训练数据集中对不同类别进行建模和学习的方法直接影响视频语义分割系统的分类精度和性能。因此,在机器学习领域中提出的各种方法已经被许多研究人员使用,每个团队都在尝试改进他们的方法并表达自己的优势。在下面,我们将回顾用于建模和培训的最常见方法。鉴于这些方法在图像和视频语义分割系统中是共享的,可以同时用于图像和视频的语义分割,我们也将参考一些在图像语义分割领域中提出的新工作。

无监督的方法

无监督方法各有利弊。优点之一是这些方法不需要数据集标记,从而降低了成本。另外,由于不依赖于特定的数据集,可以认为无监督系统比其他现有系统更通用。相比之下,这些方法的计算成本,特别是在视频领域,是非常大的,应该采取一些方法来控制和降低计算成本和硬件要求。这些方法的另一个缺点是在语义分割概念的范围内,如果不使用标签,就无法实现语义分割。换句话说,语义方法从它们必须分割的类中寻找学习信息,而非监督方法则在场景中寻找相容的区域。这就是为什么这些方法可以与其他学习和建模方法一起作为辅助方法使用的原因,这样可以在场景中借助标签和可用的语义信息为系统分割提供帮助。在下面,一些最广泛使用的算法在无监督的方法将被提及。

  • Clustering Algorithms
  • Graph-Based Algorithms
  • Random walk

SVM 支持向量机

随机决策森林

马尔科夫随机场

条件随机场

神经网络

局限和缺点

大多数在视频语义分割领域引入的系统很少使用时间特征和视频帧之间的时间相关性,在一些情况下,这些特征被使用,但在时间窗口和时间特征的定义中存在一些约束和限制[35,36,42,45,46,62,64]。例如,在[35],研究人员试图建立时序一致性之间的关系框架的帮助对象的运动,通过运动对象的分割和关系序列,提出了一个视频的语义分割的方法,它使用一个时空图形CRF模型和基于选择的标签super-voxels输入和提取的主要框架。还根据图论分割方法用于[42],随机选择方法已被用于稀疏提取图这样高计算能力将不需要视频分割,而且,一直使用帧的光流运动——时间信息添加到图

在构建帧之间的关系和使用帧之间的关系方面的一些限制也可以在最近使用深度卷积网络所做的工作中观察到[4,5,7,17,32,37,49,53]。例如,在[4]中,在时间间隔内跟踪的对象的形状兼容性被用于帧之间的时间兼容性。在使用图结构进行分割的方法中,除了考虑图的空间邻居关系外,还考虑了时间邻居[5,7,17]。当然,除了上述方法外,[7]还将时空表象特征、时空运动特征和不同时间物体形状的相似性作为系统特征。为了在基于图的作品中实现超级体素,可以定义不同帧中包含所需区域的时空超级体素,并且可以使用不同帧[17]中的平均关系来定义图中各区域之间的关系。此外,光流已经在最近的基于卷积网络作为时间特征的方法中得到了实现[27,37]。

运动系统的另一个缺点是不能端到端,这是此类系统设计的一个主要缺点。当然,最近引进的一些具有深度网络的系统将时空特征作为一个集成系统,但由于时间窗口固定,对不同输入的适应性较差[27,39]。

挑战

近年来,语义分割系统在整体上已经趋于成熟。这些方法在评价练习中表现出了良好的效果。特别是随着最近深度CNN方法的进展,几乎所有关于不同数据集的报告都通过了这些方法。虽然这些记录是通过最近的方法取得的,但在这方面仍然存在一些问题。
最近的方法侧重于分割小的和详细的对象。他们每个人都报告了这方面的一些成就,但仍有很大的进步空间。通常,很大比例的错误与这些对象相关。因此,这一挑战可以作为未来研究的课题之一

视频数据集中的一些问题已经成为研究人员面临的永久性挑战。这些问题可以解释如下:

  • 镜头光晕或渐晕:这是光线在镜头或某些角落较暗的框架图像中散射的效果。
  • 模糊:这个问题在某些情况下会发生,如相机对焦错误、物体移动、烟雾等。模糊的物体变得难以用细节和分割来检测。
  • 局部遮挡:当物体的某些部分被其他物体遮挡时,就会出现这个问题。在这种情况下,分割一个被阻塞的对象已经成为分割系统的一个挑战。
  • 覆盖:这是野生动物纪录片中经常出现的情况,将目标检测和分割变成了一个具有挑战性的任务。
  • 观点:每种方法都有一个经过训练的模型,用于测试阶段的分类。这些模型必须拥有大量的训练数据才能实现对对象的完整描述。在某些情况下,如果来自特殊视角的对象没有交付用于培训,那么系统在测试阶段就会变得脆弱。

未来的工作

语义分割是一个新兴的研究领域。我们调查了这一范围并研究了这一领域的最新方法。虽然研究者们提出了很好的合适的方法,但并不充分。然而,有些案例研究需要更多的关注。在下面,我们提到了其中的一些情况:

时间特征:目前的方法主要是针对图像的语义分割,而对视频语义分割的需求越来越大。在视频中,帧之间是相互关联的,并且有时间数据。近年来的研究对这一问题关注不够。在此范围内,需要提出更多的时空语义分割系统。
**对象语义关系:**在语义分割问题中,一个场景中存在多个语义关系。不仅每个对象都有一个语义标识,而且还有一个对象子集。换句话说,一个对象有一个单独的语义标识和一个组语义标识。组语义标识来自于邻域对象。群体身份影响个体语义身份,个体语义身份影响群体语义身份。研究这些关系及其作用是今后研究的一个很好的案例

结论

本文研究了近年来提出的语义分割方法,这是许多计算机视觉问题的主要任务之一。在第一部分中,一些引言对本研究领域进行了说明。在下一节中,我们将介绍几种用于视频分割的常用数据集。此外,在语义分割评价中最常用的参数也有表达。在第3节中,我们对近年来在这一领域所做的各种研究做了一个完整的简要回顾。本节包括两个部分,重点介绍了最近的方法中的特性选择和分割方法。第4节解释了在基于CNN和FCN的方法中使用的基本方法。最后,阐述了一些重要的挑战和未来的工作,为研究人员扫清了未来的研究道路。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值