音视频融合综述

前言

最近需要加强相关领域的深度研究,看一些质量高的论文,看论文首先要看的就是综述了。分享一篇视听融合研究综述,2015年发表在Proceedings of the IEEE上。该期刊创刊于1913年,主要刊登一些综述和科学前沿的调查研究(review, survey, and tutorial)但是不刊载具体的研究成果。本文回顾了至2015年在视听融合方面的研究成果,并讨论了该领域的主要挑战,重点是两种模态的不同步以及训练和测试的问题。

Audiovisual Fusion: Challenges and New Approaches
Katsaggelos A K, Bahaadini S, Molina R. Audiovisual fusion: Challenges and new approaches
[J]. Proceedings of the IEEE, 2015, 103(9): 1635-1653.

作者单位:Dept. of Electr. Eng. & Comput. Sci., Northwestern Univ., Evanston, IL, USA

在这里插入图片描述
参照该链接
添加链接描述

摘要

在本文中,我们回顾了有关视听(AV)融合的最新结果。我们还将讨论一些挑战,并报告解决这些挑战的方法。AV融合中的一个重要问题是模态如何相互作用和相互影响。本文将在AV语音处理(尤其是语音识别)的背景下解决此问题,其中一个问题是模态既相互作用,又有时彼此不同步。有时会出现的另一个问题是,尽管在训练时可用,但测试时可能会丢失其中一种模式。我们将从多视图学习领域回顾解决该问题的方法,该目标是在利用丰富的多模式培训数据的同时分别学习每种模式的模型或表示。除了多视图学习,我们还讨论了深度学习(DL)在AV融合中的最新应用。我们最终得出结论,并提供对AV融合领域未来的评估。

正文

1介绍

说明多模态的作用是提高稳定性和感知单模态感知不到的东西
文章首先介绍了多模态的意义是多种模态提供的信息协同使用,协助系统完成任务。当另一模态的数据补充整体信息时,我们可以说数据集成和融合是有意义的。冗余还可以用来提高可靠性。来自多种模态的互补信息允许感知环境中仅使用单独运行的每个个体模态的信息无法感知的特征。视听融合是多模态融合的方向之一:其中输入源是音频和视频。两种方式相关联并传达互补信息。例如,面部可见度有利于语音感知。在研究关节运动与声道形状和语音声学之间的关系方面,脸部运动,声道形状和语音声学等,这里可以参照语音驱动人脸动画论文。

一些音视频融合研究方向,感觉能做的东西不少
语音和视频融合在一起的应用有很多,例如语音识别[8] – [15],说话者识别[16],[17],生物特征验证[18] – [23],事件检测[ 24],概念检测[25] – [27],人或物体跟踪[28] – [35],主动说话者定位和跟踪[7],[36] – [40],音乐内容分析[41],会议细分[42],情感识别[43]-[45],独白检测[46],视频检索[47],人机交互[48],[49],新闻视频中的故事细分[50],视频拍摄检测[51],语音活动检测(VAD)[52]和源分离[53]-[55]。显然,在某些应用中,不仅可以使用视觉发音器,还可以使用面部表情甚至整个身体的发音器。类似的,在某些应用中,音频(不仅仅是语音信号)与视频信号融合在一起。
本文介绍概念并提出一些挑战,重点解决音视频中单个模态的质量和可信度,文章第二节介绍了特征提取的步骤和融合的类别,第三部分讨论了主要融合方法,第四部分介绍了当前的融合音视频的挑战,第五部分提出如何解决第四节的挑战,最后总结并评估。

在本文中,我们介绍了主要概念并回顾了具有挑战性的AV信息融合问题的最新工作。有很多关于该主题的评论文章(即[10],[22]和[56]-[64]),我们的意图是在这些文章停下来的地方继续我们的评论。我们提出了在融合这两种方式时遇到的一些挑战,在其他融合问题中也遇到了其中的一些挑战。我们讨论并比较了应对此类挑战的不同方法,并为该领域和该领域的未来研究方向提供了重要的观点。我们要解决的这些挑战中的一些挑战是每种模式在不同环境条件下的有效性,换句话说,视音频系统对每种模式的质量,可靠性和置信度的适应性。我们还解决了音频和视频流之间的异步问题,包括不同的感应率以及语音和音频线索之间的自然异步。我们还将回顾该领域的最新进展和方法。特别是,我们专注于将深度视图和多视图学习用于AV信息融合。本文的结构如下。在第二部分中,我们描述了特征提取步骤和融合类别。在第三部分中,我们讨论了一些主要的融合技术,即支持向量机(SVM),动态贝叶斯网络(DBN),隐马尔可夫模型(HMM)和卡尔曼滤波器。在第四节中,我们描述了融合音频和视频流的一些挑战。在第五部分中,我们回顾了解决AV融合中的一些挑战所采用的方法,并提出了针对它的两种最新方法,即深度学习和多视图学习。我们在第六节中得出结论并提供有关该领域未来的评估。

音视频特征提取和融合类型

通常,视音频分析包括两个主要步骤。第一步,从每个模态中提取合适的特征。此步骤完全取决于所使用的模态类型以及应用程序。本文首先概述了从这些模式中提取的针对不同应用的AV功能,整合由模态传达的信息。然后讨论了各种融合方法的优缺点。

  1. **特征提取环节如下图,**对音频提取MFCC和LPC,音素和韵律等。在视频中寻找合适的视觉特征具有挑战,大多数是取决于应用,在大多数视音频应用中,视觉特征是从身体的信息部分(例如嘴和眼区域)中提取的,但通常,它们取决于应用。提取特定信息的方法也有所不同。例如,在AV语音识别中,虽然通常使用MFCC功能来表示语音[69],但已经考虑了多种方法来提取视觉特征,这些视觉特征可以分为四类:基于图像的,基于运动的,基于几何和基于模型的特征[70]。AV特征提取系统的一般表示如图1所示。在大多数情况下,在提取视觉特征之后会考虑进行降维步骤。为了捕获音频和视频流中的时间动态,从新功能中获取了一阶和二阶导数(通过差异实现)。由于通常音频和视频流的速率不同,因此需要插值步骤以相同的速率表示它们。

在这里插入图片描述

融合方法:融合可以在不同的级别上进行。通过集成或组合来自所有模态的特征,可以在建模过程之前完成特征级别的融合;它被称为早期整合[14]。另一方面,在决策层,分别对每个模态进行建模,然后对模型的输出或决策进行集成以生成最终决策[72],因此将其称为后期集成。此外,还有另一种方法处于早期和晚期集成的中间,称为中间集成(在某些文献中,它也被视为早期集成)。也有可能通过在两个级别上执行融合来组合这些融合方法中的两种,称为混合方法[73]。

早期融合:
下图左边是早期融合,早期融合主要问题是不同模态的维度要保持一致,可能需要PCA解决问题。此外时间同步性也是一个问题,组合在一起的特征向量应该来自同一时间。虽然特征融合是一个最常用方法,但是有人用约束条件去做,例如对于多个人类说话者的视觉跟踪的应用,使用音频源进行初始化以约束视觉面部检测器的搜索空间。

在这里插入图片描述
数据集

中级融合:

上面是在特征提取之后才组合有关模态的信息,也有在提取过程中就考虑组合信息的中间融合,这个我没看懂,需要看具体给出的参考论文。中间方法相比较早期融合能够考虑不同模态的差异,让他们能够同步或者通过权重达到想要实现的效果。,这边我感觉就是早期的融合的在融合之前做一动作再融合。

后期融合:
也被称作决策融合,这个方法就比较简单了,如上图右边所示,通过这种方法,对于每种模态,都采用了单独的建模过程,该过程将一种模态的特征作为输入并产生输出决策。然后,这些由决策整合单元进行整合以形成最终结果。此步骤中使用的最直接的技术是加权,求和和投票[57]。更高级的机器学习算法,例如Adaboost

决策融合比早期融合更容易处理时序异步问题,但是决策融合学习不到多模态特有的特征,无法从模态关联中受益。因此两种方法利和弊都有,有人提出了早期和后期融合的方法【57】(需要了解一下)此外,尚无公认的标准评估方法,难以对不同特征和融合方法进行比较[22],[57]。

数据集
尽管有许多AV数据库,但仍然非常需要为AV应用程序生成适当的数据库。文献中已使用的一些可用AV数据集包括PETS [75](多模式分析任务,例如,对象跟踪),AV16.3 [76](仅音频,仅视频和AV扬声器本地化和跟踪) )TRECVID [77](用于视频检索,语义视频分析,视频分割,概念检测等不同应用程序),BIOMET [78](包含面部,语音,指纹,手和签名方式),M2VTS [79](音频和用于生物识别验证应用程序的某些主题的数字录像),XM2VTS [80](扩展的M2VTS),VidTIMIT [81](人们引用TIMIT [82]语料库的句子的录像),DAVID [83], VALID [84],AVICAR [85](汽车环境中的AV语料库),BANCA [86](用于网络和电子商务应用程序的生物特征访问控制)和CUAVE [87]。但是我觉得有youtube的话完全可以自己做,虽然工作量大,但是数据和方法好的话能发好论文

融合的技术

有许多技术已用于AV处理中的建模和融合步骤,例如SVM,图模型(例如DBN和HMM),神经网络和估计算法(例如,卡尔曼滤波)。这些建模技术适用于视音频系统的各个部分。例如,它们可以用作建模过程单元中的一种技术。由于当前研究的重点是融合,只介绍这些技术在融合中的工作。在下文中我们简要介绍了一些AV应用中最常用的融合技术。
A支持向量机: 在单模态中应用也挺多的,然后多模态中常常用在决策层融合。下图中举了一个很好地例子。
在这里插入图片描述
.B动态贝叶斯网络贝叶斯网络DBN: 概率图模型,DBN已用于各种AV融合任务中,这些任务需要对它们的随机变量之间的多重依赖性进行建模。此外,他们可以有效地处理时间序列数据[92]。这些特点使它们适用于许多多媒体分析任务。DBN的主要缺点是难以确定其正确状态[57],[93]。这个方法以前没接触过。直接看章节总结吧。

C隐马尔可夫模型HMM可以看作是DBN的一种简单形式,它表示观察序列上的概率分布。像DBN一样,HMM已广泛用于语音和视频处理任务。在某些作品中,单个HMM被用来联合建模AV特征,而不会在它们之间进行区分。这些工作可以归类为早期整合方法。
**除了DBN和HMM,其他类型的图模型,例如条件随机字段(CRF)及其变体[99],也已用于多模态融合[100]。**写大小论文时候再看看这里面经典的方法。

D.基于估计的方法用于多种来源融合的基于估计的技术包括卡尔曼方法和粒子滤波方法的变体[57]。

**E.任务相关技术可以在针对特定应用开发的文献中找到其他AV融合技术,通常没有通用性。这些融合技术通常被认为是中间方法。**例如,Casanovas等。 [105]提出了一种基于稀疏表示的盲AV源分离方法。构建两个字典来表示音频和视频模态的冗余表示。

表1显示了涉及AV融合的应用程序摘要。还显示了每个应用下的代表性工作。对于它们中的每一个,还显示了所使用的AV功能以及实际的融合技术及其分类。这只是一份代表性的文件清单,绝不是详尽无遗的。其他应用程序可以在[10],[22],[57]及其参考文献中找到。非常具有参考价值
在这里插入图片描述

挑战

设计视音频系统的一个重要问题是如何整合各种模式(在我们的示例中为音频和视频)的知识,以利用每种模式的信息知识,同时又忽略每种模式的弊端。在下文中描述了该领域中的一些主要挑战。

依赖问题

每种方式在不同环境条件下的有效性都不相同。在某些情况下,系统应更多地依赖音频,例如在黑暗的场景中,而在另一些情况下,则应更多地依赖视频,例如在嘈杂的环境中。换句话说,系统应适应模式的质量,可靠性和置信度。实现此目标的一般方法是在融合过程中考虑每个模态的权重。可以通过根据测试数据[101],[107]-[109]的质量不断调整权重来在动态方案中进行加权,也可以通过仅基于训练数据来计算一些恒定权重来在静态方案中进行加权[46]。 ],[110],[111]。如果训练和测试数据中的模态质量不同,则需要动态加权。尽管许多研究者[112],[113]已经解决了这个问题,但仍然需要解决在不同条件下估计合适权重的问题。

同步问题

处理不同类型的多种模式可能会导致许多同步问题。AV融合中有两种主要的异步类型。第一种类型源自音频和视频流之间的异步。例如,语音的视觉和听觉迹象不一定完全同时发生。结果,在AV语音识别中,语音和视觉线索之间存在自然的异步,称为保存性和预期性的协同发音[114]。另一种类型与感测速率和不同模态的处理时间之间的差异有关。同样,完成特定任务所需的数据量取决于应用程序;例如,与AV语音识别相比,用于AV事件检测的数量更长。在实际应用中,异步处理是一个重要且至关重要的问题,应进行适当的研究和解决。

数据问题

•如今,可获取大量数据,这些数据大多没有标签。标记数据的过程需要人工,时间消耗和昂贵。有必要提供一种融合技术,该技术能够从大量的未标记资源中受益。大多数传统的AV技术都没有考虑利用未标记的数据。然而,最近,研究人员[115],[116]已经在半监督甚至无监督的情况下进行视音频处理。他们大多将多模式处理问题视为多视图学习问题,并提出了新的学习技术来解决诸如标签丢失,视图(模态)和半监督学习之类的问题。

最近的进展和研究方法

在上一节中确定了我们选择关注的主要AV融合挑战之后,在本节中,我们首先回顾一下有关解决异步和动态加权挑战的最新文献。第一个挑战的性质特定于所考虑的两种方式:语音和视频。然而,解决该问题所描述的方法也可以应用于处理其他形式的异步性。另一方面,动态加权挑战在某种意义上是通用的,也就是说,它适用于任何融合应用。随后,我们介绍了两种最新技术,即深度学习和多视图学习,它们对视听融合具有当前和未来的影响。尽管利用这两种技术进行视音频融合的工作量有限,但是它们已经表现出更高的性能,并且在原则上能够应对未标记,嘈杂,丢失和/或冲突的数据的挑战。

异步

AV预期异步是一种自然发生的语言现象,其中语音段的可见手势(主要是嘴唇手势)先于该段的其他发音成分出现,因此可见手势在相应话语被看到之前就可以看到了。
这个问题讨论了很多东西,具体没看太懂。,主要是在做声音和视频同步处理或者异步处理。
在这里插入图片描述

动态加权

动态加权一个众所周知的事实是,自动语音识别(ASR)系统的性能在存在噪声的情况下会严重降低。**因此,在描述或观察级别自然会出现为语音分类加权AV模态的问题。分配给每个模态的权重应与其执行分类的可靠性相关。**例如,在具有理想AV信号的安静环境中,应将更大的权重分配给音频流,这反映了以下事实:在识别语音时,音频模态比视频模态更可靠。通常,当其中一种模式降级时(例如,由于音频通道中的背景噪声或视觉信号中说话者的嘴巴被遮挡),分配给它的重要性应该降低并反映出我们对此的信心在这种情况下的情态。现在让我们研究一下文献中如何解决音频和视频信号在各种情况下的贡献的加权问题。应当记住,除了权重之和等于1以外,还必须对权重施加更严格的约束[133]。

深度学习

深度学习深度学习(DL)的定义是[149]:”一类机器学习技术,可利用非线性信息处理的许多层来进行有监督或无监督的特征提取和转换,以及模式分析和分类。它位于神经网络,人工智能,图形建模,优化,模式识别和信号处理的交集中。人类信息处理机制(例如视觉和听觉)表明需要深度架构来提取复杂的结构并从丰富的感官输入中构建内部表示。DL在许多研究领域中表现出了非常好的性能,例如对象识别,计算机视觉,信息检索,语言建模和自然语言处理[149]。
这篇文章介绍了三种主要的深度表示学习方法,:•多模态融合学习; •跨模式学习; •共享表示学习。

这三种学习方法都包括以下三个阶段:1)无监督的深度特征学习; 2)监督培训;和3)测试。深度网络已应用于无监督特征学习,即该网络用作音频和视频特征提取器;然后,在所有这三种学习方法的训练和测试阶段中都将使用由此产生的功能。接下来,我们根据上述三种学习方法来回顾文献。

多模态融合学习:

主要有三种,一种是分别针对单个模态学习特征,作为数据的表示,另外一种是在连接的音频和视频数据上训练模型[参见图5(a)]。第三种选择是在每种模式的预训练层上贪婪地训练深度模型。在AV语音识别中,从两个单独的AV输入模型获得的输出可以分别非正式地视为音素和视位素。然后将输出提供给另一层,以对模态之间的关系建模[见图5(b)],几位研究人员在AV融合中采用了这种策略。Ngiam等人的工作代表了一个例子。 [115]用于语音分类。他们使用受限的Boltzmann机器(RBMs1)[154]进行特征学习,并研究了许多学习架构。他们为音频和视频分别训练RBM,为连接的音频和视频特征训练一个浅RBM模型[见图5(a)],以及双峰深度置信网络(DeBN2)模型[见图5(b)]。 。(RBM是一个生成模型,可用于以无监督的方式学习数据表示。)

在这里插入图片描述

跨模式学习:

【训练时候多模态学习特征,但是真正学习和验证的时候不用它,效果比单模态更好】
与多模式融合学习相比,使用这种方法,**在培训和测试中只能呈现一种模式。当来自其他模态的未标记数据可用于训练深度网络进行特征学习但在接下来的两个阶段中不可用时,此技术很有用。**在[115]中提出的深层自动编码器使用交叉模式学习方法。最初,以所有方式训练DeBN [与图5(b)相同的结构]。然后,在测试期间将与可用模态相对应的层的输出提供给两个网络,例如RBM,以重构两种模态。训练后,深度编码器中间层的输出可用作新的特征表示。通过发现模态之间的相关性,该深度编码器可以仅使用模态之一来重构其他模态(参见图6(a,关键在于shared 层))。Ngiam等。 [115]在训练和测试阶段,如果有视频可用而没有音频,则可以更好地表示视频。
在这里插入图片描述

共享学习

共享表示学习:跨模式学习的问题在于,对于具有多种模式的情况,需要训练的模型数量呈指数增长。为了解决这个问题,在[115]中使用人工噪声数据提出了一个完整的双峰深度自动编码器。受深度降噪自动编码器的激励,将一种模态设置为零的示例是添加到训练数据中。这样学习模型将对缺失的模态具有鲁棒性,并且可以在监督学习和测试阶段使用不同的模态组合[图6(b)]。

DL使用经验

1.•多模式融合学习方法是使用最广泛的深度AV融合方法。此方法可以使用各种深度网络体系结构,这提供了根据当前任务和可用资源进行适应的可能性。但是,应仔细选择特定的体系结构。例如,由于原始音频和视频数据之间的相关性是高度非线性的,因此网络很难从级联特征中学习这些相关性。 5(b)],而无需使用足够深的网络。
2. 多模式融合学习方法的主要问题是在所有三个阶段都应提供所有模式:特征学习,培训和测试。当然,这并非总是可能的。另一方面,**可以获取大量未标记的数据。拥有一种利用这些数据进行特征学习的方法将非常有益。**这可以通过交叉模式和共享表示学习来完成。

3.多任务学习是一种使用共享表示来学习同时解决多个相关问题的机器学习方法[149]。
4. 尽管在许多基于DL的AV融合技术中,使用了RBM,DeBN和CNN,但根据任务和资源,也可以采用其他模型变体。例如,Shah等。[157]提出了一种多模式情感识别框架,该框架使用了基于能量的RBM变体,称为复制softmax模型(RSM)。以面部表情,语音和语言作为源数据测试了情感识别方法的有效性。

多视图学习

[还没理解,后面再看]
多模式任务(例如语音处理)是多视图学习领域技术的自然应用。多视图学习是一组利用视图之间的关系(此处是音频和视频)来学习比分别从每个视图或从两个视图的简单串联中学习的更好的模型的技术。即使在测试时只有两个视图之一可用,多视图学习技术通常也会生成可以使用的模型。此属性非常有用,因为有可能收集AV训练数据,而在测试时只能访问音频或视频。其中一个视图可能会完全丢失,或者可能被噪声严重破坏,因此希望能够优雅地处理这种情况。
多视图学习技术在AV语音处理中的应用仍处于起步阶段,大多数工作集中在小型数据集和简单任务上。在本节中,我们将回顾迄今为止在该类别中所做的工作,以及一些自然的扩展,这些扩展可能是将来工作的丰硕成果。

总结

在总结本文时,我们总结了对AV融合的立场以及可能走向的观点。在对最近的出版物进行分析之后,可能会认为该研究领域在最近的发展方面并没有取得太大进展。这并不意味着发布的结果不值得,但是尽管主要思想已经非常成功,但似乎在最初获得成功之后并没有那么多追求。尽管在解决我们在本文中遇到的一些挑战**(即流加权和异步)方面取得了所有成功的工作,但是就很难很好地建模可靠性和正确处理异步而言**,在这些主题上仍有很多工作要做。对于AV(结构化SVM,CRF等)并**没有太多判别式结构化建模,**并且我们期望用于异步的各种图形模型应该从中受益。

DL无疑将提高其影音融合性能,就像它在其他每个领域所涉及的一样。它仅开始用于视听,但已经获得的初步结果令人鼓舞和鼓舞。另一个可能的未来变化是,**多模式工作可能开始变得与具体模式无关。**DL在某些领域发挥了这种作用,在这些领域中,特定领域的基本工作已被可从输入信号中学习的深度网络所取代。这并不意味着不需要领域知识,但是也许多模式应用程序将开始较少关注这种趋势导致的模式。

视音频语音的多视图学习正在成为一种有前途的方法。最近的工作才刚刚开始利用多视图技术。如上所述,某些技术,例如非线性CCA,尚未应用于此领域的问题。此外,除了上述非常初步的工作之外,还有很多空间来探索使用多视图技术来处理AV噪声。我们认为,多视图学习实际上还不是开创性的,并且我们希望它将成为未来研究的一个非常丰硕的领域。

如前所述,尽管存在许多AV数据库,但它们中可能没有一个具有所有所需的特性,例如足够的数据大小,实际可变性,标准实验设置和评估措施。这限制了归档的进度。也许通过更好地利用“荒野”中存在的数据(例如YouTube),可以帮助社区处理现实的嘈杂数据。由于大多数这些数据都是未标记的,因此深度学习和多视图学习可能是有效的。使用DL,可以以无人监督的方式学习数据的表示形式,而无需手工设计新功能集。通过协同训练,可以用最有信心的分类器未对标记数据进行标记。

最后,可以得出结论,一个人可能会认为AV融合是一个非常特殊的领域,但使它特别特别的一件事是,那里有如此多的AV数据,例如YouTube视频,而不是其他多模态数据。它们将为我们共同设想的视听融合的蓬勃发展和发展做出贡献。

个人总结与思考

  1. 这边学习完综述后感觉自己研究的很浅,没有了解到音视频融合的现有工作和之前工作。以前的工作主要是在特征处理和一些数学建模方法上,效果同样很好,但是现在深度学习和多视图学习可能因为数据的增加,更能做一些工作。
  2. 融合方法有 早期,中期和后期
  3. 融合具体方法有SVM,DBN,HMM,EBM和应用型融合等。
  4. 当前挑战:大规模标注数据集很少,需要通过非监督学习来从youtube里面做研究,这是一个非常有价值但是吃配置的研究趋势。声音和图像不能同步进行和动态加权解决环境变化问题是普遍需要解决问题,可以根据之前工作做一些研究,目前还没有很好的解决。
  5. 最近工作在异步,动态加权,深度学习,多视图学习上有很多研究,但是内容太多我没有细看,价值很高。
    这一部分关于音视频融合的主要工作进展和分类有详细介绍。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值