【20211205】文献翻译1:深度视听学习概述

地址:

  • 安徽大学
  • 自动化所智能感知和计算研究中心,模式识别国家重点实验室
  • 中科院大学人工智能学院
  • 中国科学院脑科学与智能技术卓越创新中心

时间:2020年1月14日

摘要

自从深度学习开始成功应用以来,旨在利用音频和视觉模态之间关系的视听学习已经引起了相当大的关注。研究人员倾向于利用这两种模态来提高以前考虑的单模态任务的性能,或者解决新的挑战性问题。在本文中,我们对最近的视听学习发展进行了全面调查。我们将当前的视听学习任务分为四个不同的子领域:视听分离和定位(audio-visual separation and localization)、视听对应学习(audio-visual correspondence learning)、视听生成(audio-visual generation)和视听表示学习(audio-visual representation learning)。我们进一步讨论了最先进的方法以及每个子领域的其余挑战。最后,我们总结了常用的数据集和性能指标。

关键词:视听学习,深度学习,调查

1. 简介

人类的感知是多维的,包括视觉、听觉、触觉、味觉和嗅觉。近年来,伴随着人工智能技术的蓬勃发展,从单模态学习到多模态学习的趋势已经成为更好的机器感知的关键。在过去的几十年里,代表我们日常生活中最重要的两种感知模式的音频和视觉信息的分析在学术界和工业界得到了广泛的发展。突出的成就包括语音识别、人脸检测等等。

使用两种模式的视听学习(Audio-visual learning,AVL)已被引入,以克服每种模式下感知任务的局限性。此外,探索音频和视觉信息之间的关系会带来更多有趣和重要的研究课题,并最终为机器学习提供更好的视角。

本文的目的是概述视听学习的关键方法,其目的是为许多挑战性的任务发现音频和视觉数据之间的关系。在本文中,我们主要将这些工作分为四类。(1)视听分离和定位;(2)视听对应学习;(3)视听生成 ;(4)视听表示。

在这里插入图片描述

**视听分离和定位(Separation & Localization)**的目的是分离从相应物体发出的特定声音,并将每个声音在视觉环境中定位,如图1(a)所示。在过去的二十年中,信号处理界对音频分离进行了广泛的研究。随着视觉模式的加入,音频分离可以转变为视听分离,这已被证明在嘈杂的场景中更为有效。此外,引入视觉模态可以进行音频定位,即根据音频输入在视觉模态中对声音进行定位。视听分离和定位的任务本身不仅导致了有价值的应用,而且还为其他视听任务提供了基础,例如,为360度视频生成空间音频。由于缺乏训练标签,这一领域的大多数研究集中在无监督学习上。

**视听对应学习(Correspondence Learning)**的重点是发现音频和视觉模式之间的全局语义关系,如图1(b)所示。它包括视听检索和视听语音识别任务。前者使用音频或图像来搜索其在另一模式中的对应物,而后者则源于传统的语音识别任务,利用视觉信息提供更多的语义先决条件来提高识别性能。尽管这两项任务都被广泛研究,但它们仍然带来了重大挑战,特别是对于细粒度的跨模式检索和语音识别中的同义词。

**视听生成(Audiovisual Generation)**试图在其中一种模式的基础上合成另一种模式,这与上述两种利用视听模式作为输入的任务不同。试图制造一个具有创造性的机器总是具有挑战性的,许多生成模型已经被提出。视听跨模态生成最近引起了相当大的关注。它旨在从视觉信号中生成音频,或者反之亦然。虽然人类很容易感知到声音和外观之间的自然关联,但由于不同模态之间的异质性,这项任务对机器来说具有挑战性。如图1(c)所示,从视觉到音频的生成主要侧重于从嘴唇序列中恢复语音或预测在给定场景中可能出现的声音。相比之下,音频到视觉的生成可以分为三类:音频驱动的图像生成、身体运动生成和说话人脸部生成(talking face generation)。

最后一项任务——视听表征学习(Representation Learning),旨在从原始数据中自动发现表征。人类可以很容易地根据长期的大脑认知来识别音频或视频。然而,机器学习算法,如深度学习模型,在很大程度上依赖于数据表示。因此,为机器学习算法学习合适的数据表示可能会提高性能。

不幸的是,现实世界的数据,如图像、视频和音频,不具备特定的算法定义的特征。因此,数据的有效表示决定了机器学习算法的成功。最近寻求更好的表示的研究设计了各种任务,如视听对应(audio-visual correspondence, AVC)和视听时间同步(audio-visual temporal synchronization, AVTS)。通过利用这样的学习表示,人们可以更容易地解决最开始提到的视听任务。

在本文中,我们对上述四个视听学习的方向进行了全面的调查。本文的其余部分组织如下。我们在第2、3、4和5节中介绍这四个方向。第6节总结了常用的公共视听数据集。最后,第8节是本文的结论。

2. 视听分离与定位

视听分离的目的是将不同的声音与相应的物体分开,而视听定位主要是在视觉背景下对声音进行定位。如图2所示,我们按照不同的身份对这项任务的类型进行分类:说话人(图2(a))和物体(图2(b))。前者集中在一个人的讲话,可以用于电视节目,以增强目标说话人的声音,而后者是一个更普遍和具有挑战性的任务,它可以分离任意的物体,而不仅仅是说话人。在本节中,我们对这两项任务进行了概述,研究了其动机、网络结构、优势和劣势。

在这里插入图片描述

2.1 说话人分离

说话人分离任务是一项具有挑战性的任务,也被称为 “鸡尾酒会问题”。它的目的是在一个嘈杂的场景中分离出一个纯粹的语音信号。一些研究试图只用音频模式来解决音频分离问题,并取得了令人兴奋的结果[14, 15]。先进的方法[5, 7]试图利用视觉信息来帮助说话者分离任务,并大大超过了基于单一模式的方法。早期的尝试是利用相互信息来学习音频和视频之间的联合分布[16, 17]。随后,一些方法专注于分析包含突出的运动信号和相应的音频事件的视频(例如,嘴巴开始移动或弹钢琴的手突然加速)[18, 19]。

Gabbay等人[5]提出以视听方式隔离特定说话人的声音并消除其他声音。研究人员没有直接从嘈杂的声音中提取目标说话人的声音,这可能会使训练模型出现偏差,而是首先将视频帧送入视频到语音模型,然后通过视频中捕获的面部动作预测说话人的声音。之后,预测的声音被用来过滤声音的混合物,如图3所示。

在这里插入图片描述

尽管Gabbay等人[5]通过增加视觉模式改善了分离语音的质量,但他们的方法只在受控环境中适用。为了在不受限制的环境中获得可理解的语音,Afouras等人[6]提出了一个深度视听语音增强网络,通过预测目标信号的幅度和相位来分离给定嘴唇区域的说话人的声音。作者们将spec-trograms作为网络的时间信号而不是图像。另外,他们还试图生成一个更有效的软掩码来进行过滤,而不是直接预测清洁信号的幅度。

与以往需要为每个感兴趣的说话人训练一个单独的模型(依赖说话人的模型)的方法相比,Ephrat等人[7]提出了一个与说话人无关的模型,只需训练一次,然后适用于任何说话人。这种方法甚至超过了最先进的依赖说话人的视听语音分离方法。相关模型由多个视觉流和一个音频流组成,将不同流的特征串联成一个联合的视听表示。这个特征被一个双向LSTM和三个完全连接层进一步处理。最后,为每个说话者学习了一个精心设计的频谱图掩码,以便与噪声输入相乘。最后,研究人员将其转换回波形,以获得每个说话者的孤立的语音信号。Lu等人 [20] 设计了一个类似于 [7] 的网络。不同的是,作者执行了一个视听匹配网络来区分语音和人的嘴唇运动之间的对应关系。因此,他们可以获得清晰的语音。

Morrone等人[21]没有直接利用视频作为条件,而是进一步引入地标作为细粒度的特征,生成时间频率掩码来过滤混合语音的频谱。

2.2 分离和定位物体的声音

人类在处理声音分离和定位时,不是像说话人分离任务那样从嘈杂的环境中匹配特定的嘴唇动作,而是更多地关注物体。由于探索来自不同物体的先前声音的挑战,很难在音频和视觉模式之间找到明确的对应关系。

2.2.1 分离

解决这个定位问题的早期尝试可以追溯到2000年[22]和一项将声音和视频的低层次特征同步化的研究。Fisher等人[17]后来提出用一种非参数方法来学习视觉和音频信号的联合分布,然后把它们都投射到一个学习的子空间。此外,还描述了几种基于声学的方法[23, 24],这些方法需要用于监视和仪器内工程的特定设备,如用于捕捉声音到达的差异的麦克风阵列。

为了从每个视频包含多个音源的大规模野外视频中学习音源分离,Gao等人[25]建议从无标签的视频中学习一个视听定位模型,然后利用视觉背景进行音源分离。研究人员的方法依赖于一个多实例多标签学习框架来分离与单个视觉物体相关的音频频率,即使没有单独观察或听到它们。多标签学习框架由每个视频的音频基向量袋提供,然后,获得音频中呈现的物体的袋级预测。

2.2.2 定位

而不是只分离音频,机器是否可以像人类一样仅仅通过观察声音和视觉场景对来定位声源?生理学和心理学都有证据表明,声音信号的定位受到其视觉信号的同步性的强烈影响[22]。过去在这个领域的努力仅限于需要特定的设备或附加功能。Izadinia等人[32]提出利用移动物体的速度和加速度作为视觉特征来给它们分配声音。Zunino等人[24]提出了一种新的声音和光学成像的混合设备,主要适用于自动监测。

由于互联网上未标记的视频数量急剧增加,最近的方法主要集中在无监督学习上。此外,同时对音频和视觉模态进行建模往往比独立建模更有优势。Senocak等人[26]仅通过观看和聆听视频,就学会了对声源的定位。相关的模型主要由三个网络组成,即声音和视觉网络以及一个通过距离比[33]无监督损失训练的注意力网络。

注意机制使模型集中在主要区域。它们在半监督的情况下提供先验知识。因此,网络可以转化为一个统一的网络,可以在没有额外注释的情况下更好地从数据中学习。为了实现跨模态定位,Tian等人[27]提出通过学习的注意力捕捉发声物体的语义,并利用时间排列来发现两种模态之间的相关性。

2.2.3 同时进行分离和定位

通过将一种模式的信息分配给另一种模式,声源分离和定位可以彼此紧密联系。因此,一些研究人员试图同时进行定位和分离。Pu等人[19]使用一个低等级和稀疏的框架对背景进行建模。研究人员提取了音频和视觉模态之间具有稀疏关联的成分。然而,这种方法的方案有一个很大的局限性:它只能适用于有少数发声物体的视频。因此,Zhao等人[28]引入了一个名为PixelPlayer的系统,该系统使用双流网络,并提出了一个混合和分离的框架来训练整个网络。在这个框架中,来自两个不同视频的音频信号被加入,产生一个混合信号作为输入。然后,输入被送入网络,该网络被训练为根据相应的视频帧来分离音频源信号。两个分离的声音信号被当作输出。因此,该系统学会了在没有传统监督的情况下分离单个音源。

Zhao等人[29]随后提出了一个名为深度密集轨迹的端到端网络,以学习运动信息,用于视听声音分离,而不是仅仅依靠图像语义而忽略视频中的时间运动信息。此外,由于缺乏训练样本,直接对单一类别的乐器进行声音分离容易导致过拟合。因此,作者提出了一个课程策略,从分离不同乐器的声音开始,再到分离同一乐器的声音。这种渐进的方法为网络提供了一个良好的开端,使其在分离和定位任务上更好地收敛。

以前的研究[19, 28, 29]的方法只能应用于有同步音频的视频。因此,Rouditchenko等人[30]试图通过神经网络学习的概念,只用视频帧或声音来执行定位和分离任务。研究人员提出了一种方法,在训练阶段使用sigmoid激活函数,在微调阶段使用softmax激活函数,产生稀疏的激活,可以对应输入的语义类别。之后,研究人员利用训练数据集中的标签将这些语义类别分配给中间网络特征通道。换句话说,给定一个视频帧或一个声音,该方法使用类别到特征通道的对应关系来选择一个特定类型的源或物体进行分离或定位。Parekh等人[31]为了引入弱标签以提高性能,设计了一种基于多实例学习的方法,这是一种著名的弱监督学习策略。

在这里插入图片描述

3 视听对应学习

在本节中,我们介绍了几项探索音频和视觉模式之间的全局语义关系的研究。我们把这个研究分支命名为 “视听对应学习”;它包括1)视听匹配任务和2)视听语音识别任务。

3.1 视听匹配

生物识别认证,从面部识别到鳍状指纹和虹膜认证,是一个热门话题,已经研究了很多年,而证据表明,这个系统可以被恶意攻击。为了检测这种攻击,最近的研究特别关注于语音反欺骗措施。

Sriskandaraja等人[34]提出了一个基于连体结构的网络来评估成对的语音样本之间的相似性。[35]提出了一个双流网络,其中第一个网络是一个贝叶斯神经网络,被认为是过拟合的,第二个网络是一个CNN,用于提高泛化能力。Alanis等人[36]进一步将LightCNN[37]和一个门控递归单元(GRU)[38]作为一个稳健的特征提取器来表示语篇级分析中的语音信号,以提高性能。

我们注意到,跨模式匹配是这种认证的一种特殊形式,最近得到了广泛的研究。它试图学习配对之间的相似性。我们将这种匹配任务分为细粒度的声音-面部匹配和粗粒度的音频-图像检索。

3.1.1 语音-脸部匹配

在这里插入图片描述

如图4所示,给定不同身份的面部图像和相应的音频序列,语音-面部匹配旨在识别音频所属的面部(V2F任务)或反之(F2V任务)。关键点在于找到音频和视觉模态之间的嵌入。Nagrani等人[39]提出使用三个网络来解决视听匹配问题:一个静态网络、一个动态网络和一个N-way网络。静态网络和动态网络只能处理特定数量的图像和音轨的问题。不同的是,动态网络在每张图像上添加了时间信息,如光流或三维卷积[40, 41]。在静态网络的基础上,作者增加了样本的数量,形成了一个N-way网络,能够解决N:1的识别问题。

然而,在上述方法中,两种方式之间的相关性并没有得到充分的利用。因此,Wen等人[42]提出了一个脱节映射网络(disjoint mapping network, DIMNets),以充分利用协变量(如性别和国籍)[43,44]来弥补语音和脸部信息之间的关系。直观的假设是,对于一个给定的声音和脸部配对,两种模式之间共享的协变量越多,匹配的概率就越高。这个框架的主要缺点是,大量的协变量导致了高数据成本。因此,Hoover等人[45]提出了一种低成本但稳健的方法,对音频片段和面部图像进行检测和聚类。对于音频流,研究人员应用了一个神经网络模型来检测语音进行聚类,随后根据多数原则为给定的音频集群分配了一个框架集群。这样做需要少量的数据进行预训练。

为了进一步提高网络的鲁棒性,Chung等人[46]提出了一种改进的双流训练方法,增加负样本的数量以提高网络的容错率。跨模式匹配任务,本质上是一个分类任务,可以使三联体损失得到广泛的应用。然而,在多样本的情况下,它是脆弱的。为了克服这一缺陷,Wang等人[47]提出了一个新的损失函数来扩展多个样本的三联体损失,以及一个基于双流结构的新的弹性网络(称为Emnet),可以容忍可变数量的输入来增加网络的灵活性。

3.1.2 音频-图像检索

跨模态检索任务的目的是发现不同模态之间的关系。给出源模态中的一个样本,所提出的模型可以检索出目标模态中具有相同身份的相应样本。以音频-图像检索为例,其目的是在给定一张弹钢琴的女孩的图片后,返回相关的钢琴声。与之前考虑的声音和脸部匹配相比,这项任务的粒度更粗。

与其他检索任务如文本-图像任务[48, 49, 50]或声音-文本任务[51]不同,视听检索任务主要侧重于子空间学习。Didac等人[52]提出了一个新的联合嵌入模型,将两种模式映射到一个联合嵌入空间,然后直接计算它们之间的欧几里得距离。作者利用余弦相似性来确保同一空间的两个模态在不重叠的情况下尽可能地接近。请注意,由于存在大量的全连接层,所设计的架构会有大量的参数。

Hong等人[53]提出了一个联合嵌入模型,该模型依赖于预训练的网络,并使用CNN来代替全连接层,以在一定程度上减少参数的数量。视频和音乐被送入预训练的网络,然后进行聚合,接着是通过联动排名损失(intermodal ranking loss)训练的双流网络。此外,为了保留特定模式的特征,研究人员提出了一个新颖的软模内结构损失(soft intramodal structure loss)。然而,由此产生的网络非常复杂,难以在实践中应用。为了解决这个问题,Arsha等人[54]提出了一种跨模态的自我监督方法来学习视频中的音频和视觉信息的嵌入,并大大降低了网络的复杂性。对于样本选择,作者设计了一个新颖的课程学习计划,以进一步提高性能。此外,所得到的联合嵌入可以有效地应用于实际应用中。

3.2 视听语音识别

对给定的语音片段内容的识别已经研究了很多年,然而,尽管取得了很大的成就,研究人员仍在努力争取在具有挑战性的场景中取得令人满意的表现。由于音频和视觉之间的相关性,结合这两种模式往往能提供更多的先验信息。例如,人们可以预测对话发生的场景,这为语音识别提供了强有力的先验,如图5所示。

在这里插入图片描述

早期关于视听融合模型的努力通常包括两个步骤。1)从图像和音频信号中提取特征;2)结合这些特征进行联合分类[62, 63, 64]。后来,利用深度学习的优势,特征提取被神经网络编码器取代[65, 66, 67]。最近的几项研究显示了使用端到端方法进行视觉语音识别的趋势。这些研究主要可以分为两组。他们或者利用全连接层和LSTM来提取特征并对时间信息进行建模[56, 57],或者使用三维卷积层,然后是CNN和LSTM的组合[58, 68]。Petridis等人[56]没有采用两步策略,而是引入了一个视听融合模型,同时直接从像素和频谱图中提取特征,并对语音和非语言发声进行分类。此外,时间信息是由一个双向LSTM提取的。虽然这种方法可以同时进行特征提取和分类,但它仍然遵循两步走的策略。

为此,Wand等人[57]提出了一个使用LSTM的词级唇读系统。与之前的方法相比,Assael等人[58]提出了一个基于句子级序列预测的新型端到端LipNet模型,它由空间-时间卷积、递归网络和通过连接主义时间分类(connectionist temporal classification, CTC)损失训练的模型组成。实验表明,读唇术的效果优于两步策略。

然而,视觉模式中的有限信息可能会导致性能瓶颈。为了结合各种场景的音频和视觉信息,特别是在嘈杂的条件下,Trigeorgis等人[60]引入了一个端到端的模型,从原始的时间表示中获得一个 "情境感知 "的特征。

Chung等人[59]提出了一个 “看、听、注意和拼写”(WLAS)网络来解释音频对识别任务的影响。该模型利用了双重注意机制,可以在单一或组合模式上运行。为了加快训练速度并避免过度拟合,研究人员还采用了课程学习策略。为了分析一个 "野外 "数据集,Cui等人[69]提出了另一个基于残差网络和双向GRU[38]的模型。然而,作者并没有考虑到音频中无处不在的噪音。为了解决这个问题,Afouras等人[61]提出了一个执行语音识别任务的模型。研究人员在他们的模型中比较了两种常见的序列预测类型:连接主义时间分类和序列到序列(seq2seq)方法。在实验中,他们观察到使用seq2seq的模型在只提供无声视频的情况下,根据单词错误率(WER)可以表现得更好。对于纯音频或视听任务,这两种方法的表现相似。在嘈杂的环境中,seq2seq模型的表现比相应的CTC模型差,这表明CTC模型可以更好地处理背景噪音。

在这里插入图片描述

4 音频和视觉生成

之前介绍的检索任务显示,经过训练的模型能够找到最相似的音频或视觉对应物。虽然人类可以想象与声音相对应的场景,反之亦然,但研究人员多年来一直试图赋予机器这种想象力。随着生成对抗网络(GANs)的发明和进步[70],图像或视频生成已经成为一个主题。它涉及几个子任务,包括从潜在空间生成图像或视频[71],跨模式生成[72, 73],等等。这些应用也与其他任务有关,例如,领域适应[74, 75]。由于音频和视觉模态之间的差异,它们之间的潜在关联性对机器来说还是很难发现。因此,从视觉信号中产生声音或反之亦然,成为一项具有挑战性的任务。

在这里插入图片描述

在本节中,我们将主要回顾视听生成的最新发展,即从视觉信号生成音频或反之亦然。这里的视觉信号主要是指图像、运动动态和视频。从视觉到音频 "这一节主要讨论从唇部区域的视频中恢复语音(图6(a))或生成可能发生在给定场景中的声音(图6(a))。相比之下,关于’音频到视觉’生成的讨论(图6(b))将研究从给定的音频中生成图像(图7(a)),身体运动生成(图7(b)),以及说话人脸部生成(图7(c))。

在这里插入图片描述

4.1 视觉到音频的生成

已经探索了许多从视觉信息中提取音频信息的方法,包括从视觉观察到的振动中预测声音和通过视频信号生成音频。

我们将视听生成任务分为两类:从唇部视频生成语音和从没有场景限制的一般视频合成声音。

4.1.1 唇语序列到语音

语音和嘴唇之间存在着一种自然的关系。与通过观察嘴唇来理解语音内容(读唇术)分开,一些研究试图通过观察嘴唇来重建语音。Cornu等人[76]试图从视觉特征中预测频谱包络,将其与人工激励信号相结合,并在一个语音生产模型中合成音频信号。Ephrat等人[82]提出了一个基于CNN的端到端模型,根据其相邻的帧为每个沉默的视频帧生成音频特征。因此,根据所学的特征重建波形,以产生可理解的语音。

使用时间信息来改善语音重建已经得到了广泛的探索。Ephrat等人[77]提出利用光流来同时捕获时间运动。Cornu等人[78]利用递归神经网络将时间信息纳入预测中。

4.1.2 一般视频转音频

当声音击中一些小物体的表面时,后者会有轻微的振动。因此,Davis等人[79]利用这一特定特征,从高速摄像机被动观察到的振动中恢复声音。请注意,对于合适的物体应该很容易振动,一杯水、一盆植物或一盒餐巾纸都是如此。我们认为,这项工作与之前介绍的语音重建研究[76, 82, 77, 78]类似,因为它们都使用了视觉和声音背景之间的关系。在语音重建中,视觉部分更多地集中在嘴唇的运动上,而在这项工作中,它侧重于小的振动。

Owens等人[80]观察到,当不同的材料被撞击或刮擦时,它们会发出各种声音。因此,研究人员引入了一个模型,该模型学会了从视频中合成声音,其中不同材料制成的物体以不同的角度和速度被鼓棒击打。研究人员证明,他们的模型不仅可以识别来自不同材料的不同声音,还可以学习与物体的互动模式(对物体的不同动作会产生不同的声音)。该模型利用RNN从视频帧中提取声音特征,随后通过基于实例的合成过程生成波形。

虽然Owens等人[80]可以从各种材料中产生声音,但作者的方法仍然不能应用于现实生活中,因为网络是在严格的限制下,通过在实验室环境中拍摄的视频进行训练。为了改进结果并从野外视频中产生声音,Zhou等人[81]设计了一个端到端模型。它的结构是一个视频编码器和一个声音发生器,以学习从视频帧到声音的映射。之后,该网络利用分层的RNN[83]来生成声音。具体来说,作者训练了一个模型来直接预测来自输入视频的原始音频信号(波形样本)。他们证明,这个模型可以学习各种场景和物体互动的声音和视觉输入之间的相关性。

我们之前提到的工作集中在单声道音频的生成上,而Morgado等人[8]则试图将360°摄像机记录的单声道音频转换为空间音频。执行这样的音频专门化任务需要解决两个主要问题:音源分离和定位。因此,研究人员设计了一个模型,从混合输入的音频中分离出声源,然后在视频中对其进行定位。另一个多模态模型被用来指导分离和定位,因为音频和视频是互补的。

在这里插入图片描述

4.2 音频到视觉

在本节中,我们对音频到视觉的生成进行了详细回顾。我们首先介绍音频到图像的生成,它比视频生成更容易,因为它不需要生成的图像之间的时间一致性。

4.2.1 音频到图像

为了生成质量更好的图像,Wan等人[84]提出了一个模型,该模型结合了频谱规范、辅助分类器和投影判别器,形成了研究人员的条件GAN模型。该模型可以根据声音的大小输出不同尺度的图像,即使是对同一个声音。Qiu等人[85]建议从音乐中想象内容,而不是生成现实世界中发生的声音的场景。作者通过将音乐和图像输入两个网络来提取特征,并学习这些特征之间的相关性,最后根据学习的相关性生成图像。

有几项研究集中在视听相互生成方面。Chen等人[72]是第一个尝试使用条件GANs解决这种跨模式生成问题的人。研究人员定义了一个声音到图像(S2I)网络和一个图像到声音(I2S)网络,分别生成图像和声音。Hao等人[86]没有将S2I和I2S生成分开,而是通过考虑跨模态循环生成对抗网络(cross-modality cyclic generative adversarial network, CMCGAN)将各自的网络合并为一个网络,用于跨模态视听相互生成任务。遵循循环一致性原则,CMCGAN由四个子网络组成:音频到视觉、视觉到音频、音频到音频和视觉到视觉。

最近,一些研究试图从语音片段中重建面部图像。Duarte等人[87]通过GAN模型合成了包含表情和姿势的面部图像。此外,作者通过寻找最佳的输入音频长度来提高他们模型的生成质量。为了更好地从语音中学习规范化的人脸,Oh等人[88]探索了一种重构模型。研究人员通过学习将语音的特征空间与预先训练的人脸编码器和解码器对齐,来训练一个音频编码器。

4.2.2 身体运动的产生

许多研究都试图利用运动来为头像制作动画,而不是直接生成视频。运动合成方法利用了多种技术,如降维[103, 104]、隐马尔科夫模型[105]、高斯过程[106]和神经网络[107, 108, 109]。

Alemi等人[89]提出了一个基于条件限制玻尔兹曼机和递归神经网络的实时GrooveNet,以从音乐中产生舞蹈动作。Lee等人[90]利用一个自回归编码器-解码器网络,从音乐中生成一个舞蹈编排系统。Shlizerman等人[91]进一步介绍了一个使用 "目标延迟 "LSTM来预测身体标志的模型。后者被进一步用作代理来产生身体的动态。关键的想法是要从音频中创建一个类似于钢琴家或小提琴家动作的动画。总之,整个过程产生了一个与输入音频相对应的艺术家表演视频。

虽然以前的方法可以产生身体运动的动态,但音乐的内在节拍信息并没有被使用。Tang等人[92]提出了一种面向音乐的舞蹈编排合成方法,通过LSTM-自动编码器模型提取声音和运动特征之间的关系。此外,为了达到更好的性能,研究人员用掩蔽方法和时间指标改进了他们的模型。提供弱监督,Yalta等人[93]探索了从运动方向产生弱标签,用于运动-音乐对齐。作者通过一个由音频频谱提供的条件性自动配置的深度RNN生成了长的舞蹈序列。

4.2.3 会说话的面孔的生成

在探索音频到视频的生成方面,许多研究人员对从语音或音乐中合成人脸表现出极大的兴趣。这有许多应用,如动画电影、远程会议、谈话代理和增强语音理解,同时保护隐私。早期的对话式人脸生成研究主要是根据任意语音的音频,从数据集中合成一个特定的身份。Kumar等人[94]试图通过利用延时LSTM[110]来生成与音频同步的关键点,然后通过另一个网络生成以关键点为条件的视频帧。此外,Supasorn等人[95]提出了一个 "牙齿代理 "来改善生成过程中牙齿的视觉质量。

随后,Chung等人[96]试图使用编码器-解码器CNN模型来学习原始音频和视频之间的对应关系。Jalalifar等人[97]结合RNN和GAN[70],通过两个网络制作了一连串与输入音频同步的逼真面孔。一个是LSTM网络,用于从音频输入中创建唇部地标。另一个是有条件的GAN(cGAN),用来生成以一组给定的唇部地标为条件的脸。[98]没有应用cGAN,而是提议使用时间GAN[111]来提高合成的质量。然而,上述方法只适用于合成有身份限制的数据集中的人脸。

对任意身份的说话人脸的合成最近引起了极大的关注。Chen等人[99]在生成多个唇部图像时考虑了语音和唇部运动之间的相关性。研究人员使用光流来更好地表达各帧之间的信息。馈送的光流不仅代表了当前形状的信息,也代表了之前的时间信息。

一张正面的人脸照片通常同时具有身份和语音信息。假设如此,Zhou等人[100]在生成过程中使用了一种对抗性学习方法来分解一幅图像的不同类型的信息。分解后的表示有一个方便的特性,即音频和视频都可以作为生成过程中的语音信息来源。因此,在应用生成的网络时,不仅可以输出特征,还可以更明确地表达它们。

最近,为了发现音频和视频之间的高层次的相关性,Zhu等人[73]提出了一个相互信息近似法来近似各模式之间的相互信息。Chen等人[101]将地标和运动注意力用于生成会说话的人脸。作者进一步提出了一个动态的像素损失来实现时间上的一致性。面部生成不限于特定的模式,如音频或视觉,因为关键点在于这些不同的模式之间是否存在相互的模式。Wiles等人[102]提出了一个名为X2Face的自我监督框架,以学习嵌入式特征并生成目标面部动作。只要学会了嵌入式特征,它就能从任何输入中产生视频。

在这里插入图片描述

5 视听表征学习

表征学习的目的是自动从数据中发现模式表示。它的动机是,数据表征的选择通常会大大影响机器学习的性能[11]。然而,现实世界的数据,如图像、视频和音频,并不适合用算法来定义具体的特征。

此外,数据表征的质量通常决定了机器学习算法的成功。Bengio等人[11]假设其原因是不同的表征可以更好地解释数据背后的规律,最近对人工智能的热情促使人们设计更强大的表征学习算法来实现这些先验。

在本节中,我们将回顾一系列的视听学习方法,从单模态[112]到双模态表示学习[114, 12, 13, 113, 116]。此类研究的基本流水线如图8所示。

在这里插入图片描述

5.1 单一模式的表征学习

自然地,为了确定音频和视频是否相互关联,研究人员着重于确定音频和视频是否来自同一视频,或者它们是否在同一视频中同步。Aytar等人[112]利用视频和声音之间的自然同步性来学习视频的声学表示。研究人员提出了一个师生培训过程,将未标记的视频作为桥梁,将辨识知识从复杂的视觉识别模型转移到声音模式。尽管所提出的方法成功地以无监督的方式学习了音频模式的表示,但同时发现音频和视频的表示仍有待解决。

5.2 学习视听表征

在相应的音频和图像中,有关模式的信息往往是嘈杂的,而我们只需要语义内容而不是准确的视觉内容。Leidal等人[113]探索了语义嵌入空间的无监督学习,这需要相关音频和图像的紧密分布。研究人员提出了一个模型,将输入映射到对角线高斯分布的平均值和方差对数的向量,而样本语义嵌入则是从这些向量中抽取的。

在这里插入图片描述

为了通过简单地观看和聆听大量未标记的视频来学习音频和视频的语义信息,Arandjelovic等人[12]引入了一个视听对应学习任务(AVC)来从头训练两个(视觉和音频)网络,如图9(a)所示。在这个任务中,相应的音频和视觉对(正样本)是从同一视频中获得的,而不匹配的(负)对则是从不同的视频中提取的。为了解决这个任务,作者提出了一个L3网络,用来检测视觉和音频领域的语义是否一致。虽然这个模型是在没有额外监督的情况下训练的,但它可以有效地学习双模态的表征。

Arandjelovic等人[114]在探索所提出的视听一致性(AVC)任务时,继续研究AVE-Net(?),旨在寻找与当前音频片段最相似的视觉区域。Owens等人[117]提议采用类似于[12]的模型,但对视频使用三维卷积网络,这可以捕捉到声音定位的运动信息。

与之前基于AVC任务的解决方案相比,Korbar等人[13]引入了另一项名为视听时间同步(AVTS)的代理任务,进一步考虑给定的音频样本和视频片段是否 "同步 "或 “不同步”。在以前的AVC任务中,负面样本是作为来自不同视频的音频和视觉样本获得的。然而,在探索AVTS时,研究人员使用 "更难 "的负面样本来训练模型,这些样本代表了从同一视频中取样的不同步的音频和视频片段,迫使模型学习相关的时间特征。这时,不仅视频和音频之间的语义对应得到了加强,更重要的是,它们之间的同步也得到了实现。研究人员将课程学习策略[118]应用于这项任务,并将样本分为四类:阳性(对应的音频-视频对)、简单的阴性(源自不同视频的音频和视频片段)、困难的阴性(源自同一视频的音频和视频片段没有重叠)和超困难的阴性(部分重叠的音频和视频片段),如图9(b)所示。

上述研究依赖于两个潜在的假设。1)声源应该存在于视频中,2)预计只有一个声源。然而,这些假设限制了各自方法在现实生活视频中的应用。因此,Parekh等人[115]利用来自两个视频帧的类别诊断建议,将该问题建模为音频的多实例学习任务。结果,分类和定位问题可以同时得到解决。研究人员专注于以弱监督的方式使用事件类来定位突出的音频和视觉组件。这个框架能够处理异步的视听事件的困难情况。为了利用模式之间更详细的关系,Hu等人[116]推荐了一个深度的coclustering模型,从每个模式中提取一组不同的组件。该模型不断地学习不同模态的这种表征之间的对应关系。作者进一步引入了K-means聚类来区分具体的物体或声音。

在这里插入图片描述

6 最近的公共视听数据集

许多视听数据集,从语音到事件相关的数据都已被收集和发布。我们将数据集分为两类:视听语音数据集和视听事件数据集,前者记录了人脸和相应的语音,后者包括乐器视频和真实事件的视频。在本节中,我们总结了最近的视听数据集的信息(表6)。

在这里插入图片描述

6.1 视听语音数据集

构建包含视听语料的数据集对于理解视听语音至关重要。这些数据集是在实验室控制的环境中收集的,其中志愿者阅读准备好的短语或句子,或者在电视采访或谈话的野外环境中收集的。

6.1.1 实验室控制的环境

实验室控制的语音数据集是在特定环境下采集的,要求志愿者阅读给定的阶段或句子。有些数据集只包含说出给定句子的演讲者的视频;这些数据集包括GRID[119]、TCD TIMIT[121]和VidTIMIT[122]。这类数据集可用于唇语阅读、说话人脸生成和语音重建。更高级的数据集的开发还在继续:例如,Livingstone等人提供了包含情感演讲和歌曲的RAVDESS数据集[123]。其中的项目也是根据情感的有效性、强度和真实性来评分的。

一些数据集,如Lombard Grid[120]和OuluVS[125, 126]专注于多视图视频。此外,一个名为SEWA的数据集提供了丰富的注释,包括对问卷的回答、面部地标、(低级描述符的, low-level descriptors of)LLD特征、手势、头部手势、转述、价值、唤醒、喜欢或不喜欢、模板行为、同意或不同意的情节以及模仿的情节。

6.1.2 野生环境

上述数据集是在实验室环境中收集的;因此,在这些数据集上训练的模型很难应用于现实世界的场景。因此,研究人员试图从电视采访、会谈和电影中收集真实世界的视频,并发布了几个真实世界的数据集,包括LRW、LRW变体[129, 59, 130]、Voxceleb及其变体[127, 128]、AVA-ActiveSpeaker[131] 和AVSpeech[7]。LRW数据集由500个句子组成[129],而其变体包含1000个句子[59, 130],所有这些句子都是由数百个不同的说话者说的。VoxCeleb及其变体分别包含1,251位名人的100,000多句话[127]和6,112位身份的100多万句话[128]。

AVA-ActiveSpeaker[131]和AVSpeech[7]数据集包含更多视频。AVA-ActiveSpeaker[131]数据集由365万个人类标记的视频帧(约38.5小时)组成。 AVSpeech[7]数据集包含约4700小时的视频片段,这些视频来自总共29万个YouTube视频,涵盖了各种各样的人、语言和面部姿势。详细情况见表6。

6.2 视听事件数据集

另一个视听数据集类别包括音乐或真实世界的事件视频。这些数据集与上述视听语音数据集不同,不限于面部视频。

6.2.1 音乐相关数据集

大多数与音乐有关的数据集都是在实验室环境中构建的。例如,ENST-Drums[133]仅仅包含三个专业鼓手的鼓声视频,他们擅长不同的音乐类型。C4S数据集[132]由9个不同的单簧管演奏者的54个视频组成,每个人演奏3个不同的古典音乐作品两次(总共4.5小时)。

URMP[134]数据集包含一些多乐器的音乐作品。然而,这些视频是单独录制的,然后再合并。为了简化URMP数据集的使用,Chen等人进一步提出了Sub-URMP[72]数据集,它包含从URMP数据集中提取的多个视频帧和音频文件。

6.2.2 真实事件相关数据集

最近,越来越多的真实世界视听事件数据集被发布,这些数据集由上传到互联网的大量视频组成。这些数据集通常由成百上千的事件类别和相应的视频组成。有代表性的数据集包括以下内容。

Kinetics-400[137]、Kinetics-600[138]和Kinetics-700[139]包含400、600和700个人类动作类别,每个动作至少有400、600和600个视频片段。每个片段持续约10秒,取自一个独特的YouTube视频。这些动作涵盖了广泛的类别,包括人与物之间的互动,如演奏乐器,以及人与人之间的互动,如握手。AVA-Actions数据集[140]在43015分钟的电影片段中密集注释了80个原子视觉动作,这些动作在空间和时间上被定位,产生了1.58M个动作标签,多个标签对应于某个人。

AudioSet[136]是一个更通用的数据集,由632个音频事件类的扩展本体和2,084,320个人类标记的10秒声音片段集合组成。这些片段是从YouTube视频中提取的,涵盖了广泛的人类和动物声音、乐器和流派,以及常见的日常环境声音。YouTube-8M[135]是一个大规模的标记视频数据集,由数百万个YouTube视频ID组成,其中有高质量的机器生成的注释,来自3800多个视觉实体的不同词汇。

在这里插入图片描述

7 讨论

视听学习(AVL)是多模态问题的一个基础,它整合了我们日常生活中最重要的两种感知。尽管在AVL方面做出了巨大的努力,但在现实生活中的应用仍有很长的路要走。在本节中,我们将简要讨论每一类的关键挑战和潜在的研究方向。

7.1 挑战

AVL中差异的异质性决定了其固有的挑战。音频轨道使用电电压水平来表示模拟信号,而视觉模式通常用RGB颜色空间来表示;两者之间的巨大差距给AVL带来了重大挑战。这个问题的实质是理解音频和视觉之间的关系,这也是AVL的基本挑战。

视听分离和定位是许多现实生活应用中的一个长期问题。不管以前在与说话人有关的或最近与物体有关的分离和定位方面有什么进展,主要的挑战是不能区分各种物体的音色和探索产生不同物体的声音的方法。应对这些挑战需要我们精心设计处理不同物体的模型或思路(例如,注意力机制)。视听对应学习有广阔的潜在应用,例如在刑事调查、医疗、运输和其他行业。许多研究都试图将不同的模式映射到共享的特征空间。然而,由于从模糊的输入和目标模态中提取清晰有效的信息仍然困难重重,要想获得令人满意的结果是很有挑战性的。因此,充分的先验信息(人们通常关注的特定模式)对获得更准确的结果有重大影响。音频和视觉生成侧重于授权的机器想象力。与传统的判别问题相比,跨模式生成的任务是在概率分布之间拟合一个映射。因此,它通常是一个多对多的映射问题,很难学习。此外,尽管音频和视觉模态之间的差异很大,但人类对真实世界和生成的结果之间的差异很敏感,细微的伪影很容易被注意到,这使得这项任务更具挑战性。最后,视听表征学习可以被看作是对其他任务的一种概括。正如我们之前所讨论的,由电压表示的音频和由RGB颜色空间表示的视觉都是为了让人类感知,而不容易让机器发现共同特征。困难来自于只有两种模式和缺乏明确的约束。因此,这项任务的主要挑战是找到一个合适的约束条件。无监督学习作为这项任务的普遍方法,提供了一个设计良好的解决方案,而没有外部监督则使我们的目标难以实现。弱监督方法的挑战性在于找到正确的隐性监督。

7.2 未来研究的方向

多年来,AVL一直是一个活跃的研究领域[16, 17],对现代生活至关重要。然而,由于AVL领域本身的挑战性和人们日益增长的需求,在AVL领域仍有许多开放性问题。

首先,从宏观角度来看,由于AVL是一个典型的多模态问题,其主要问题是学习模态之间的映射,特别是映射音频中的属性和图像或视频中的对象。我们认为,模仿人类的学习过程,例如,通过遵循注意力机制和记忆库的想法,可以提高学习这种映射的性能。此外,第二个最困难的目标是学习逻辑推理。赋予机器以推理能力不仅对AVL很重要,而且对整个人工智能界也是一个开放的问题。与其直接赋予机器以完整的逻辑能力,从目前的发展状况来看,还有很长的路要走,我们可以简化这个问题,考虑充分地利用先前的信息,构建知识图谱。构建一个全面的知识图谱,并在特定领域适当利用它,可能有助于机器思考。

至于我们之前总结的每一项任务,第2节和第3节可以被称为 "理解 "问题,而第4节和第5节可以分别被称为 "生成 "和 “表示学习”。最近在理解和生成任务方面取得了重大进展,如唇语阅读、说话人分离和说话人脸生成。人脸领域相对简单但很重要,因为场景通常是受限制的,而且它有大量可用的有用先验信息。例如,考虑一个三维人脸模型。这些面孔通常有中性表情,而作为面孔基础的情绪还没有被很好地研究。此外,除了人脸之外,更复杂的野外场景中的更多条件也值得考虑。使模型适应音频(立体音频)或视觉(3D视频和AR)的新品种,也是一个新的方向。数据集,尤其是能够显著提高机器学习性能的大型高质量数据集,是研究界的基础[141]。然而,收集数据集是劳动和时间密集型的。小样本学习也有利于AVL的应用。学习表征,这是其他任务的一个更普遍和基本的形式,也可以缓解数据集的问题。虽然最近的研究缺乏足够的先验信息或监督来指导训练程序,但探索合适的先验信息可能使模型学习更好的表征。

最后,许多研究集中于建立更复杂的网络以提高性能,而由此产生的网络一般都包含着无法解释的机制。为了使模型或算法更加稳健和可解释,有必要学习早期可解释算法的精髓来推进AVL。

8 结论

从人类角度更好地理解世界的愿望引起了深度学习界对视听学习的极大关注。本文全面回顾了视听学习的最新进展,分为四个研究领域:视听分离和定位,视听对应学习,视听生成,以及视听表示学习。此外,我们还介绍了视听学习中常用的数据集的概要。讨论部分指出了每个类别的关键挑战,然后是潜在的研究方向。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值