论文翻译——Learning in Audio-visual Context: A Review, Analysis, and New Perspective(视听环境中的学习:回顾、分析和新视角)

论文翻译——Learning in Audio-visual Context: A Review, Analysis, and New Perspective

视听环境中的学习:回顾、分析和新视角
原文下载地址


摘要

视觉和听觉是两种感官,在人类交流和场景理解中起着至关重要的作用。为了模拟人类的感知能力,近年来,视听学习一直是一个蓬勃发展的领域,其目的是开发从音频和视觉模式中学习的计算方法。预计将进行一次全面的调查,以系统地组织和分析视听领域的研究。从视听认知基础的分析开始,我们介绍了启发我们计算研究的几个关键发现。然后,我们系统地回顾了最近的视听学习研究,并将其分为三类:视听促进、跨模态感知和视听协作。通过我们的分析,我们发现,视听数据在语义、空间和时间上的一致性支持了上述研究。为了从更宏观的角度重新审视视听学习领域的当前发展,我们进一步提出了视听场景理解的新视角,然后讨论和分析了视听学习领域未来的可行方向。总体而言,本调查从不同方面回顾和展望了当前的视听学习领域。我们希望它能让研究人员更好地了解这一领域。发布了一个包含不断更新的调查的网站:https://gewu-lab.github.io/audio-visual-learning/.

一、介绍

视觉和听觉在人类感知世界时主要依赖,它们占据了接收到的外部信息的很大一部分[1]。我们的大脑通过整合这些具有不同形式和物理特征的多模态信号来全面了解环境。例如,在有许多演讲者的鸡尾酒会场景中,我们可以找到感兴趣的人,并借助他/她的嘴唇动作来增强所接收的演讲。因此,视听学习对于我们追求类人机器感知能力至关重要。其目的是探索从视听数据中学习的计算方法。视听形式的特殊特性使其与众不同:

1)认知基础:作为研究最广泛的两种感官,视觉和听觉的整合广泛发生在人类神经系统中,从上丘到皮层[2]。一方面,两种感官在人类感知中的重要性为基于视听数据的机器感知研究提供了认知基础,另一方面,视觉和听觉表现出广泛的互动和整合的证据可以促进视听学习的进步。
2) 多重一致性:在我们的日常生活中,视觉和听觉是紧密相连的。如图1所示,狗的吠叫声和它的外观都让我们联想到“狗”(语义一致性)的概念。同时,我们可以通过听到的声音或视觉(空间一致性)来确定狗的准确空间位置。当听到狗吠叫时,我们通常可以同时看到狗(时间一致性)。视觉和听觉之间的不同一致性为视听学习研究奠定了基础。
3) 丰富的数据:移动终端和互联网的快速发展激发了越来越多的人在公共平台上分享视频,这使得以更低的成本收集视频变得更容易。由于高质量的大规模数据集是开发有效视听模型的关键基础设施,这些丰富的视频可以缓解数据获取障碍。

上述特性使得开发从音频和视觉模态学习的计算方法变得自然。事实上,我们见证了近年来视听学习的蓬勃发展。特别是,我们的社区已经开始探索和解决新的问题和挑战,而不仅仅是整合额外的模式来改进现有的单一模式任务。然而,现有的视听研究往往以任务为导向。在这些作品中,他们通常关注特定的视听问题。该社区仍然缺乏一个全面的调查,可以系统地回顾和分析该研究领域的工作。为此,本文对当前视听领域进行了阐述,并进一步分析了其不足之处,展望了未来的发展方向。由于视听学习与人类感知能力之间存在着紧密的联系,我们首先总结了视听模式的认知基础,在此基础上,现有的视听研究分为三类,如图1所示:
在这里插入图片描述
*图1.**多种视听一致性的说明和视听学习领域的概述。Top:**狗的吠叫和外观都与“狗”的语义概念有关,它的空间位置也可以通过视觉捕捉或通过相应的音频指示。同时,同一时间戳的视听片段自然是一致的。**Bottom:*在这项调查中,我们提供了认知启发的类别和子类别,以帮助组织现有的视听研究。

1) 视听增强:长期以来,人们对音频和视频数据进行了单独研究,并有广泛的应用。尽管这些单峰任务的方法大多取得了令人印象深刻的结果,但它们只获取有关观察到的感兴趣的事物的部分信息,因此性能有限,容易受到单峰噪声的影响。因此,研究人员将另一种模态的数据引入到这些音频或视觉任务中,这不仅使模型更加健壮,而且通过集成补充信息来提高性能。
2) 跨模态感知:对于人类来说,利用模态之间的一致性,基于另一模态的先验来想象视觉外观或声音模式是很自然的。相应地,音频和视频数据之间的一致性为机器提供了传递所学知识或根据来自另一个机器的信息生成模态特定数据的可能性。因此,提出了许多任务来追求这种跨模态感知能力,取得了显著的结果。
3) 视听协作:除了融合不同感官的信号外,大脑皮层区域的多种模态之间还有更高层次的合作,以实现更好的场景理解。因此,追求类人感知能力需要探索视听模式之间的协作。为了达到这一目的,近年来提出并广泛关注引入新的视听场景理解挑战的任务。

对于所有上述任务,跨语义、空间和时间的视听一致性提供了可实现的基础。因此,我们在总结最近的研究后分析了这些多重一致性。此外,为了重新审视类人感知建模中视听学习领域的进展,提出了视听场景理解的新视角。与近年来与视听学习领域相关的现有调查相比[3],[4],我们从视听模式的认知基础开始,然后观察到的结果有助于我们以更具逻辑性的范式系统地组织视听领域的研究,在此基础上,还充分讨论了不同模式之间的内在一致性。具体而言,Zhu等人[3]对基于深度学习的视听应用进行了调查。他们只关注一些典型的视听任务,缺乏针对性的视听相关性分析,导致其范围有限,缺乏深入讨论。Vilaça等人[4]回顾了最近的深度学习模型及其在视听学习中的目标功能。他们主要关注相关学习中使用的技术,缺乏对整个领域发展的全面回顾。此外,一些多模态或多视角调查[5]、[6]、[7]将视听学习纳入考虑。但是,这些著作并没有从视听学习的属性方面关注这一领域。

本次调查的其余部分组织如下。我们首先讨论视听模态的认知基础(第2节),然后总结视听任务的最新进展,分为三类:视听增强(第3节)、跨模态感知(第4节)和视听协作(第5节)。随后,第6节调查了不同任务的相关视听数据集。随后,第7节进一步讨论了上述任务中视听形式的多重一致性以及关于场景理解的新观点。本调查是基于我们在2021 CVPR主办的教程“视听场景理解”进行的。我们希望它能为研究人员提供当前视听学习领域的全面概述。

二、视听认知基础

视觉和听觉是人类理解场景的两种核心感官[1]。在本节中,我们总结了认知神经科学中视听模态的神经途径和整合,为随后的计算视听研究讨论奠定了基础。

2.1听觉和视觉的神经通路

视觉是最广泛研究的感官,被认为通过某些观点支配了人类的感知[1]。相应地,视觉的神经通路更加复杂。从物体反射的光包含视觉信息,它激活了视网膜上的大量光感受器(约 2.6 2.6 2.6亿)。光感受器的输出仅发送到 200 200 200万个神经节细胞。这个过程压缩视觉信息,让它被更高级别的视觉中心解码。然后,经过外侧膝状核细胞的处理,视觉信息最终到达皮层中的高级视觉区域。视觉皮层是具有功能差异的不同区域的组合,其视觉神经元具有偏好。例如, V 4 V4 V4 V 5 V5 V5中的神经元分别对颜色和运动敏感[2]。

除了视觉,听觉也是观察周围环境的重要感觉。它不仅对生存至关重要,有助于人类避免可能的攻击,而且对交流也至关重要[8]。声波在耳膜处转化为神经元信号。然后,听觉信息被传输到脑干的下丘和耳蜗核。声音最终在初级听觉皮层编码,经过丘脑内侧膝状核的过程[2]。大脑获取听觉信息,然后使用嵌入其中的声学线索,例如频率和音色,来确定声源的身份。同时,双耳之间的强度和耳间时间差为声音位置提供了线索,这被称为双耳效应[9]。在实践中,人类的感知可以结合多种感官,特别是听觉和视觉,这被称为多感官整合[2]。

2.2认知神经科学中的视听整合

每一种感觉都提供有关周围环境的独特信息。尽管接收到的多重感官信息是不同的,但由此产生的环境表征是一种统一的体验,而不是分离的感觉。一个具有代表性的演示是McGurk效应[10],其中两种不同的视听语音内容导致单个接收信息。事实上,人类的感知是一个综合过程,其中来自多种感官的信息被整合在一起。特别是,听觉和视觉的神经通路的交叉结合了来自两个重要人类感官的信息,以促进感知灵敏度和准确性,例如,声音相关的视觉信息提高了听觉空间感知的搜索效率[11]。这些感知结果结合了对多种感官的观察,在认知神经科学领域引起了关注。

根据现有的研究,多感官整合发生在大脑皮层下至皮层区域[2]。一个研究得很好的皮层下多模态区域是上丘。上丘的许多神经元具有多种感觉特性,这些特性可以被视觉、听觉甚至触觉的信息激活。这种多感官反应往往比单感官反应更强[12]。皮质中的颞上沟是另一个代表性区域。根据对猴子的研究,已经观察到它与多种感官联系在一起,包括视觉、听觉和体感[13]。更多的大脑区域,包括顶叶、额叶和海马,表现出类似的多感官整合现象。

根据这些关于多感官整合的研究,我们可以观察到几个关键发现:1)多模态增强。如上所述,许多神经元可以对多种感觉的融合信号作出反应,当单个感觉的刺激较弱时,这种增强的反应比单模态反应更可靠[12]。2) 跨模态塑性。这种现象是指剥夺一种模态能够影响其余模态的皮层发育。例如,聋人的听觉相关皮层有可能被视觉刺激激活[14]。3) 多模式协作。不同感官的信号在皮层区域有更复杂的整合。研究人员发现,大脑皮层形成了一个模块,能够以协作方式整合多感官信息,以建立意识和认知[15]。最终,视听整合广泛地发生在认知中,在上述发现的支持下,帮助我们拥有更灵敏和准确的感知。

受人类认知的启发,研究人员开始研究如何实现类似人类的视听感知能力。例如,通感是一种现象,即来自多种感官的信息以一种特殊的方式结合在一起。Li等人[16]首先将这一现象视为理论基础,并提出要弥合图像和音乐之间的内容关联。近年来出现了许多视听研究,但不失一般性。

三、视听增强

视听数据从不同的角度描述感兴趣的事物。尽管单个模态本身已经包含大量信息供机器使用,但它们只观察到部分信息,并且对单模态噪声敏感,这限制了单模态方法的性能。受人类认知的多模态增强案例的启发,视听模态都被引入以提高任务绩效。在图2中,我们提供了相关任务的草图。

3.1Audio-Visual Recognition视听识别

单模态识别任务在过去已被广泛研究,如基于音频的语音识别[17]和基于视觉的动作识别[18]。然而,由于单模态方法只观察有关感兴趣的事物的部分信息,而这些信息容易受到单模态噪声的影响,因此多年来,根据多模态信息的一致性融合多模态信息以提高模型的鲁棒性和容量的视听识别引起了人们的关注。
在这里插入图片描述
图2.视听增强任务图解。视听增强任务包括视听识别和单模态增强。这些任务旨在基于语义、空间和时间上的视听一致性,通过引入额外的模态,提高现有单模态任务的性能

Speech Recognition语音识别:音频语音识别任务已经研究了多年[19],其目的是将音频信息转换为格式文本。然而,在实践中,音频质量对频道、环境和语音风格很敏感,使得语音识别性能大大降低。为了进一步获得稳健的模型,研究人员受到了人类语音感知的启发,这种感知依赖于音频和视觉来决定所说的内容,尤其是在嘈杂的场景中。具体而言,与语音相关的面部区域的移动通常在时间上与对应的音频同步。同时,音频和面部(尤其是嘴唇)的所揭示的语音内容也高度一致。因此,在各种声学环境中引入稳定的视觉信息,以构建更鲁棒的语音识别系统。在早期研究中,视觉特征是通过先前的嘴唇形状表示框架[20]、[21]或一些低级视觉算法[22]提取的。然后,与隐马尔可夫模型(HMM)相关的方法通常用于建模随时间变化的视听同步状态[23],[24],[25]。随后,新兴的神经网络被用于提取特征[26],因为手工制作的特征要么需要精细标记,要么容易受到诸如照明等因素的影响。此外,视频的顺序信息可以通过递归神经网络(RNN)[27],[28]更好地建模。近年来,引入了基于变换器的识别框架,以进一步构建上下文相关性以及跨模态关联[29],[30],[31]。这些新颖的模型架构将视听语音识别的能力推向了一个新的高峰,而深度学习方法对大规模可用数据的依赖,使得标记成本成为一个巨大的负担。因此,Shi等人[32]试图通过聚类算法建立具有未标记数据的视听语音识别模型。通常,在引入视觉模态之后,语音识别方法在性能上有了很大的发展。

Speaker Recognition说话人识别:与语音识别类似,说话人识别也关注语音场景。这是一系列关注说话人身份的任务,包括说话人验证、识别和记录。说话者验证旨在验证目标说话者是否发出了话语,说话者识别旨在确定话语的说话者身份。发言人日记回答了“谁在何时发言”的问题。音频和面部信息是两种重要的个人身份和说话人识别方法,其中一种已成为成熟领域[33],[34]。但这些单模态方法易受环境变化的影响。音频的声学特性易受许多因素影响,包括背景噪声和说话者的情绪,而面部信息对姿势、照明和设备敏感。因此,考虑到个人身份在音频和视频中的语义一致,多个模态的组合对于构建更稳健的模型至关重要。在说话人验证和识别的早期研究中,研究人员经常利用手工制作的特征并进行决策融合,以将音频专家和视觉专家结合起来[35],[36],[37],[38]。随着深度学习的飞速发展,单模态特征往往由神经网络提取,除了决策融合[39],[42]外,还出现了更多的特征级融合方法,如串联[39]和注意力机制[40],[41]。与说话人验证和识别相比,说话人日记任务需要将给定的语音进一步拆分为说话人同质片段。在引入视觉模态之后,日记的研究包括两条路径。一种途径是通过融合单模态结果[43],[44],[45]来增强二元化性能。另一条路径将日记任务扩展到“谁在何时何地讲话”,进一步定位视觉[46],[47],[48],[49]中的语音相关区域。近年来,对大量深度学习数据的需求导致了收集和标记日记数据集的负担。因此,进一步利用视听同步的性质来设计自我监督的视听日记方法[50]。总的来说,视听说话人识别通过来自多个视图的信息获得了令人印象深刻的结果。

Action Recognition动作识别:在计算机视觉领域,动作识别是一项广泛研究的任务,它旨在基于视频来区分不同的人类活动。研究人员采用了许多视觉相关的模式进行动作识别[51]。例如,深度模态具有空间信息,而骨架模态揭示了对象姿态的结构信息。但这些模式都局限于反映视觉信息,尽管侧重点不同。相反,音频模态有望作为语义上的补充信息。首先,大量的动作类别伴随着声音;其次,音频可以反映视觉上类似动作的辨别信息。例如,Kinetics-700中的吃拳击和唱歌的动作[52]。第三,音频可以捕捉屏幕外或视觉上难以观察的动作(例如,嗅探)。因此,引入了视听动作识别来感知具有更多视角的动作。在这些研究中,决策融合和后期融合通常用于组合视听信息[53],[54]。最近,提出了更细粒度的中级融合方法,以充分探索时间上的视听一致性[55],[56]。Kazakos等人[55]提出了时间绑定网络,以在中等水平上临时聚合RGB、流和音频信息。近年来,变换器[57]的蓬勃发展激发了基于变换器的机制,该机制既考虑了自我注意力,也考虑了跨模态注意力[58]。此外,由于视频通常包含与动作无关的片段,导致不必要的计算成本,甚至可能干扰预测,因此使用音频模态来减少视频的冗余片段[59],[60]。类似地,模态选择[61]和丢弃[62]策略被用于有效的视频识别。除了上述融合多种信息的方法外,一些研究人员还将音频模态视为视觉领域泛化的辅助手段,缓解了跨场景动作识别中的领域转移问题[63],[64],[65]。总体而言,音频的引入从不同的角度增强了动作识别任务,包括更丰富的信息、更有效的训练和更好的概括。

Emotion Recognitio情绪识别:与具有明确分类标准的上述识别任务相比,情绪识别任务更困难,因为情绪之间的边界对人类来说甚至是模糊的。情绪识别任务注重识别人类的情绪,这些情绪可以反映在各个方面,包括面部表情、音频、手势甚至身体运动。基于[66],面部表情( 55 % 55\% 55%)和声音( 38 % 38\% 38%)贡献了人类情感的大部分。因此,视听输入对于情绪识别任务非常重要。在情绪识别研究的早期阶段,多种形式的特征是通过手工技术生成的。音频特征通常基于声学特征,如音调和能量[67],[68],[69],而视觉特征通常基于面部纹理(例如,皱纹、皱纹)或成分(例如,眉毛、嘴巴、眼睛)[70],[71]。这些研究的融合操作可分为特征级融合[72]、[73]、[74]、决策级融合[75]、[76]和模型级融合[77]、[78]。然而,手工制作的特征依赖于专家知识来设计有效的提取方法。尽管如此,它们仍然具有有限的表示能力,并且在探索多种模态间和模态内相关性方面存在困难。最近,更强大的深度神经网络被广泛应用于情绪识别任务,并提出了更多样的模式间融合策略[79],[80],[81],[82]。此外,引入了基于变压器的框架,因为它在吸引全球和本地注意力方面具有优势[83]。除了上述传统的情感识别之外,具有表面以下语义的情感,如讽刺或幽默,也开始考虑多模态信号,包括视觉表达和语音模式,以更好地捕捉关键的情感线索[84],[85]。

3.2 Uni-modal Enhancement单模态增强

视听模态之间的一致性不仅为多种模态的融合提供了基础,而且使增强单模态信号成为可能。例如,多个说话者的孤立视觉信息可以帮助分离混合语音,音频信息也可以反映被覆盖或缺失的面部信息。这些现象激发了研究人员使用一种模态的信息来帮助增强或去噪另一种模态。

Speech Enhancement and Separation语音增强和分离:语音增强和分离是两个紧密相关的任务,其目的是从混合声音中恢复干净的目标语音(例如,多个说话者的重叠语音或具有背景噪声的语音)。最初,这些任务仅将音频信号作为输入[107],使其对声学噪声敏感。如上所述,人类的言语感知依赖于视觉和听觉。嘴唇、舌头以及面部表情的运动也揭示了相关的语义信息。同时,视觉信息通常不受声学噪声的影响,多个扬声器在视觉上被隔离。因此,视觉模态被引入语音增强和分离任务中以生成高质量音频。在这些研究的初期,提出了基于知识的方法和经典统计方法,包括非负矩阵分解[108]、互信息[109]、HMM[110]和视觉推导的维纳滤波器[111]、[112]。后来,在嘴唇运动[92]、[113]、面部剪辑[95]、[114]、[115]甚至静态面部图像[116]的帮助下,深度视听模型在重建具有不同形式(例如波形[90]和频谱图[89]、[91])的清晰语音信号方面表现出了令人印象深刻的性能。总体而言,视觉信息的引入通过提供辅助信息来增强语音增强和分离模型的能力。
在这里插入图片描述
表1视听增强任务概述。

Object Sound Separation对象声音分离:与语音情境中的面部语音关联类似,同时存在多个发声对象的场景在我们的日常生活中很常见。物体声音分离旨在将特定物体产生的声音从混合物中分离出来。由于同一语义类别中的视觉对象通常会产生类似的声音模式,研究人员建议引入对象的静态视觉外观,以将其音频信号从不同类别对象的混合声音中分离出来[97],[98]。然而,这些方法不能很好地处理发声对象属于同一类别的场景,因为对象外观在视觉上是相似的。因此,通过进一步考虑音频和视觉模态之间的时间和空间一致性,引入了运动信息,如轨迹线索[100]和基于关键点的结构表示[117]。为了更好地构建视听映射,上面的大多数方法都采用了混合现有视听片段的策略,然后学习重构其中的每一个片段,以训练模型。尽管他们取得了显著的成果,但在合成视频中,实际多源视频的声学特性以及视觉环境信息实际上被忽略了。因此,Gao等人[102]提出了在现实多源视频中学习对象级视听相关性的共分离训练范式。最近,考虑到同一物体可能产生不同的声音,Chatterjee等人[103]将视觉场景公式化为图形,然后对同一物体的不同交互特性进行建模。总的来说,声音分离在许多方面逐渐演变,包括分离的难度程度和训练范式。

Face Super-resolution and Reconstruction人脸超分辨率与重建:正如说话人识别任务中所述,语音和面部拥有一致的个性特征。因此,可以根据某人的声音来估计重要的面部特征,如性别、年龄以及种族。因此,当视觉信息模糊或缺失时,音频可以作为图像处理的辅助,如人脸超分辨率和重建。人脸超分辨率是一项旨在恢复有限分辨率图像细节的任务。Meishvili等人[105]引入了携带面部属性的音频信号,以更高的分辨率恢复可信的面部,其中面部感知音频嵌入与视觉嵌入融合。此外,旨在自动操纵视频中人脸的deepfake攻击最近引起了更广泛的研究兴趣。人格认同中的人脸语音一致性为防御这种攻击提供了一种解决方案。Kong等人[106]利用人脸和语音的联合信息,在给定假人脸和语音信号的情况下重建真实人脸。总的来说,声音和面部之间的相关性使得借助音频增强视觉信息成为可能。

3.3 讨论

基于以上对视听促进任务的回顾和分析,我们总结了表1中的单模态输入问题以及视听输入的动机。本节中的任务旨在通过结合视听信息来提高现有单模态任务的性能,这得到了语义、空间和时间的视听一致性的支持。尽管这些任务针对的是视听识别和增强的不同方面,但它们并非彼此孤立,可以连接起来,以构建具有更广泛视听应用场景的模型。例如,语音分离任务可以与说话者日记任务组合以处理重叠的语音场景。此外,一致性本质上是视听学习的核心,但不应忽视情态特性。最近的研究发现,视听模型的性能并不总是优于单模态模型,尤其是在识别任务中。原因是在培训中遗憾地忽略了不同模式的学习特征[56],[118],[119]。为了充分利用视听信息促进单模态学习,还应考虑这些模态特有的特性。
在这里插入图片描述
图3.跨模态感知任务的图示。跨模态感知任务包括跨模态生成、视听迁移学习和跨模态检索。跨模态生成任务通常强调视听时空一致性,如面部区域或接收到的声音的变化,以及语义层面的一致性。转移学习和跨模态检索任务旨在转移或搜索语义相关信息。

四、跨模态感知

人类认知中的跨模态可塑性现象以及视听一致性促进了跨模态感知的研究,该研究旨在学习和建立音频和视觉模态之间的关联,从而实现跨模态生成、传递和检索。图3提供了这些跨模态感知任务的概要。

4.1 Cross-modal Generation跨模式生成

人类有能力在其他人的指导下预测一种模态的信息。例如,即使只有嘴唇运动的视觉信息,我们也可以推断出这个人在说什么。丰富的视听一致性使机器能够模仿人类的跨模态生成能力

Mono Sound Generatio单声道发声:运动和产生的声音之间的相关性提供了基于无声视频重建音频信号的可能性。单声道声音生成的场景包括语音重建、音乐生成以及自然声音生成。在演讲场景下,演讲内容可以通过视觉信息来揭示,包括嘴唇和舌头的运动。这一事实启发了语音重建任务,该任务旨在从无声视频生成音频信号。该任务的早期研究提出从手工制作的视觉特征估计频谱包络,然后将频谱包络用于合成相应的音频信号[120],[121]。由于构建合适的手工视觉特征耗时且困难,后续工作学习了从原始数据中提取视觉特征[122],[123],[124]。为了避免学习音频相关的中间表示的负担,提出了基于生成对抗网络(GAN)的模型,以直接从无声视频合成音频波形[125],[126]。此外,考虑到单个视图的视频很难捕获完整信息,使用多视图视频(例如正面视图和侧面视图)来提高生成质量[127],[128]。

音乐场景是另一种典型的视听场景。为了生成高质量的音乐,使用中间表示(如乐器数字接口)来桥接乐器的视觉变化和生成的音频。早期的音乐生成研究侧重于相对简单的音乐场景,尤其是钢琴案例,使用传统的计算机视觉技术捕捉乐器的变化[129]。最近,基于深度学习的模型(包括变分自动编码器和GAN)已经出现,以捕捉一般乐器场景中身体关键点[130]、[131]和运动[132]的演奏运动。上述方法旨在基于严格的视听对应关系生成确定的音乐,而Di等人[133]在语义层面上利用视频和音乐之间的节奏关系,生成与给定视频匹配的非确定背景音乐。

此外,自然场景的声音生成更具挑战性,因为与有限的语音或音乐场景相比,现实场景中的视听对应很难被捕捉。欧文斯等人[134]通过收集Greatest Hits数据集开创了自然声音生成任务,并提出了一种基于击打或刮擦物体的视觉变化生成声音的模型。随后,Zhou等人[135]使用SampleRNN模型生成原始波形样本,给出视觉外观和光流,涵盖环境声音和动物或人的声音。Chen等人[136]考虑了客观相关的背景声音,获得了高质量的结果。最近,Iashin等人[137]提出了一种有效的视觉驱动生成方法,该方法通过由GAN变体训练的码本表示。通常,单声道声音生成是一个蓬勃发展的领域,涵盖了多种视听场景。

Spatial Sound Generation空间声音生成:人类的听觉系统可以确定听到声音的位置,这被称为双耳效应。然后,期望记录的双耳音频恢复立体声感觉。然而,记录这样的空间声音需要不容易接近的特殊设备。因此,视听空间一致性激励研究人员在视觉信息的引导下生成空间声音。Li等人[138]提出通过集成合成的早期混响和测量的后期混响尾部来生成特定房间的立体声,而Morgado等人[139]采用了端到端的深度神经框架,使用360◦ 视频。然而,360◦ 视频的数量和场景有限,使得这些方法不能很好地推广到其他环境。随后,一些研究建议使用正常视野(NFOV)视频从单声道声音中重建双耳音频,由声源的视觉位置驱动[140],[141],[142]。这些方法是以数据驱动的方式构建的,依赖于地面真实立体声作为监督。尽管它们取得了令人满意的性能,但受监督的方式将它们的应用范围缩小到了特定场景。因此,Zhou等人[143]将空间声音生成任务制定为声音分离的极端情况,将立体声和单声道声音作为训练数据,以提高模型性能和泛化能力。为了进一步缓解对不足且昂贵的立体声的依赖,Xu等人[144]利用头部相关的脉冲响应和球面谐波分解,从单声道声音数据构建伪视觉立体声对。相反,Lin等人[145]利用每个音频分量和感兴趣的空间区域之间的关联来探索视听空间一致性。如上所述,空间声音生成方法逐渐减轻了对地面真实立体视频的依赖,扩大了其应用场景。

Video Generation视频生成:除了视频到声音生成之外,声音到视频生成也是一个备受关注的研究领域,其中包括基于语音的案例和基于音乐的案例。基于语音的生成主要包括说话面部/头部生成和手势生成。前一项任务旨在根据输入语音生成确定的视频,后一项任务侧重于预测与内容相关的可能手势。早期的说话脸生成方法依赖于说话者,依赖于目标人物的大型视频语料库[146],[147]。例如,Suwajanakorn等人[147]提出通过检索目标人物视频片段中的适当嘴唇区域来生成说话图像。随后,以音频驱动方式提出了扬声器相关的面部生成方法[148],[149]。这些方法只关注面部或嘴唇区域的生成,而当一个人说话时,除了嘴唇之外的其他部分(例如面部表情和头部姿势)也是可变的。因此,研究人员引入了结构信息,如地标[150]、[151]、[152]和3D模型[153]、[154]、[155],以建模语音和更一般的面部部位之间的相关性。Zhou等人[156]进一步提出了一种隐式低维姿态码,以在不需要结构信息的帮助下生成姿态可控的说话面部。这种策略可以避免由于估计的结构表示不准确而导致的性能下降。最近,情绪信息从语音中分离出来,以驱动更细粒度的谈话脸生成[157]。

伴随手势交谈对人类来说很常见,这有助于在交流中强调特定信息。手势和语音之间的对齐是含蓄和模糊的,给建模带来了困难。在早期阶段,手势生成方法大多基于规则,导致生成的手势被限制在选定的离散集合[158],[159]。随着深度学习的进步,更多的方法开始使用数据驱动方案,利用2D[160]、[161]或3D姿势模型[162]、[163],对不同说话者的语音姿势对齐模式进行完全建模。早期的方法将此任务表述为分类问题[164],而最近的工作将其视为生成连续手势的回归问题[165],[166]。由于每个说话者通常拥有特定的语音手势对齐风格,Ginosar等人[160]建议在生成过程中对这种特定于说话者的风格进行建模。Ahuja等人[167]通过解开手势的风格和内容,进一步将一个说话者的学习风格转移到另一个说话者。最近,Liang等人[161]将语音信息解耦为语义相关线索和语义无关线索,以明确学习和产生语义感知手势。

随着音乐跳舞是另一种声音到视频生成场景。长期以来,对舞蹈与音乐特征(如节拍、节奏和节奏)之间的一致性的探索一直备受关注。舞蹈生成的早期作品将此任务作为一个检索问题来处理,主要考虑动作音乐的相似性,限制了舞蹈的多样性[181],[182],[186]。后来,像长短期记忆(LSTM)这样的模型被广泛用于预测给定音乐的运动和姿势[187]。最近,舞蹈生成任务已从生成角度制定,并取得了有希望的表现[169],[170],[188]。例如,Lee等人[169]采用了分解合成学习框架,以在时间上对齐和合成舞蹈与伴奏音乐。此外,Huang等人[189]考虑了音乐类型,超出了节拍和节奏的一致性。除了随着音乐跳舞,Shlizerman等人[190]还关注乐器演奏的场景。他们提议产生播放给定音乐的合理运动。除了这些跨越各种场景的视频生成任务之外,还提出了几种相关的方法来根据音频信息操作图像内容[191],[192]。简而言之,声音到视频的产生产生了许多非凡的作品,这些作品有可能促进实践中的广泛应用。

Depth Estimation深度估计:除了基于视觉输入的空间声音生成之外,使用空间声音来估计视觉场景的空间信息是可行的,尤其是在低光或无光条件下。音频和视觉模态之间的空间一致性使这一任务成为可能。Christensen等人[171]提出了BatVision系统,该系统仅基于双耳回波信息预测深度图。同时,Gao等人[172]提供了一种新的训练方式,以视听方式与环境交互。他们融合了单眼图像特征和双耳回波特征,以提高深度估计质量。除了简单地融合视听特征之外,Parida等人[173]明确地考虑了场景中各种物体的材料特性,显著提高了深度估计性能。上述方法倾向于使用单个音频特征,通常是频谱图,其他音频特征很少被关注。因此,Irie等人[174]引入了角谱,这在几何预测任务中很有用,获得了令人印象深刻的估计结果。总体而言,视听深度估计是一个发展中的领域,有望扩展到更现实的应用场景。
在这里插入图片描述
表2跨模态感知任务概述。

4.2 Audio-visual Transfer Learning视听迁移学习

语义中的视听一致性表明,一种模态的学习有望得到另一种模态语义知识的帮助。这就是视听迁移学习任务的目的。为了避免昂贵且耗时的标记过程,Aytar等人[175]设计了一个师生网络,通过使用大规模且经济地获得的未标记视频,通过预先培训的视觉教师来训练学生音频模型。相应地,Owens等人[176]提出将环境声音作为监控信号来学习视觉表示。之后,Gan等人[177]还通过转移视觉老师的知识来完成车辆跟踪任务,从而训练了立体声学生模型。他们的模型可以在测试过程中完全基于立体声来独立定位物体。上述策略仅在训练期间使用RGB视觉教师,这限制了他们的表现,因为RGB模式容易受到天气和照明等因素的影响。因此,Valverde等人[193]结合了多个视觉教师网络,包括RGB、深度和热,以充分利用互补的视觉线索,提高音频学生网络的鲁棒性。类似地,Yin等人[178]设计了一个强大的视听教师网络,以融合多种模式的互补信息,促进视觉学生网络的学习。相反,Zhang等人[194]在三个不同的层面上提取了视听教师的知识:标签层面、嵌入层面和分发层面。总之,上述方法通过增加教师人数或蒸馏水平来加强蒸馏性能。相比之下,薛等人[179]使用单式教师来训练一名多模式学生。他们发现,该学生能够比其单式老师更好地纠正不准确的预测和概括。然而,用于传输的视频通常是“野生的”,因此视觉可能与伴随的音频不一致(例如,音频是背景音乐),这为传输学习带来了噪声。Chen等人[180]考虑了这种情况,并提出通过组合对比学习来捕获任务相关语义,以实现稳健的迁移。总体而言,现有方法在教师数量、转移水平以及转移稳健性方面增强了转移质量。

4.3 Cross-modal Retrieval跨模式检索

视听场景中的跨模态检索是另一种典型的跨模态感知任务。其目的是基于对另一种模态的查询检索一种模态数据,这是近年来快速发展的研究领域[183]、[185]、[195]、[196]、[197]。本质上,语义关联是模态之间的桥梁。尽管如此,视听模态的异构形式使得有必要将它们的表示映射到同一空间,其中数据对的距离反映了语义相似性。典型相关分析(CCA)的变体被广泛用于跨模态检索任务。他们的目标是通过最大化成对相关性来找到两种模态的转换,包括内核CCA[198]、深度CCA[199]和集群CCA[200]。除了基于CCA的方法,一些研究人员还引入了其他约束来训练具有联合嵌入空间的视听模型。Surís等人[185]利用余弦相似性损失和分类损失将单模态特征投影到公共特征空间中。Hong等人[183]使用模态之间的排名损失来提高视频音乐对的语义相似度。相反,Hu等人[184]提出在文本的帮助下建立图像和音乐之间的相关性。这些检索方法已应用于许多跨模态感知任务,包括给定视频的音乐推荐[183],[201]和舞蹈生成[181],[182]。

4.4 讨论

表2总结了跨模态感知任务的动机和目的。这些任务的核心是利用另一种模态的输入感知一种模态,依赖于视听一致性。跨模态检索旨在检索与内容相关的样本,但检索另一种形态的样本,因为视听对应对在语义上具有相似性。此外,视听转移学习任务将学习到的知识从一种模态转移到另一种模态,增强了模态能力。除了语义层面的感知,跨模态生成任务通常需要视听时空一致性来建模细粒度的跨模态关联。例如,面部区域的变化,特别是嘴部区域的变化应该与说话面部生成任务中的语音准确对应。这些单独的生成任务,如说话脸生成、舞蹈生成和手势生成,通常集中于人类的单个方面,因此有望进一步集成到虚拟人合成等应用中。此外,音频和视频作为两种不同的模态,也包含模态特定的信息,这很难使用跨模态相关性直接预测。如何在跨模态感知过程中同时考虑模态共享信息和模态特定信息,仍然是一个悬而未决的问题。

五、AUDIO-VISUAL COLLABORATION视听协作

视听信息以协作的方式集成,这对人类场景理解能力起着重要作用。因此,机器有必要通过探索视听协作来追求类似人类的感知,而不仅仅是融合或预测多模态信息。为此,引入了从简单场景理解到视听组件交互以及推理的新挑战。图4提供了这些视听协作任务的草图。

5.1 Audio-visual Representation Learning视听表征学习

如何在没有人类注释的情况下有效地从异构视听模式中提取表示,是一个重要的课题。这是因为高质量的表示可以促进各种下游任务[6]。对于视听数据,它们之间的语义、空间和时间一致性自然为表征学习提供了监督。视觉和伴随的声音在时间和语义上并不总是一致的,而是经常一致的。同时,立体场景中的空间位置也是一致的。这些一致性为视听再现学习提供了理想的监督。在早期阶段,de Sa等人[202]提出将视听分歧最小化,以从未标记的数据中学习。Arandjelovi´c等人[203]采用了语义一致性,并提出了视听对应(AVC)学习框架,其目标是确定音频输入和视觉输入是否来自同一视频。Korbar等人[204]进一步提出了视听时间同步,其目的是确定给定的音频输入和视觉输入是同步还是不同步,考虑到时间上更严格的视听一致性。此外,Morgado等人[205]利用了360◦ 视频和空间音频作为学习视听表现的监督,在各种下游任务中显示出优势。上述主要方法简单但有效,但在使用“野外”视频进行训练时会受到数据噪声的影响[206]。一些最近的方法进一步将假负对和假正对视为噪声[206],[207]。他们建议估计视听对的质量,然后通过加权对比学习损失进行优化,以减轻虚假对的影响。此外,为了更好地学习具有多个声源的场景中的表示,提出了深度多模态聚类模型,以首先解开每个模态的单独源,然后跨模态关联它们[208]。通过这些方法学习的表示在多个下游任务中显示出令人印象深刻的结果,例如声学场景分类和图像分类,有时甚至超过人类表现[204],[208]。

上述方法通常以成对的方式执行,通常缺乏样本分布的建模。因此,引入了深度聚类技术。Alwassel等人[209]首次提出了交叉模态深度聚类(XDC)方法,以自我监督的方式学习表示。他们用交叉模态伪标签交替训练音频和视觉模型。与具有单模态聚类的XDC方法相比,Asnao等人[197]将多模态视为不同的数据增强形式,然后学习视听聚类来注释未标记的视频。此外,Chen等人[210]将成对对比学习方案和聚类方法相结合,以充分捕获语义一致性。这些深度视听聚类方法以自我监督的方式提供了学习表示的另一条路径。

近年来,随着计算源和可访问数据的增加,使用借口任务对具有大量参数的海量数据进行训练的预训练模型已经出现。一开始,预训练模型在自然语言处理领域蓬勃发展[211],[212],然后激发了多模态预训练模型的出现。全感知预训练器[213]是第一个视觉文本音频预训练模型。他们设计了用于样本级、表征级和模态级训练的多模态借口任务,包括掩蔽模态建模、生成和对比学习方案。在V ATT[214]和AudioCLIP[215]模型的训练中,对比学习方法也被用于最大化跨模态相似性。Zellers等人[216]提出了一种新的对比掩蔽跨度学习目标。除了对比学习约束之外,他们还通过找出视频序列中隐藏的音频或文本跨度来训练模型。这种预训练策略被声称能够实现快速训练以及强大的泛化能力。包含视听模态的多模态预训练模型目前仍处于早期发展阶段,有望大大提高更多场景下的通用性。

5.2 Audio-visual Localization视听定位

视听定位的目的是通过参考输入音频来突出感兴趣的视觉区域或位置。这些任务建立跨模态关联,并突出场景中的视听组件。

Sound Localization in Videos视频中的声音定位:在大多数情况下,声音可以与其视觉上的发声源相关,因为音频和视觉经常同时发生。声音定位任务旨在为输入音频找到和定位视频中的声音相关区域。该任务的早期尝试使用浅概率模型[217]、[218]或CCA相关方法[219]来关联音频和视频信号。最近,深度神经网络将这一任务带入了一个新阶段。AVC框架是一种典型的训练方案。它学习最大化声音特征和同一发声对象的视觉嵌入之间的相似性[220],[221],[222]。这些方法在简单的单源场景中工作得很好,而在鸡尾酒会场景中使用多个发声源时很难处理。因此,Zhao等人[98],[100]将视听源分离目标与定位任务相结合,并采用混合分离框架来生成像素与分离音频信号之间的对应关系。不同的是,Hu等人[223]将图像和声音表述为图形,并采用循环一致的随机行走策略来分离和定位混合声音。上述方法只定位视频中的发声区域,而不考虑对象的语义。Hu等人[224]使用聚类方法建立类别表示对象字典,并在鸡尾酒会场景中进行类感知发声对象定位。考虑到上述方法通常只捕捉粗糙的物体轮廓,Zhou等人[225]发布了一个带有定位像素级注释的分割数据集。他们引入了视听分割任务,其目标是进行像素级声音定位。总体而言,视频方法中的声音定位为视觉上的声音区域奠定了基础,实现了精细的场景理解。

Audio-visual Saliency Detection视听显著性检测:显著性检测任务旨在模拟人类的注意力机制。在日常生活中,我们的注意力可以被显著的物体或事物吸引。最初,显著性检测任务仅将视觉信息作为输入,其目的是检测图像或视频中的吸引眼球的成分[226],[227]。尽管人类在很大程度上依赖视觉系统来感知周围环境,但其他感官,尤其是听觉,也会影响感知结果。要全面探索人类的注意力机制,需要将音频和视频相结合。视听显著性检测的早期研究通常使用传统手工技术分别检测音频和视觉显著性,然后融合单模态显著性图[228],[229],[230]。这些方法缺乏对模态间相关性的考虑。最近,出现了一系列基于深度的显著性检测方法[231]、[232]、[233]、[234]。Tavakoli等人[231]设计了一个双流框架,并使用了级联融合策略,这是一个相对基本的模型。此外,STA ViS模型[232]被提议在多个阶段组合视听信息。然而,对人眼注视标签的依赖阻碍了这一领域的发展,因为收集和注释大量视频非常费力。因此,Wang等人[235]设计了一种将视听语义类别标签转换为伪注视标签的策略。然后,他们以弱监督的方式训练显著性检测模型。总体而言,视听显著性检测是一个发展中的领域,预计将进行更深入的探索。

Audio-visual Navigation视听导航:除了在录制的视频中定位对象之外,在空间空间中定位和导航对人类来说是很自然的。在具体的人工智能领域,导航是一个至关重要的话题,视觉线索是主要的信息来源[236],[237]。然而,对于人类来说,听觉也可以为我们探索陌生环境提供有用的空间信息。因此,引入了视听导航任务,旨在在复杂的3D环境中搜索和定位目标探测目标[238]。Chen等人[238]采用了一种端到端多模态深度强化学习方法,通过一系列视听观察来探索导航策略。同时,Gan等人[239]根据捕捉到的空间记忆和观察到的视听信息,设计了一个动作序列生成计划器。为了进一步提高导航效率,Chen等人[240]建议在分层模型中设置一系列航路点,然后由规划员播放到每个航路点的路径。这些先前的工作假设发声目标不断产生稳定的重复声音。不同的是,Chen等人[241]引入了语义视听导航任务,即发声目标的声音与场景(例如,浴室滴水)在语义上一致。上述工作通常在具有单个静态目标的环境中导航。因此,研究人员试图通过移动和分散注意力的声音在更复杂的场景中导航[242],[243]。相对而言,Majumder等人[244]建议训练代理人,通过基于视听观察的四处移动来分离3D环境中的目标源。总的来说,现有的视听导航研究在简单的模拟3D环境中运行良好,但仍然是人类导航场景的子集,更真实的案例尚未解决。
在这里插入图片描述
图4.视听协作任务图解。除了视听表征学习之外,视听协作任务还包括视听定位、视听事件定位和解析以及视听问题解答和对话。这些任务关注视听场景中视听组件的感知或推理,协同利用视听模式来分离和理解场景。

5.3 Audio-visual Event Localization and Parsing视听事件定位和分析

在大多数视听任务中,如视听通信,假设整个视频中的音频和视频上下文是匹配的。但视频,尤其是无约束的视频,通常包含时间上无关的视听片段。例如,只有一些带有“打篮球”动作的视频片段对于这个动作既可以听到,也可以看到,因为摄像机可以在拍摄过程中移动到观众面前。因此,Tian等人[245]首先引入了视听事件定位任务,该任务旨在在时间上区分视频中的听觉和视觉事件。他们将此任务视为序列标记问题。开发了一种音频驱动的视觉注意机制来定位视觉中的发声对象,并设计了一种双模态残差网络来集成视听特征。随后,Lin等人[246]使用LSTM以顺序到顺序的方式解决事件定位,整合了全局和本地视听信息。出于捕获全局信息的类似目的,Wu等人[260]设计了双重注意力匹配模块,以对高级事件信息和局部时间信息进行建模。此外,还提出了其他注意机制来探索模式间和模式内的相关性[248],[261]。为了过滤训练期间不相关视听对的干扰,Zhou等人[249]提出了正样本传播方法,以选择具有正连接的视听对,而忽略负连接。进一步考虑噪声背景,Xia等人[262]设计了跨模态时间级和事件级背景抑制机制,以缓解视听不一致问题。

视听事件定位任务旨在突出视频的可听和可视片段。这种严格的限制很难在“野外”视频中很好地进行操作,其中音频和视频信息通常不对齐,例如屏幕外的情况。因此,引入了在时间维度上检测可听、可见和可听-可见事件的视听视频解析任务,以获得更精细的视听场景理解[247]。Tian等人[247]将视听解析公式化为以弱监督方式进行的多模态多实例学习。他们采用了混合注意力网络和多模态多实例学习池方法来聚合和利用多模态时间上下文,然后发现并减轻每个模态的噪声标签,Wu等人[251]通过与其他无关视频交换音频或视觉轨迹,分别预测每个模态的事件标签。该策略基于这样的假设,即如果单模态信号确实包含关于目标事件的信息。此外,Lin等人[250]提出利用视频中的事件语义信息以及事件类别之间的相关性来更好地区分和定位不同的事件。随后,在特征聚合或注意力模块[252],[263],提出了更多的视听解析方法,并进行了改进。总体而言,视听事件定位和解析任务在时间上对每种模态的视听事件进行地面处理,从而获得对视听场景的更精细的感知和理解。

5.4 Audio-visual Question Answering and Dialog视听问答和对话

视听问答和对话任务旨在对视听场景进行跨模态时空推理。单模态问答任务已经得到了充分的研究,但它们很难配备具有部分场景信息的更真实的推理能力。由于视觉和听觉是人类认知中的两种重要感官,因此最近出现了视听问答任务[257],[258]。Yun等人[257]提出了Pano-A VQA数据集,包含360◦ 视频和相应的问答对。Pano-A VQA数据集涵盖两种问答对:球形空间关系和视听关系,以更好地探索全景场景的理解。Li等人[258]提出了大规模MUSIC-a VQA数据集,以促进动态和长期视听场景下的时空推理。MUSIC-A VQA中的视听场景主要是音乐表演,这是一种典型的多模态场景,具有丰富的视听组件及其交互。为了实现有效的问题回答,他们首先在视觉上固定发声区域,然后利用注意力机制进行时空推理。
在这里插入图片描述
表3视听协作任务概述。

最近,另一个活跃领域是视听场景感知对话。它旨在训练能够使用自然的对话语言[253]、[254]、[259]、[264]与人类就时间变化的视听场景进行对话的主体。与问题回答相比,场景感知对话进一步考虑了对话的上下文。Alamri等人[253]首先收集了视听场景感知对话框数据集,其中每个样本都包含关于视频的场景感知对话框。他们提供了一个简单的基线,利用历史对话和视听输入对候选答案进行排名。Schwartz等人[255]采用了端到端训练策略。他们使用多模态注意力机制来捕捉跨模态交互,然后使用LSTM模块来生成答案。为了有效地表示并推断多个模态,耿等人[256]提出了一个时空场景图来捕捉关键的视听线索,然后使用基于顺序变换器的机制来突出问题感知表示以生成答案。总的来说,上述问答和对话任务试图基于分离的视听场景,探索事件在空间和时间上的视听相关性。这是一个有希望的方向,可以更好地模拟人类的场景理解能力。

5.5讨论

表3总结了视听协作任务的动机和目的。视听增强和跨模式感知任务旨在融合或预测一致的视听信息。不同的是,视听协作任务侧重于视听组件的感知或视听场景中的推理。视听定位任务构建跨模态关联以突出声音成分,实现视听场景在空间上的解耦。之后,事件定位和解析任务的研究在时间上划分了音频事件或视觉事件。接下来,问题回答和对话任务尝试以视听场景为目标,分析跨模态时空交互。这些任务逐渐解耦并理解场景,这些场景正处于快速发展阶段,并获得越来越多的关注。

六、数据集

近年来,移动终端的快速发展以及视频共享平台的蓬勃发展,使得以低成本收集海量视频形式的视听数据变得容易。在表4中,我们列出了不同任务的视听学习中的一些代表性基准数据集。特别是,还总结了这些数据集的一些属性。根据表,我们可以得出以下结论:

首先,最新视听数据集的视频是从公共视频共享平台(如YouTube)收集的,这些平台从受控环境演变而来,更接近真实场景。随着互联网的发展,一方面,越来越多的媒体以视频形式制作更多的节目,如TED,另一方面,人们越来越倾向于在公共平台上分享他们录制的视频,从而方便地获取数据集。例如,大规模语音数据集LRW[265]、LRS2[29]和LRS3[266]由BBC新闻和TED视频组成。Kinetics-400/600/700数据集[52]、[270]、[280]来自用户上传的YouTube视频。未来,视听数据集有望涵盖更多现实场景,更多案例,如长尾和开放集问题,应进一步考虑。

其次,最近视听研究的范围已经从传统的视频扩展到多种视听数据形式,例如360◦ 视频和3D环境。尽管这些新的数据形式为探索视听互动提供了更多的机会,但其规模仍然有限。这是因为对特殊设备的要求使得它们在日常生活中不易接近。例如,用于空间声音生成任务的FAIR Play[140]数据集仅包含1871个视频。预计将采用更经济的方式获取这些数据。最近,3D仿真环境提供了一个可能的方向,这已在具体的AI中得到利用,例如用于视听导航的SoundSpace[238]。

第三,视听数据集的标签跨越视频级(例如,AudioSet[275])、帧级(例如A V AActiveSpeaker[269])、事件级(例如LLP[247])和QA级(例如MUSIC-A VQA[258]),因为视听场景的探索是逐渐精细的。然而,劳动密集型标签给数据集的创建带来了障碍,限制了模型的学习。因此,用于细粒度场景理解任务(例如,视听解析)的方法倾向于以半监督或无监督的方式进行训练。在标签技术和未来学习模式方面,必须共同努力应对这一挑战。

总的来说,这些数据集为视听学习提供了基础,但仍有一些不足之处,现有数据集难以满足。首先,语义和时空一致性在视听学习中得到了广泛应用。然而,对模型和任务的一致性影响缺乏高质量的基准来评估。其次,基于一种模态的信息收集现有的大规模数据集(例如,VGGSound[274]是基于听觉的,而Kinetics[270]是基于视觉的)。AVE[247]和LLP[247]数据集同时考虑了音频和视觉模态,但规模有限。因此,大规模的视听感知数据集有望用于场景理解的探索。最后,尽管许多现有数据集包含“野外”数据,但它们在特定场景中受到限制。例如,对象声音分离任务主要关注特定类型的视频,如音乐场景。未来需要更多类型的现实场景来研究具有更好泛化能力的模型。
在这里插入图片描述
表4视听学习中的一些代表性数据集。

七、趋势和新视角

在本节中,我们首先讨论了视听模式之间的多重一致性,然后基于现有的视听任务提供了一个关于场景理解阶段的新视角。

7.1语义、空间和时间一致性

尽管视听模式具有不同的数据形式,但其内在一致性跨越了语义、空间和时间,为视听学习研究奠定了基础。首先,音频和视频信号从不同的角度描述感兴趣的事物。因此,视听数据的语义被认为是一致的。在视听学习中,语义一致性在大多数任务中起着重要作用。例如,这种一致性使得可以组合视听信息以获得更好的视听识别和单模态增强性能。此外,视听模态之间的语义相似性在跨模态检索和迁移学习中也起着至关重要的作用。其次,音频和视频都可以帮助确定发声对象的准确空间位置。这种空间对应也具有广泛的应用。例如,在声音定位任务中,该空间一致性被用于在输入音频的引导下使声音分量在视觉上接地。在立体声情况下,使用空间一致性来估计双耳音频的深度信息或使用视觉信息生成空间声音。第三,视觉对象及其产生的声音通常在时间上是一致的。这种一致性在大多数视听学习研究中也被广泛使用,例如在视听识别或生成任务中融合或预测多模态信息。

在实践中,这些一致性不是孤立的,而是经常在视听场景中共同出现。因此,它们往往被联合用于相关任务。特别是,时间和语义一致性的组合是最常见的情况。在简单的场景中,视频的时间和语义一致性被认为是同时存在的。例如,同一时间戳的视听片段被认为在时间和语义上都是一致的。然而,这种强烈的假设可能是失败的,比如屏幕外声音的“野外”视频非常丰富。这些假阳性配对在训练中会带来噪音。最近,研究人员开始关注音频和视觉信息之间的这些不一致情况,以提高场景理解质量[206]。此外,语义和空间一致性的组合也很常见。例如,视频中声音定位的成功依赖于语义一致性,这有助于基于输入声音探索视觉中的空间位置。此外,在视听导航任务的早期阶段,发声目标产生稳定的重复声音。尽管满足了空间一致性,但音频和视频中的语义内容是不相关的。随后,引入产生的声音和位置的语义一致性,以提高视听导航质量。

总体而言,视听模式的语义、空间和时间一致性足以支持视听学习研究。对这些一致性的有效分析和利用提高了现有视听任务的性能,有助于更好地理解视听场景。

7.2场景理解的新视角

在本文中,我们总结了视听模态的认知基础,并提供了几种人类的多感官整合现象,在此基础上,将当前的视听研究分为三类:视听增强、跨模态感知和视听协作。为了从更宏观的角度重新审视视听学习领域的当前发展,我们进一步提出了视听场景理解的新视角,如图5所示:
在这里插入图片描述
图5.视听场景理解阶段的新视角图解。

1) Basic scene understandin 基本场景理解:视听增强和跨模态感知的任务通常集中于融合或预测一致的视听信息。这些任务的核心是对视听场景的一般理解(例如,对输入视频的动作类别进行分类)或基于并发的跨模态信息进行预测(例如,基于无声视频预测语音音频)。然而,自然场景中的视频通常包含音频和视觉模态的各种组件,这可能超出了这些基本场景理解任务的范围。

2) Fine-grained scene understanding细粒度场景理解:如上所述,视听场景通常具有各种模态成分。因此,提出了几个任务来进一步巩固目标。例如,视频中的声音定位任务突出视觉中的目标声音对象,而视听事件定位和解析任务在时间上划分感兴趣的听觉或视觉事件。这些任务使视听组件接地并使场景分离,从而与上一阶段相比保持了精细的理解。

3) Causal scene understanding 因果场景理解:在视听场景中,人类不仅可以感知周围感兴趣的事物,还可以推断它们之间的互动。这一阶段的目标更接近于人类感知的追求。目前,只有很少的任务达到这一阶段。视听问答和对话任务具有代表性。这些任务试图探索视频中视听成分的相关性,并进行时空推理,以实现更好的视听场景理解。

总体而言,目前对这三个阶段的探索相当不平衡。从基本的场景理解到随意的场景理解,相关的研究变得不够多样,而且还处于初级阶段。这表明了视听领域的几个有前途的未来方向:

任务集成以更好地理解场景:视听领域的大多数研究都是以任务为导向的。这些单独的任务仅模拟和学习场景的特定方面。然而,视听场景的感知并非孤立的。例如,视频中的声音定位任务强调视觉中的声音相关对象,而事件定位和解析任务则将目标事件置于时间上。这两项任务有望被集成,以促进对视听场景的精细理解。因此,多个视听学习任务的整合在未来值得探索。

更深入的因果场景理解:目前,休闲场景理解研究的多样性仍然有限。现有的任务,包括视听问题解答和对话,主要集中在基于视频中捕捉到的事件进行对话。预计将探索更深入的休闲类型,例如基于预览场景预测以下音频或视频事件。

八、结论

本文对当前视听学习领域的研究进行了系统的回顾和分析。这一领域的最新进展可分为三个主题:视听促进、跨模式感知和视听协作。为了从宏观角度重新审视当前视听学习领域的进展,还提供了视听场景理解的新视角。我们希望这项调查能够帮助研究人员全面认识视听学习领域。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值