《VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset》中文校对版

本文链接：https://blog.csdn.net/buyaotutou/article/details/143871374

文章汉化系列目录

摘要

这篇论文提出了一种面向多模态理解和生成的视觉-音频-语言全感知预训练模型（VALOR）。与广泛研究的视觉-语言预训练模型不同，VALOR在端到端的方式下共同建模视觉、音频和语言之间的关系。它包含三个独立的编码器，用于单一模态表示，并且有一个解码器用于多模态条件文本生成。我们设计了两个预训练任务来预训练VALOR模型，包括多模态分组对齐（MGA）和多模态分组字幕（MGC）。MGA将视觉、语言和音频投影到相同的共同空间，同时构建视觉-语言、音频-语言和视听-语言对齐。MGC学习在视觉、音频或两者条件下生成文本标记。为了推动视觉-音频-语言预训练研究，我们构建了一个名为VALOR-1M的大规模高质量三模态数据集，包含100万带有人工标注视听字幕的可听视频。大量实验表明，VALOR能够学习强大的多模态关联，并能够推广到各种下游任务（例如检索、字幕生成和问答），并能处理不同的输入模态（如视觉-语言、音频-语言和视听-语言）。VALOR在一系列公共跨模态基准上达到了新的最先进性能。代码和数据可在项目页面（https://casia-iva-group.github.io/projects/VALOR）获得。

引言

作为人类，我们通过多种媒介（例如视觉、阅读、听觉、触觉或嗅觉）感知来自环境的信息，并在此基础上理解或与世界互动。理想的智能系统也应该模仿这一过程，发展跨模态的理解和生成能力。各种跨模态应用已经得到了广泛研究，其中视觉-语言任务占据了主要部分，包括文本到视觉的检索[1]，[2]，视觉字幕生成[3]，[4]，[5]和视觉问答[6]，[7]。幸运的是，受到自然语言处理领域自监督预训练方法成功的启发[8]，[9]，[10]，视觉-语言预训练迅速发展，并在各种视觉-语言基准测试中相对于传统方法取得了主导性能。
然而，我们认为，单纯建模视觉和语言之间的关系远不足以构建一个强大的多模态系统，额外引入音频模态以建立三模态的交互关系是必要的。一方面，音频信号通常包含与视觉互补的语义信息，因此利用三种模态可以帮助机器更全面和准确地理解周围环境。如图1所示，我们可以仅通过观察视频帧来了解房间内发生的事情，但如果没有听到警车的警笛声，我们则无法感知到外面发生的事情。另一方面，在统一的端到端框架中建模三种模态，可以增强模型的泛化能力，且有助于多种视觉-语言、音频-语言、视听-语言以及视觉-音频下游任务。
因此，如图1所示，我们提出了一种视觉-音频-语言全感知预训练模型（VALOR），旨在建立三种模态之间的普适联系，并实现三模态的理解和生成。如图5所示，VALOR使用三个单模态编码器分别对视觉、音频和语言进行编码，并使用一个多模态解码器进行条件文本生成。设计了两个预训练任务，即多模态分组对齐（MGA）和多模态分组字幕生成（MGC），使VALOR能够同时处理判别性和生成性任务。具体来说，MGA将三种模态投影到相同的共同空间，并通过对比学习在视觉-语言、音频-语言和视听-语言三种模态组之间建立细粒度的对齐。MGC要求模型根据视觉、音频或两者条件，通过跨注意力层重建随机遮蔽的文本标记。得益于模态分组策略，VALOR可以学习如何根据不同的模态组合对齐或生成文本，这些能力可以转移到各种跨模态下游任务，包括视频/音频/视听检索、字幕生成或问答。

在这里插入图片描述

图1：VALOR采用相关的视觉-音频-语言数据进行预训练，并能够推广到多个任务。AVR/VR/AR代表文本到视听/视觉/音频的检索，AVC/VC/AC代表视听/视觉/音频的字幕生成，AVQA/VQA/AQA代表视听/视觉/音频的问答，分别如此。点击按钮播放音频。

此外，我们认为，强相关的视觉-音频-语言三元组对于训练强大的三模态模型是必不可少的。目前的公共视觉-语言数据集无法进行三模态预训练，因为：i) 所有图像-语言数据集以及一些视频-语言数据集（如WebVid-2.5M [13]）都不包含音频信号；ii) 即使一些视频-语言数据集（如HowTo100M [11] 和 HD VILA 100M [12]）包含音频模态，它们的音频仅限于人类语音且缺乏多样性，且其文本为自动语音识别（ASR）转录内容，而非客观描述，这些文本与语音内容重复。为了解决上述限制，我们构建了一个大规模高质量的视觉-音频-语言数据集（VALOR-1M），以促进三模态预训练研究。该数据集包含一百万个开放域可听视频，每个视频都被人工标注了一个视听字幕，同时描述了音频和视觉内容。VALOR-1M的强视觉-语言和音频-语言关联性，以及其大规模特点，使其成为三模态预训练的最佳选择。除了VALOR-1M，我们还建立了一个新的基准数据集VALOR-32K，用于评估视听-语言能力。它包含两个新任务，包括视听检索（AVR）和视听字幕生成（AVC）。

我们进行了广泛的消融研究，以证明所提VALOR模型和模态分组策略的有效性。定量和定性结果都证明VALOR能够有效地利用视听线索进行AVR和AVC任务。我们在一系列公共的视频-语言、图像-语言和音频-语言基准测试中对VALOR进行了广泛验证，并在多个测试中取得了新的最先进结果。具体而言，如图2所示，VALOR在文本到视频检索基准（包括MSRVTT、DiDeMo、ActivityNet、LSMDC和VATEX）上，超越了之前的最先进方法，分别提高了3.8%、6.2%、12.7%、0.6%、10.4%（R@1）；在开放式视频问答基准（包括MSRVTT-QA、MSVD-QA、TGIF-FrameQA和ActivityNet-QA）上，分别提高了3.8%、3.4%、5.1%、12.5%（Acc）；在文本到音频检索基准（包括ClothoV1和AudioCaps）上，分别提高了38.9%、13.0%（R@1）。此外，VALOR在VATEX字幕生成基准上超越了GIT2大模型[14]，仅使用了0.26%的训练数据和11.6%的参数。

在这里插入图片描述

图2：与其他定制或基础模型相比，VALOR在广泛的任务上取得了最先进的性能。VR、VC、VQA分别代表文本到视频检索、视频字幕生成和视频问答。

总体而言，本工作的贡献可以总结如下：I) 我们提出了一种全感知预训练模型（VALOR），它建立了视觉、音频和语言之间的关联，实现了三模态的理解和生成。II) 我们引入了MGA和MGC预训练任务，并采用模态分组策略，以增强模型在不同模态输入下的泛化能力。III) 我们提出了VALOR-1M数据集，这是第一个大规模人工标注的三模态数据集，旨在推动视觉-音频-语言研究，并建立了VALOR-32K基准，用于评估视听-语言能力。IV) 在VALOR-1M和当前公共视觉-语言数据集上预训练后，VALOR在一系列跨模态基准测试中取得了新的最先进性能，并显著提高了各项指标。

2 相关工作

在本节中，我们首先介绍用于多模态预训练的常见跨模态数据集。随后，我们回顾视觉-语言预训练方法。最后，我们介绍了一些典型的方法，它们利用视觉和文本之外的更多模态进行视频-语言学习。

2.1 多模态预训练的跨模态数据集

通常，一个理想的视觉-语言预训练数据集应该满足两个基本需求：足够大的规模和强的视觉-文本关联性。考虑到句子级的字幕注释比单词级的标签标注更为资源消耗，一些方法尝试收集包含人类语音的视频，并提取自动语音识别（ASR）转录文本作为字幕。例如，Miech等人收集了HowTo100M [11]，该数据集包含来自122万个讲解型YouTube视频的1.36亿个视频片段，已成为早期视频-语言预训练方法使用的主流数据集。Zellers等人遵循了这一方法，提出了YT-Temporal180M [15]，该数据集包含来自600万个YouTube视频的1.8亿个片段。Xue等人收集了HD VILA 100M [12]，该数据集包含来自330万个YouTube视频的1亿个片段，具有更多的多样性和更大的图像分辨率。然而，尽管这种方法可以友好地扩展以获得大量的视频-文本对，但字幕的质量并不理想。除了可能的语音识别错误，ASR转录通常传达的是说话者的主观看法和意见，而非静态物体和发生事件的客观描述。即便一些转录文本确实反映了视觉内容，它们也可能存在时间上的错位问题，即它们可能对应于视频片段的前后部分[16]。

为了克服这个问题并兼顾数量和质量，Bain等人遵循了图像-语言Conceptual Captions数据集（CC3M [17]，CC12M [18]）的收集程序，收集了WebVid [13]，该数据集包含250万个视频，并配有alt-texts（替代文本）。尽管有时这些alt-texts不流畅且不完整，但总体来说，它们与视频内容的关联性比ASR转录更强，并且已被最新的视频-语言预训练方法广泛使用。然而，以上提到的任何数据集都不支持视觉-音频-语言预训练，因为缺少音频-语言的关联性，这也促使我们收集了VALOR-1M数据集，以推动三模态预训练的发展。

2.2 视觉-语言预训练

受到BERT [8] 成功的启发，视觉-语言预训练得到了快速发展，我们总结了几个主要的研究方向如下：

I) 跨模态预训练框架设计。根据不同的网络架构，视觉-语言模型主要可以分为双编码器范式 [19]、[20] 和融合编码器范式 [21]、[22]。前者通过简单的点积在编码器的输出处轻度融合视觉和语言，能够高效用于跨模态检索和零-shot分类。后者使用共同注意力 [22] 或合并注意力 [21] 深度融合两种模态，适合更细粒度的任务，如图像描述或视觉问答（VQA）。此外，已经提出了各种自监督预训练任务，以更好地进行跨模态特征表示学习，包括掩码语言建模（MLM） [21]，掩码视觉建模（MVM） [21]、[23]，视觉-文本匹配（VTM） [21]、[24]，视觉-文本对比学习（VTC） [13]、[25] 等。关于视觉表示，早期的方法分别使用离线物体检测器（例如 Faster-RCNN [26]）提取物体级图像特征，或者使用3D卷积神经网络（例如 S3D [19]）提取片段级视频特征。随着视觉转换器 [27]、[28] 的出现，图像-语言和视频-语言可以通过给模型输入图像或稀疏采样的帧来统一。

II) 统一多任务建模。这一系列工作尝试通过一个统一框架通用建模不同任务，去除任务特定的微调头，从而更高效地利用预训练数据。VL-T5 [29] 首次使用序列到序列框架来建模视觉-语言任务，如视觉问答（VQA）和视觉定位。随后，更细粒度的定位任务，如物体检测和文本到图像生成，也通过框坐标标记 [33] 或图像标记 [34] 被集成进来 [30]、[31]、[32]。除了序列到序列框架，一些工作还通过对比学习 [35] 或掩码语言建模 [36] 来统一多个视觉-语言任务。然而，尽管上述方法统一了多个任务，但它们仅限于视觉-语言领域。相比之下，VALOR可以扩展到视觉-音频-语言领域，并适用于部分感知和全感知任务。

III) 视觉-语言基础模型。用极大量数据和参数训练的视觉-语言模型通常被称为大模型或基础模型，且通常通过对比学习 [37]、[38]、[39]、[40]、语言建模 [14]、[41]、[42]、[43] 或两者结合 [44] 进行监督。基础模型在视觉-语言基准测试上取得了卓越的表现。例如，Flamingo [42] 将模型规模增加到80.2B参数，在VQAv2数据集上得到了84.0的准确率，而GIT2 [14] 将数据规模增大到12.9B的图像-文本对，并在COCO描述基准上取得了149.8的CIDEr得分。然而，由于对计算资源、数据存储和复杂分布式训练的高要求，从参数和数据维度扩展视觉-语言预训练模型的效率有限。相比之下，我们认为VALOR可以看作是从模态维度进行扩展，通过引入音频并构建三模态连接，这种方法更有效且更高效。

2.3 辅助模态增强的视频-语言理解

考虑到视频本身是多模态的媒介，每种模态都包含丰富的语义信息，一些方法利用更多的模态来增强视频-语言学习。MMT [45] 提出了一个多模态变换器，通过融合七个模态专家来进行文本到视频的检索。SMPFF [46] 进一步引入了目标和音频特征，以改进视频描述。在大规模预训练场景中，音频和字幕是最常用的辅助模态，用于强化视频表示。UniVL [47]、VLM [48] 和 MV-GPT [19] 融合了视频和字幕模态，并在HowTo100M数据集上进行视频描述的预训练。VALUE [49] 进一步在更多任务上利用字幕增强，包括视频检索和问答（QA）。关于音频增强，AVLNet [50] 和 MCN [51] 使用音频来增强文本到视频的检索。VATT [52] 提出了一个层次化的对比损失，用于文本-视频和视频-音频的对齐，但其目标是学习单一模态的表示，而不是提高跨模态能力。MERLOT Reserve [15] 和 i-Code [53] 也将视觉、音频和语言作为输入进行预训练，但与VALOR有本质区别：i) 这些方法在预训练和微调过程中存在严重的不一致性。具体来说，在预训练阶段，音频-语言关系是人类语音和ASR转录，而在微调阶段则是普通音频和客观描述。相比之下，VALOR在强相关的三模态数据集上进行训练，并保持预训练-微调一致性，这使得它能够推广到视频-语言、音频-语言和视听-语言任务。ii) 这些方法仅针对判别任务，如视频问答（QA），而VALOR则更为通用。

3. VALOR 数据集用于视听语言预训练

正如第2.1节所解释的那样，视频-语言数据集的字幕是ASR转录或alt-text时，并不是进行视听语言预训练的最佳选择，因为缺乏文本句子和音频概念之间的明确对应关系。为了解决这个问题，我们提出了一个视听语言相关数据集VALOR，用于三模态模型的预训练和基准测试，通过注释公共视听数据来实现。在以下小节中，我们将详细阐述数据收集、注释和基准测试过程，并分析VALOR数据集的特点。

3.1 视听数据收集

理想情况下，视听语言数据集中的视频应包含视觉和音频轨道，并且具有高质量和多样性。为此，我们选择了来自 AudioSet [66] 的视频，这是一种为音频事件识别收集的大规模数据集。具体来说，AudioSet 包含超过 200 万个 10 秒的视频片段，这些片段来自 YouTube 视频，每个视频都根据层次本体标注了 527 个音频类别。它被分为 200 万不平衡训练集、2.2 万平衡训练集和 2 万评估集。在平衡的训练和评估集中的每个音频类别有相似数量的视频，而不平衡训练集中的类别分布没有限制。我们下载了仍然可以访问的 AudioSet 视频，过滤掉低质量或损坏的视频，最终获得了约 100 万个视频。根据音频类别分布，我们将数据集分为 VALOR-1M 作为三模态预训练数据集，和 VALOR-32K 作为视听语言下游基准数据集。具体而言，VALOR-1M 中的视频来源于 AudioSet 的不平衡训练集，而 VALOR-32K 中的视频来源于 AudioSet 的平衡训练集和评估集。如图 4 所示，与 VALOR-1M 相比，VALOR-32K 具有更平衡的音频类别分布。

在这里插入图片描述

3.2 视听字幕标注

我们采用付费标注方式为 VALOR 数据集获取视听描述。考虑到这一标注任务相较于传统的视频描述标注更加新颖和复杂，我们设计了一个三步互动标注流程。第一步，标注员培训。我们为 500 名标注员进行在线培训，强调描述中应全面反映重要成分，如主要对象、活动、场景、物体和声音。我们提供了一些视频-视听字幕对，帮助标注员提前熟悉标注格式。我们还提供了一个字典，将视频ID与其对应的 AudioSet 标签进行映射，并鼓励标注员在进行视听描述标注前，首先查询这些标签作为参考。第二步，第一阶段标注。在此阶段，我们提供 VALOR-32K 中的视频给标注员。我们手动检查标注的描述，并反馈常见问题和对应的视频ID。然后，要求标注员重新标注这些不满意的示例，以加深对标注要求的理解。第三步，第二阶段标注。在此阶段，标注员为 VALOR-1M 中的视频撰写视听描述。每个描述需要经过三名标注员的进一步检查，以确保标注质量。如果有超过一名标注员认为标注不满意，则需要重新标注。整个标注和检查过程大约花费了 2 个月的时间。

3.3 VALOR-32K 基准

考虑到目前已建立的视听语言基准仅针对问答任务 (AVQA) [63]，[64]，[65]，我们建立了 VALOR-32K 基准，以扩展评估任务领域，该基准包括视听检索 (AVR) 和视听字幕生成 (AVC) 两个任务。如图 8 所示，AVC 任务要求模型为可听的视频生成视听字幕，而在 AVR 任务中，模型需要根据给定的视听字幕查询检索出最匹配的视频候选项。由于引入了音频模态，AVR 和 AVC 任务比现有的文本到视频检索和视频字幕生成任务更具挑战性。VALOR-32K 数据集被划分为 25K、3.5K 和 3.5K 个视频用于训练、验证和测试。AVR 和 AVC 任务评估均使用视频检索和视频字幕生成的相同评估指标。

3.4 VALOR 数据集的特点

VALOR 数据集是首个大规模视听语言强相关数据集，其最大的亮点在于丰富的音频概念和视听字幕。在本小节中，我们将对 VALOR 数据集与公共视频语言数据集进行定量和定性比较。

定量比较。 为了评估不同数据集中音频概念在字幕中的丰富度，我们定义了一个名为音频概念密度（ACD）的度量标准。我们根据 [66] 提出的 632 个音频类别本体建立了音频概念集。具体来说，如果一个类别包含多个相似的概念并且用逗号分隔，我们将其拆分，并将所有词转换为小写，去除标点符号。最终，我们得到了 759 个音频概念。对于每个字幕，我们通过去除标点符号并转换为小写来预处理，然后检测每个音频概念的存在。遍历整个数据集后，可以计算出 ACD 度量公式如下：

$\frac{N_{AC}}{N_W}$

其中， $N_{AC}$ 是检测到的音频概念总数， $N_{W}$ 是总词数。如表 1 所示，VALOR 数据集的 ACD 度量值远大于其他视频语言数据集。此外，VALOR-1M 和 VALOR-32K 的平均字幕长度分别为 16.4 和 19.8，远长于其他数据集（如 WebVid-2.5M 为 14.2，CC3M 为 10.3），这得益于额外的与音频相关的描述和高质量的标注。

在这里插入图片描述

表1：常见公共视频-语言预训练数据集和下游基准数据集的统计信息

Audio：数据集中是否包含音频。
V-L：视觉-语言相关性。
A-L：音频-语言相关性。
#Example：视频/音频/图像的数量。
#Clips：视频片段或音频片段的数量。
LenCap：平均字幕长度。
ACD：音频概念密度。

定性比较。 我们将 VALOR-1M 与基于 ASR 转录字幕的数据集（如 HowTo100M 和 HD VILA 100M）以及基于 alt-text 字幕的数据集（如 WebVid-2.5M）进行比较。如图 3 所示，HowTo100M 数据集的字幕是不完整的句子，甚至人类也无法理解，更不用说进行视听语言关联了。HD VILA 100M 中的字幕更加完整，但视听语言的关联仍然较弱。具体来说，字幕是从两个人讨论度假推荐的对话中转录出来的，但重要的视觉概念，如蓝天、木牌和树木，完全没有在字幕中体现。WebVid-2.5M 中的字幕与视觉的关联较强，涵盖了更多的视觉概念，但它们包含的音频概念较少，或者缺乏对音频信号的直接描述。相比之下，VALOR 的注释同时关注视觉和音频线索，正如在示例中提到的视觉概念（如黑狗和沙发）以及音频概念（如警车警报）所体现的那样。
在这里插入图片描述

4 VALOR 模型

我们期望 VALOR 模型能够满足以下需求：

端到端训练：它可以进行完全的端到端训练，避免预先提取视觉或音频特征，使得单一模态编码器能够一起调整，学习适应于视觉-音频-语言交互的表示。
跨模态对齐、判别性和生成能力：应当学习跨模态对齐、判别性和生成能力，以提高 VALOR 在更广泛的跨模态任务中的适应能力。
通用化的跨模态能力：考虑到不同模态在不同下游领域的使用，VALOR 应该学习更为通用的跨模态能力，而不是局限于特定的模态组。

为此，我们在模型架构和预训练任务方面做出了专门的设计，这些内容将在以下小节中详细阐述。

4.1 模型架构

如图 5 所示，VALOR 由文本编码器、视觉编码器、音频编码器和多模态解码器组成。该架构将单模态表示学习分配给单独的编码器，这些编码器的参数可以继承自预训练模型，从而加速收敛并提高性能。

在这里插入图片描述

图 5：VALOR整体预训练框架的示意图。VALOR使用三个独立的编码器来实现单模态表示，并使用一个与文本编码器部分共享参数的多模态解码器进行文本生成。基于模态分组策略的MGA和MGC任务用于提高VALOR对不同任务和模态的泛化能力。

文本编码器。使用 BERT [8] 模型作为文本编码器。原始句子首先通过 BERT 的分词器进行分词，词汇表大小为 30522。输入是词嵌入和位置嵌入的和。输出的文本特征为 $F_t \in \mathbb{R}^{N_t \times C_t}$ ，其中 $N_t$ 和 $C_t$ 分别是预定义的最大标记长度和隐藏层大小。

视觉编码器。我们尝试了两种视觉编码器，包括 CLIP [37] 和 VideoSwin Transformer [67]。这两种模型都可以将图像或视频信号作为输入。对于视频输入，我们从视频剪辑中稀疏地采样 $N_v$ 帧，并使用补丁嵌入层对补丁进行编码。输出特征为 $F_v \in \mathbb{R}^{N_v \times S_v \times C_v}$ ，其中 $S_v$ 是序列长度， $C_v$ 是隐藏层大小。帧独立地通过 CLIP 编码器传递，而在 VideoSwin Transformer 中，通过时间窗口注意力机制进行交互。对于图像输入， $N_v$ 等于 1。

音频编码器。使用在 AudioSet 上预训练的音频频谱变换器（AST）[68][69] 作为音频编码器。给定一个音频波形，我们将其分割成多个 5 秒长的音频片段，并随机选择 $N_a$ 个片段作为输入。音频片段被转换为 64 维的对数 Mel 滤波器组特征，这些特征通过 25 毫秒的 Hamming 窗口每 10 毫秒计算一次。这样每个片段会得到一个 64 × 512 的频谱图。之后，频谱图被分割成补丁，经过补丁嵌入层并输入到音频编码器中。输出特征为 $F_a \in \mathbb{R}^{N_a \times S_a \times C_a}$ ，其中 $S_a$ 是序列长度， $C_a$ 是隐藏层大小。

多模态解码器。我们使用预训练的 BERT 作为多模态解码器。在每个 Transformer 块中，文本特征与条件特征（可以是输出的视频特征、音频特征或它们的拼接）之间加入了一个交叉注意力层。该层的参数是随机初始化的。除交叉注意力层外，多模态解码器与文本编码器共享参数。

4.2 视觉-音频-语言跨模态学习

我们提出了多模态分组对齐（MGA）和多模态分组标注（MGC）任务，以进行统一的视觉-音频-语言学习。它们分别通过对比学习和因果掩蔽语言建模实现，基于模态分组策略。我们主要考虑三种模态分组，包括文本-视觉组（T-V）、文本-音频组（T-A）和文本-视听组（T-AV），分别对应三种主流的下游任务（视觉-语言、音频-语言和视听-语言任务）。这种策略是必要的，想象一下如果在预训练过程中只学习一个模态组（T-AV），那么在视觉-语言和音频-语言任务上的表现将受到限制，因为预训练和微调之间的模态不一致性。

多模态分组对齐（MGA）。我们通过对比学习在文本和模态 X 之间建立细粒度对齐，其中 X 代表不同的模态，包括视觉（V）、音频（A）和视听（AV）。如果文本和模态 X 匹配，则视为正样本，否则视为负样本。我们通过双向对比损失来计算批次中的损失，以将正样本拉近，并将负样本推远，公式如下：

$L_{MGA(T-X)} = -\frac{1}{2} \sum_{i=1}^{B} \log \frac{\exp(s(T_i, X_i) / \tau)}{\sum_{j=1}^{B} \exp(s(T_i, X_j) / \tau)} - \frac{1}{2} \sum_{i=1}^{B} \log \frac{\exp(s(T_i, X_i) / \tau)}{\sum_{j=1}^{B} \exp(s(T_j, X_i) / \tau)}$

其中， $s(\cdot, \cdot)$ 表示相似度函数， $\tau$ 为温度参数， $B$ 为批次大小。

对于相似度计算 $s(\cdot, \cdot)$ ，我们并不直接对齐文本和模态 $X$ 的全局表示，而是建立每个文本标记与每个视频帧或音频片段之间的细粒度关联。具体来说，我们首先通过全局平均池化或使用 [CLS] 标记特征来提取每个视频帧和音频片段的全局表示，然后通过三个线性投影层将三模态特征投射到相同的标准化语义空间。标准化后的特征分别表示为 $e_t \in \mathbb{R}^{N_t \times C}$ 、 $e_v \in \mathbb{R}^{N_v \times C}$ 和 $e_a \in \mathbb{R}^{N_a \times C}$ ，其中 $C$ 是通用的隐藏层大小。视听特征 $e_{av} \in \mathbb{R}^{(N_v + N_a) \times C}$ 是 $e_v$ 和 $e_a$ 的拼接。然后，通过计算 $e_t$ 和 $e_x$ （其中 $e_x \in \{e_v, e_a, e_{av}\}$ ）的点积，得到细粒度相似度矩阵 $S_{TX} \in \mathbb{R}^{N_t \times N_x}$ ，其中整体相似度是双向得分的总和，每个得分通过在一个矩阵维度上最大化 $S_{TX}$ 来计算，然后沿另一个维度取平均值。考虑到不同的文本标记、视觉帧或音频片段并不具有相同的信息量，我们使用可学习的加权平均而非等加权平均。权重是通过将每个模态特征 $e_t$ 、 $e_v$ 和 $e_a$ 输入到独立的线性层中，并通过 softmax 函数进行归一化得到的。上述过程可以公式化为：

$\frac{1}{2} \sum_{i=1}^{N_t} f_{t, \theta}^{i}(e_t) \cdot \max_{j=1}^{N_x} (e_t^i)^T e_x^j + \frac{1}{2} \sum_{j=1}^{N_x} f^j_{x ,\theta}, (e_x) \cdot \max_{i=1}^{N_t} (e^j_{av})^T e_t^i \tag{3}$

其中， $f_\theta$ 表示带有权重 $\in \mathbb{R}^{C \times 1}$ 的线性层。总的 MGA 损失是三个分组对齐损失的平均值：

$L_{MGA} = \frac{1}{3} \left( L_{MGA(T-AV)} + L_{MGA(T-V)} + L_{MGA(T-A)} \right)$

多模态分组标注（MGC） 此任务使用因果掩蔽语言建模。具体来说，多模态解码器的输入文本标记会以60%的概率被随机替换为[MASK]标记，然后将它们的输出特征传递到多层感知机（MLP）层，以重建原始标记。在多模态解码器的自注意力层中，使用因果注意力掩码来防止信息泄露，并保持与自回归推理过程的一致性。文本、视觉和音频特征通过跨注意力层进行融合。

在融合之前，我们首先通过在时间维度上展平（flatten）来将音频特征 $F_a$ 和视觉特征 $F_v$ 重塑为二维，然后通过线性层将它们转换为相同的隐藏层大小，得到 $F_a' \in \mathbb{R}^{n_v \times C'}$ 和 $F_v' \in \mathbb{R}^{n_a \times C'}$ ，其中 $n_v = N_v \times S_v$ ， $n_a = N_a \times S_a$ ， $C^{'}$ 等于多模态解码器的隐藏层大小。融合后的音视频特征 $F_{av} \in \mathbb{R}^{(n_v + n_a) \times C'}$ 是通过沿序列维度连接它们得到的。

在给定模态 $X$ 的条件下，MGC损失可以表示为：

$L_{MGC}(T-X) = - \mathbb{E}_{(T, X) \in D} \log P(T_m | T_{<m}, F_x)$

其中， $D$ 、 $T_m$ 和 $T_{<m}$ 分别表示训练批次、被掩蔽的标记和当前掩蔽标记之前的标记， $F_x \in \{F_v', F_a', F_{av}\}$ 是对应模态的特征。

总的MGC损失是三种分组标注损失的平均值：

$L_{MGC} = \frac{1}{3} \left( L_{MGC(T-AV)} + L_{MGC(T-V)} + L_{MGC(T-A)} \right)$

在每个训练步骤中，MGA和MGC任务会同时优化，且有一个可调的超参数 $\alpha$ 来控制两者的任务比例。因此，整体的训练损失可以表示为：

$\alpha L_{MGA} + L_{MGC}$

4.3 适应下游任务

由于上述引入的MGA和MGC预训练任务，VALOR可以轻松适应不同类型的下游任务和模态。

对于检索任务（AVR、VR、AR），我们分别使用LMGA(T−AV)、LMGA(T−V)、LMGA(T−A)作为训练目标，并且不使用多模态解码器。在推理时，我们通过方程（3）计算每个查询与所有候选项之间的相似度得分，并对所有候选项进行排序。

对于标注任务（AVC、VC、AC），我们分别使用LMGC(T−AV)、LMGC(T−V)、LMGC(T−A)作为训练目标。在推理过程中，文本标记是自回归地生成的。具体而言，输入“[CLS] [MASK]”来预测第一个标记[TK1]，然后输入“[CLS] [TK1] [MASK]”来预测下一个标记。该过程会一直重复，直到生成[SEP]标记。

对于问答任务（AVQA、VQA、AQA），我们将它们表述为生成问题，因此答案可以从整个词汇表中预测，而不是从预定义的前k个高频答案候选集选择。在训练过程中，MGC损失作为训练目标，类似于标注任务。具体而言，问题标记和答案标记会连接起来输入解码器，并且只有答案标记被掩蔽，而问题标记保持可见。多模态解码器中的自注意力掩码对于问题标记是双向的，对于答案标记是因果的。答案推理过程也是自回归的。

5 实验

在本节中，我们首先介绍基本的实验设置，包括预训练数据集、下游基准和实现细节。之后，我们将VALOR与最先进的方法在多个基准上进行比较。最后，我们展示详细的消融实验，以验证所提方法的有效性，并可视化VALOR的预测结果。

5.1 实验设置

5.1.1 预训练数据集

以下4个数据集用于VALOR的预训练。VALOR-1M是提出的三模态数据集，包含100万开放领域的可听视频，配有手动标注的视听字幕。WebVid-2.5M [13]是一个网页抓取数据集，包含约250万个视频及其替代文本。最近发布了其更大版本WebVid-10M，但本文未使用。CC14M是由一系列图像-语言数据集组合而成，包括MSCOCO [90]、Visual Genome [91]、SBU [92]、CC3M [17]和CC12M [18]，总计包含1400万张图像或2000万个图像-文本对。由于下载过程中存在大量无效图像，排除了SBU数据集。HD VILA 100M [12]是一个高分辨率开放领域的视频-文本数据集，包含1亿个视频及其自动语音识别（ASR）转录文本。由于存储限制，我们只使用了随机抽取的1000万视频子集（HD VILA 10M）。

5.1.2 下游任务

对于检索任务，我们在9个公开数据集上评估VALOR，包括VR（MSRVTT [55]、DiDeMo [58]、LSMDC [60]、ActivityNet [59]、VATEX [56]和MSCOCO [90]）、AR（ClothoV1 [61]和AudioCaps [62]）以及AVR（提出的VALOR-32K）。对于DiDeMo和ActivityNet数据集，我们参考其他工作将多个短时间描述拼接成长句，并评估段落到视频的检索。使用Recall@K（R@K，K=1, 5, 10）作为度量标准。对于字幕生成任务，我们在7个公开数据集上评估VALOR，包括VC（MSVD [54]、MSRVTT、VATEX和MSCOCO）、AC（ClothoV1和AudioCaps）以及AVC（提出的VALOR-32K）。使用BLEU4（B4）[93]、METEOR（M）[94]、ROUGE-L（R）[95]、CIDEr（C）[96]和SPICE（S）[97]作为评估指标。在推理时，使用束搜索，束宽为3。对于开放式问答任务，我们在6个公开数据集上评估，包括VQA（MSVD-QA [98]、MSRVTT-QA [98]、ActivityNet-QA [99]、TGIF-Frame QA [100]、VQAv2 [101]）和AVQA（MUSIC-AVQA [64]）。使用准确率作为评估指标。在推理时，我们使用贪婪搜索从整个词汇表中生成答案，不进行限制。

5.1.3 实现细节

所有模型均基于PyTorch框架，在8块Tesla A100显卡上进行训练。预训练学习率设置为1e-4，使用热身和线性学习率衰减调度器。在消融实验中，除非特别说明，我们使用在Kinetics-400上预训练的Video Swin Transformer-small作为视觉编码器。我们在VALOR-1M数据集上预训练4个epoch，批次大小为512。为了与最先进的算法进行对比，我们训练了两个不同规模的模型，分别为VALORB和VALORL，具体配置见表2。与VALORB相比，VALORL使用了更多的训练数据、更大的批次大小、更多的迭代次数，并使用了更强大的视觉编码器。除视觉编码器不同外，两个模型都使用相同的文本/多模态编码器（BERTB）和音频编码器（AST）。每次迭代时，我们根据预定义的权重采样数据集，如果采样的是双模态数据集，则不使用音频。对于每个视频，我们在预训练期间采样1个视频帧和1个音频片段。微调时，我们使用任务特定的学习率和采样数量。

在这里插入图片描述

表2：VALORB 和 VALORL 的模型配置
#示例：使用的视觉-文本对或视觉-音频-文本三元组的总数量
分辨率：图像或视频帧的分辨率

5.2 与现有最先进方法的对比

5.2.1 视频-语言基准

文本到视频检索
如表3所示，VALORB在Group-A中的所有模型上都表现出色，在VALOR-32K、MSRVTT、DiDeMo和LSMDC数据集上具有明显优势。在ActivityNet和VATEX数据集上，VALORB甚至超越了Group-B中的所有模型，尽管仅使用了6.5M的预训练数据，这证明了VALOR的高效性和有效性。我们还训练了一个基础模型，仅使用WebVid-2.5M和CC3M数据集，并且在预训练和微调中都没有涉及音频，这个模型称为VALOR−B。通过VALORB和VALOR−B的对比，我们可以发现VALOR-1M数据集和音频模态对于VALOR的高性能至关重要。此外，与Group-B中的模型相比，VALORL在MSRVTT、DiDeMo、ActivityNet、LSMDC和VATEX数据集上达到了新的SOTA结果，并且在R@1指标上超越了之前的SOTA表现，分别提高了3.8%、6.2%、12.7%、0.6%和10.4%。我们将VALOR的巨大改进归因于：

相比双模态对齐，VALOR采用了视觉-音频-语言对齐构建。
相比粗粒度对齐，VALOR采用了细粒度的文本与视听信号对齐构建。
需要注意的是，VALOR也超越了那些额外使用音频、字幕或两种模态的模型 [19], [45], [50], [75], [86]，这证明了VALOR中细粒度三模态对齐建模的有效性，同时也证明了利用强相关的三模态预训练数据的重要性。与MSRVTT和LSMDC等短视频检索数据集（<30秒）不同，DiDeMo和ActivityNet等长视频数据集（>1分钟）由于视频和段落之间更复杂的时间关系，具有更大的挑战性。VALOR显著超越了那些专门处理长视频检索的模型 [76], [86]，这表明VALOR具有强大的泛化能力，尤其考虑到VALOR在预训练期间只看到短视频（大约10秒）。此外，与使用视频-文本匹配（VTM）损失训练的模型 [36], [77] 相比，VALOR在推理效率和性能上都更高。

在这里插入图片描述

表3：在 VALOR-32K 文本到视听检索基准和 5 个文本到视频检索基准上的与最新方法的比较

R@1/R@5/R@10：报告的指标。
#示例：使用的视觉-文本对或视觉-音频-文本三元组的数量。
Mod：使用的模态，其中 V、A、S 分别表示视觉、音频和字幕。
+DSL：表示在评估期间使用双 Softmax [70] 后处理。
VALOR-32K 的结果是我们使用其公开发布的代码实现的。

视频字幕生成
如表4所示，VALORB在Group-A中的4个基准上超越了所有模型。在Group-B中，我们主要将VALOR与GIT模型 [14] 进行比较，后者是最近提出的大规模生成预训练模型，在许多视觉字幕生成基准上已取得SOTA结果。具体来说，GIT有四个规模，分别为GITB、GITL、GIT和GIT2，基于不同的参数和数据量。值得注意的是，GITL使用与VALORL相同数量的训练数据和相同的视觉编码器（即CLIPL），而GIT使用了更大的视觉编码器（由Florence [39] 预训练的CoSwin模型）以及更大的数据量。GIT2甚至使用了一个4.8B的DaViT [119]作为视觉编码器，并使用了12.9B的视觉-文本对作为训练数据。通过比较结果，我们可以发现VALORL在三个基准的所有指标上都以巨大的优势超越了GITL和GIT。此外，VALORL在VATEX基准上甚至超越了GIT2，尽管VALORL的参数（11.6%）、数据量（0.26%）和图像分辨率（224与384）都远小于GIT2。这些结果证明了学习音视频条件文本生成（通过从模态维度扩展预训练模型）相比于通过扩展模型参数和数据量维度更为高效且有效。

在这里插入图片描述

表4：在 VALOR-32K 视听字幕生成基准和 3 个视频字幕生成基准上的与最新方法的比较

鉴于大多数方法使用强化学习方法 [102] 来提升模型在 VATEX 数据集上的性能，为了公平比较，我们也采用了该方法，对应的结果标注为 *。
VALOR-32K 的结果是我们使用其公开发布的代码实现的。

开放式视频问答

如表5所示，VALORB在Group-A中的五个基准上超越了所有模型。在Group-B中，FrozenBiLM使用与VALORL相同的视觉编码器（即CLIPL），并且使用了一个更强大的解码器（890M的DeBERTa-V2-XLarge模型 [120]）。Flamingo的参数比VALORL多了135倍，训练数据多了68.7倍。VideoCoCa继承了CoCa的权重，CoCa的参数比VALORL多3.5倍，训练数据多了143.3倍。GIT2的参数比VALORL多8.6倍，训练数据多了382.1倍。即便在参数和训练数据远小于其他模型的情况下，VALORL仍然在MSRVTT-QA、MSVD-QA、TGIF-FrameQA、ActivityNet-QA等基准上实现了新的SOTA性能，分别超越了之前的SOTA方法3.8%、3.4%、5.1%、12.5%。在视听问答基准MUSIC-AVQA上，VALORB和VALORL分别提高了基线的表现7.1%和10.3%。

在这里插入图片描述

5.2.2 音频-语言基准

如表6所示，在文本到音频检索任务中，VALOR在ClothoV1和AudioCaps基准上达到了新的SOTA性能，并分别超越了之前的SOTA方法（R@1）38.9%和13.0%。Nagarani的方法在他们提出的VideoCC3M数据集 [75] 上预训练三模态模型，该数据集通过收集与CC3M图像高度相似的视频，并直接将CC3M的字幕作为视频字幕来实现。与此相比，VALOR在两个文本到音频的基准上表现明显更好，这得益于VALOR-1M中音频-语言相关性比VideoCC3M中的更加明显和强大。此外，他们的方法需要分别为视频和音频检索预训练两个模型，而我们则可以通过所提出的模态分组策略，在视频、音频和视听检索任务上微调单一预训练模型。

在音频字幕生成基准中，与那些直接在目标数据集上训练的模型相比，VALOR表现更好，并在两个基准上达到了新的SOTA结果。

在这里插入图片描述

5.2.3 图像-语言基准

我们在三个图像-语言基准上评估了VALORL，包括文本到图像检索、图像字幕生成和VQA。如表7所示的结果，VALORL在三个基准上都取得了不错的表现。具体来说，VALORL在COCO检索基准上与FILIP [125]达到了可比的性能。在COCO字幕基准上，VALORL超越了GIT，并与GIT2模型的结果相当，尽管参数和数据量要少得多。在VQAv2基准上，VALORL在同等规模的GITL模型上取得了较大优势，并且与更大规模的GIT模型的性能相当。

在这里插入图片描述

5.3 消融研究

5.3.1 视觉-音频-语言跨模态学习

我们首先进行实验，展示视觉-音频-语言跨模态学习的必要性。具体来说，我们在6个任务的9个基准上，使用不同的输入模态，分别在有无VALOR预训练设置下训练模型。如图6所示，与仅使用单一的视觉或音频模态相比，使用两种模态能够在9个基准上获得一致的提升，无论是在有预训练还是无预训练的设置下。这些结果证明了组合两种模态确实有助于模型全面理解视频。此外，视觉-音频-语言预训练进一步增强了模型的三模态推理能力。音频模态对视听语言任务的贡献高于视觉-语言任务。例如，加入音频模态后，AVR（VALOR）和VR（MSRVTT）性能分别提高了26.0%和14.9%。这是因为视听语言任务与音频直接相关，而视觉-语言任务则将音频作为辅助模态。

在这里插入图片描述

图6：在6个任务的9个基准上使用音频（A）、视觉（V）或两种模态（AV）的实验结果。 W或w/o预训练 表示模型是否在VALOR-1M上进行过预训练。分别报告了检索、字幕生成和问答任务的R@1、CIDEr和Acc指标。

5.3.2 模态分组策略

如第4.2节介绍的，我们在预训练中的MGA和MGC任务中使用模态分组策略，旨在增强模型在面对不同模态输入任务时的泛化能力。为了验证其有效性，我们使用不同的模态组进行预训练，并在多个基准上进行评估。以MGA为例，从表8的结果可以得出以下结论：

使用T-V（M1）或T-A（M2）组单独进行MGA预训练，在对应的T-V或T-A基准上能取得相对较好的结果，但在T-AV基准上的表现较差。相比之下，使用T-AV组（M3）进行预训练，可以在T-AV基准上获得更好的表现，但其在T-V和T-A基准上的表现分别弱于M1和M2，因为三模态预训练与双模态适配之间的不一致性。
基于M3，如果再引入T-V或T-A组，可以提高相应基准的表现，但会导致其他基准的性能下降。例如，M4在T-V基准上的表现优于M3，并且与M1相当，但其在T-A基准上的表现比M3下降得更明显。
使用T-AV+T-V+T-A组（M6）进行训练，能够在T-AV、T-V和T-A基准上都取得不错的表现，无论是零-shot还是微调设置下。
基于M6，进一步引入V-A、A-TV和VTA组可以提高相应基准的表现，但也会导致主流的T-AV、T-V和T-A基准出现明显的性能下降。因此，我们选择M6作为默认设置。

除了MGA，模态分组策略在MGC任务中同样有效，从表9的结果中也可以观察到类似的结论。

在这里插入图片描述

5.3.3 视听融合

MGA中的视听融合（T-AV）

MGA任务使用T-AV组的目标是建立语言与视听融合之间的精细对齐。我们将其与粗对齐的方法进行了比较，在粗对齐中，整个句子的全局表示与视频和音频的全局表示融合进行对齐。此外，我们还比较了两种视听融合方法，包括特征融合和得分融合。特征融合首先将音频和视觉特征融合（在隐藏维度上拼接用于粗对齐，或者在序列维度上拼接用于精细对齐），然后计算与文本的相似度；而得分融合则独立地计算文本-视频和文本-音频相似度得分，然后将它们相加得到总得分。从表10的结果可以看到，精细对齐与特征融合相结合在VALOR-32K和MSRVTT数据集上都获得了最佳结果，在所有四种组合中表现最优。使用第4.2节中介绍的加权平均方法可以进一步在两个基准上稳定地提高性能。

在这里插入图片描述

MGC中的视听融合（T-AV）

MGC任务使用T-AV组要求模型预测带有视觉和音频特征的掩码标记。我们对具有不同注意力机制的多模态解码器进行了比较，具体如图7所示。特别地，音频-视觉交叉注意力（a）和视觉-音频交叉注意力（b）变体引入了两层交叉注意力，依次关注两种模态；合并注意力（c）直接将三模态特征拼接并使用部分因果遮掩进行自注意力层，这使得视觉和音频能够完全相互注意，同时防止文本信息泄漏；拼接交叉注意力（e）引入了一层交叉注意力，并关注两种模态的拼接；并行交叉注意力（d）则使用独立的参数来处理两种模态，而不是像（e）那样共享权重。从表11的结果中可以看出，拼接交叉注意力机制在AVC、VC和VQA任务中始终取得最佳结果。

在这里插入图片描述

表11：使用不同音视频融合方法在MGC任务上预训练的模型的下游性能。
模型仅在 VALOR-1M 的 LMGC(T−AV) 上进行预训练。
报告字幕生成任务的 CIDEr 指标。
加粗的行表示默认设置。

MGA和MGC的结合

当模型同时训练MGA和MGC任务时，我们共享文本编码器和解码器的公共参数，并使用超参数α来平衡两个损失。如表12所示，训练这两个任务会导致AVR（53.8 vs 55.6）性能下降，但AVC（50.3 vs 49.6）任务有所提高，且与单独训练的结果（表8和表9）相比，性能有所改善。参数共享可以在AVR任务上提高0.9分，而对AVC任务的影响较小。使用较大的α可以让模型更侧重于MGA任务，从而获得更高的AVR性能，但AVC的表现会下降。视频QA对于不同设置的变化较为不敏感。因此，我们选择了参数共享，并将α设置为1.5，以便在多个任务中取得良好的表现。

在这里插入图片描述

表12：在 VALOR-1M 上使用不同 MGA 和 MGC 任务组合设置预训练的模型的下游性能。分别报告检索任务的 R@1 和字幕生成任务的 CIDEr 指标。

5.3.4 VALOR-1M 数据集的效果

在表14中，我们比较了VALOR-1M与其他公共视频-语言预训练数据集（包括WebVid-2.5M、CC3M和HD VILA 10M）的性能。VALOR-1M上预训练的模型使用了视觉和音频模态，而其他数据集上预训练的模型仅使用视觉模态。所有模型在MSRVTT数据集上进行了微调，并使用了视觉和音频模态。从结果中可以看出，VALOR-1M上预训练的模型在所有三个基准测试上都显著超越了其他模型。这一结果得益于VALOR-1M中高质量的视听字幕。VALOR-1M的视听字幕提供了更加丰富和准确的音频-视觉-语言关系，使得模型在处理视频和音频内容时具有更强的跨模态学习能力，进而提升了在下游任务中的表现。

在这里插入图片描述

5.3.5 模型架构选择

在表13中，我们对不同的模型架构进行了比较。从结果中可以看出，当选择BERTB作为文本编码器时，使用更强大的视觉编码器会在所有四个检索基准测试中带来更多的改进。此外，当选择CLIPL作为视觉编码器时，我们也对文本编码器进行了比较。如果使用BERTB作为文本编码器，三种单模态编码器在MGA学习开始时并未对齐；而如果使用CLIPL作为文本编码器，视觉和文本在MGA学习开始之前已经预先对齐。根据实验结果，当预训练数据仅限于VALOR-1M时，由于CLIP对比预训练的规模较大，CLIPL在三个视觉检索（VR）基准测试中明显优于BERTB。然而，在音频视觉检索（AVR）基准上，CLIPL的性能却不及BERTB。我们推测，这可能是因为预对齐的视觉和语言信息导致模型在学习音频-视觉-语言关联时有所忽视，尤其是在预训练初期，仅使用视觉信息时会导致小的损失。随着更多训练数据的使用（如33.5M），BERTB在视觉检索基准上的劣势得到了大幅缓解，但其在音频视觉检索上的优势依然存在。

此外，我们还尝试了将文本编码器从BERTB扩展到BERTL，观察到除了MSRVTT基准外，在其他三个基准上均取得了性能提升。最终，我们选择了CLIPL和BERTB作为VALORL的默认设计，因为它们在有效性和效率方面表现出色。

综上所述，VALOR-1M数据集与更强大的视觉编码器（如CLIPL）相结合，在多模态视频-语言任务中提供了卓越的性能。尤其是在处理视听字幕和跨模态学习任务时，VALOR-1M的数据质量和多模态对齐策略为模型提供了重要的优势，使其在多个基准测试中超越了传统模型。
在这里插入图片描述

5.4 可视化

在图8中，我们对VALOR-32K基准上的VALORB与任务特定方法（包括AVLNet和SMPFF）进行了定性比较，这两种方法都将视觉和音频作为输入。从可视化结果中可以看出，与AVLNet相比，VALOR能够准确地根据视听文本查询对视频候选项进行排名，并成功地检索出正确的视频。例如，相对于排名第一的视频，排名第二的视频同样展示了一名穿白衣的男子在水上，且伴有风声，但缺少鸟鸣声。排名第三的视频在视觉和音频两个方面都与查询存在更大的冲突。

在AVC（音视频描述）任务中，SMPFF模型存在一些问题：在示例1中，它错误地识别了声音；在示例2中，它错误地描述了视觉内容；在示例3中，它完全忽略了音频信息。相比之下，VALOR能够全面识别视觉和音频概念，并为这三个示例生成准确的描述。

在这里插入图片描述

6 结论

本文提出了一个统一的视觉-音频-语言跨模态预训练模型VALOR，旨在通过设计的两种预训练任务，包括多模态分组对齐和多模态分组描述，实现三模态的理解和生成。通过大量实验验证，VALOR展现了良好的通用性和可扩展性。本文还提出了首个强相关的视觉-音频-语言数据集VALOR-1M，旨在推动三模态预训练研究，同时推出了VALOR-32K用于音视频语言检索和描述基准测试。

通过在VALOR-1M和其他公开的视觉-语言数据集上进行训练，VALOR在下游的视觉/音频/视听检索、描述和问答任务中取得了一系列新的最先进的表现。未来，我们计划通过生成和筛选伪音视频描述等无监督方法，进一步扩大VALOR-1M数据集的规模。此外，我们还计划在现有的VALOR框架中加入视觉和音频生成建模，以进一步提升其性能和应用范围。