超越ImageBind? 腾讯LanguageBind已开源!

本文章转载来源于知乎:https://zhuanlan.zhihu.com/p/660567767

已获授权。

zero-shot视频检索,音频检索,深度图/红外热图新SOTA!!!
在这里插入图片描述

Paper:https://arxiv.org/pdf/2310.01852.pdf
GitHub: https://github.com/PKU-YuanGroup/LanguageBind
Huggingface: https://huggingface.co/lb203

摘要

该工作介绍了一项名为"LanguageBind"的技术,旨在扩展视频-语言(VL)预训练模型的适用性,以处理多模态数据。该技术的核心思想在于以语言模态作为多种不同模态之间的纽带,因为语言模态包含丰富的语义信息。此方法通过在VL预训练模型的基础上冻结语言编码器,然后使用对比学习方法来训练其他模态的编码器,从而将各个模态映射到一个共享的特征空间,以实现多模态数据的语义对齐。此外,文章还提到了作者创建的名为"VIDAL-10M"的高质量数据集,其中包含了视频、红外、深度、音频等多模态数据,以及它们的相关语言描述。通过在这一数据集上进行预训练,作者验证了LanguageBind的高质量,证明了在零-shot视频文本检索等任务中取得了显著的性能提升。最后,作者指出,LanguageBind技术在多个任务上都表现出色,包括视频、音频、深度和红外理解等领域,相较于其他方法取得了显著的进展。并提供了代码的链接,以供其他研究人员参考和使用。
【个人理解:LanguageBind 是以语言模态为中心进行直接对齐(VIDAL-10M数据集贡献很大),下游任务大多与语言相关,所以共享语义嵌入空间更好】

图一 Huggingface图一 Huggingface

1. 引言

随着互联网和智能手机的普及,视频网站和应用如YouTube和TikTok大量涌现,导致视频数量激增。因此,视频相关任务如视频搜索、推荐和编辑也日益重要。为了解决这些视频理解任务,人们采用了视频-语言(VL)预训练方法,将计算机视觉和自然语言处理结合起来,这些模型能够捕捉视频语义并解决下游任务。
然而,目前的VL预训练方法通常仅适用于视觉和语言模态,难以扩展到其他模态。虽然ImageBind提出了一种多模态预训练的方法,但它是通过间接对齐到图像的方式实现的,不适用于与语言模态的对齐,可能导致性能下降。相比之下,LanguageBind方法不需要图像作为中介,能够直接将各模态扩展到下游任务中,提高适用性。

图2 LanguageBind vs. ImageBind图2 LanguageBind vs. ImageBind

LanguageBind是一种基于语言的多模态预训练框架,可以将视频-语言预训练扩展到多个(N)模态。它选择语言模态作为各模态之间的纽带,通过对比学习逐渐将所有模态映射到统一的嵌入空间,实现了有效的语义对齐。此外,该工作还引入了VIDAL-10M数据集,包含了深度和红外等多模态数据,用于验证LanguageBind方法。实验证明LanguageBind在多个任务中都表现出色,包括视频检索、深度分类、红外分类和音频分类等。
总结主要贡献:
(1)该工作提出了基于语言的多模态预训练框架LanguageBind,在预训练过程中通过对比学习将其他模态与语言模态对齐,并且这些模态在一个共享的嵌入空间内统一。
(2)VIDAL-10M数据集包含1000万个具有对齐VL、IL、DL和AL的数据对,是第一个具有深度和红外模态的大规模视频多模态数据集。
(3)大量的实验验证了VIDAL-10M数据集和LanguageBind方法的有效性,在视频和其他模态理解任务中取得了显著的性能。
【个人理解:Language模态语义丰富,在下游任务中出现频率更多,用Language作为中心能够实现”直接对齐“,VIDAL-10M就是一个“直接模态对齐”数据集】

图3 五模态数据集VIDAL-10M图3 五模态数据集VIDAL-10M

2. 相关工作

2.1 多模态预训练

多模态预训练通常以视觉和语言为起点。例如,CLIP首次在一个包含4亿个样本的大规模数据集上对齐了图像和文本,这有效地建立了图像和文本之间的联系。这种对齐有助于多种下游任务,包括零-shot分类和图像文本检索。随后的研究扩展了这一思路,通过增加其他模态的对齐,如视频、音频和点云,提高了模型的鲁棒性。然而,当涉及到多个不同模态时,训练方法需要进行重要的调整。一些方法,如Meta-transformer,尝试适应12种模态,并使用不同的编码器来统一这些模态之间的嵌入空间。而ImageBind则扩展了多模态对齐预训练,包括了六种模态,但由于采用了间接对齐的方式,可能在与语言相关的任务上表现不佳。在本文中,我们提出LanguageBind,这是一种直接对齐机制,旨在将其他模态与语言模态直接对齐。语言模态通常包含最丰富的语义信息,因此将其他模态与之直接对齐可以在下游任务中带来明显的性能提升。

2.2 多模态数据集

大规模多模态数据集是多模态预训练的基础。最初,这些数据集仅包含视频及其对应的类别。HMDB-51和UCF-101是这种类型的数据集的例子,它们包含来自长视频的截断片段,并进行了手动标注。然而,创建这些数据集需要大量人力,这限制了它们的可扩展性和多样性。为解决这个问题,研究人员将注意力转向了互联网上丰富的视频文本资源。受到图像文本数据集的成功启发,他们使用脚本编程来提取数百万个视频文本数据对。然而,获取红外和深度等模态的数据是具有挑战性的,因为它们需要专用设备和手动标注。这严重限制了数据的规模和与其他模态的对齐。尽管像ImageBind这样的现有工作已经尝试将各种模态数据通过图像绑定在一起,并在不同模态之间实现间接的语义对齐,但这种方法仍然面临着数据对齐不完整和对齐间接性的问题。因此,我们迫切需要具有直接语义对齐数据的多模态数据集,特别是对于具有五种或更多类型模态的情况。

3. 方法

LanguageBind是一种多模态预训练方法,旨在对齐不同模态的语义,增强跨模态检索和零-shot分类。LanguageBind包括三个部分:多模态编码器、语言编码器和多模态联合学习。

3.1 多模态编码器

对于视频编码器,我们采用了CLIP4Clip的训练框架,它是从ViT-B/32初始化的。 对于语言以外的其他模态,我们使用了24层、1024维的视觉transformer,每个patch的大小为14。编码器是从OpenCLIP-large初始化的。深度和红外被视为RGB图像,它们在通道维度上被复制3次以与RGB图像对齐。与ImageBind类似,音频数据被转换成10秒(128 mel-bins)的频谱图,然后重复和填充频谱图。例如,一个4秒的频谱图将被重复两次,然后用零填充2秒。同样,在通道维度上也复制了3次。如果持续时间超过10秒,我们随机采样了三个10秒的音频片段,分别来自原始音频的前1/3、中间1/3和后1/3,并将它们堆叠在一起。
图4 模型架构图图4 模型架构图

3.1.1 补丁掩码

为了解决编码器内处理所有标记的效率问题,我们将图像分成补丁,并通过编码器掩码 选择其中的一小部分,遵循MAE。

3.1.2 LoRA微调

我们采用LoRA技术来加速微调。对于一个具有权重矩阵 的模态不可知编码器,我们保持权重矩阵不变,同时学习一个新的权重矩阵

3.1.3 模态扩展

为了将LanguageBind方法扩展到多个(N)模态,第一步是将数据处理成标记序列。随后,参数从OpenCLIP初始化。然后,通过标记屏蔽和LoRA微调来训练不同模态的编码器,同时保持语言编码器冻结。最后,该模态与语言特征空间对齐。

3.2 语言编码器和多模态联合学习

对于语言编码器,我们使用了一个12层的transformer模型,维度为768,初始化来源于OpenCLIP。对于给定的文本,我们首先使用BPE分词器将单词分割成相对常见的子词。每个子词对应一个唯一的标记,这些标记在一个词嵌入层内嵌入。最终,这些标记被语言编码器编码,以获得文本对数 。为了确保跨不同模态的对齐,我们采用了对比学习原则。这种方法的目标是增加配对数据的相似性,将它们带到相同的语义空间,同时减小不配对数据的相似性。我们利用对比学习将各个模态与语言绑定在一起。

4. VIDAL-10M数据集

图5 VIDAL-10M 构建框架图5 VIDAL-10M 构建框架

第一步是生成搜索词数据库,这个过程中,我们设计了一种独特的搜索词获取策略,利用来自各种视觉任务数据集的文本数据,包括标签和标题,以构建具有丰富视觉概念和多样性的视频数据集。
第二步是从互联网收集相关视频和音频,并进行一系列过滤处理,以确保数据集的质量和准确性。这个过程中,我们使用了多种过滤方法,包括基于文本的过滤、基于视觉的过滤,以确保数据集中的视频和音频与搜索词相关且质量高。
第三步是进行红外和深度模态生成,以及多视角文本生成和增强。这个过程中,我们使用了多种先进模型来生成其他模态的数据。从外, 我们还进行了多视角文本生成和增强。具体来说,我们使用了OFM模型生成关键帧标题,并将视频、标题和标签输入到mPLUG-owl模型中,以获得视频标题。然后,我们使用ChatGPT模型对视频标题进行细化和增强,从而提高文本的质量。最终,多视角文本增强包括标题、标签、关键帧标题、视频标题和增强标题等多个组成部分,提供了对视频内容的全面和详细的描述。
图6 Multiview-text 增强图6 Multiview-text 增强

5. 实验与消融

5.1 ZERO-SHOT CLASSIFICATION IN MULTIPLE MODALITIES

我们进行了多模态零样本分类的实验,并与其他模型进行了比较。实验结果表明,我们的模型在红外和深度图像上表现出色,相比于ImageBind模型,我们的模型在LLVIP数据集上的性能提高了23.8%,在NYU-D数据集上的性能提高了11.1%。同时,我们的模型在FLIR V1和V2数据集上也优于OpenCLIP模型。这些实验结果表明,我们的模型在多模态零样本分类任务上表现出色,具有很高的性能和有效性。
表1 ZERO-SHOT CLASSIFICATION IN MULTIPLE MODALITIES表1 ZERO-SHOT CLASSIFICATION IN MULTIPLE MODALITIES

5.2 ZERO-SHOT RETRIEVAL IN VIDEO-LANGUAGE

我们在两个经典数据集MSR-VTT 和MSVD 上进行了视频文本检索实验。我们的方法明显优于现有技术,如下表所示。对于文本到视频任务,我们在MSR-VTT上使用少于15%的参数,实现了比ImageBind高1.2%的R@1。此外,我们在MSR-VTT上分别以5.0%和5.8%的优势超过了CLIP4Clip,在MSVD上分别以4.2%和5.7%的优势超越了CLIP-straight。此外,我们在视频到文本检索任务中实现了最先进的性能,显著优于CLIP-straight。
表2  ZERO-SHOT RETRIEVAL IN VIDEO-LANGUAGE表2 ZERO-SHOT RETRIEVAL IN VIDEO-LANGUAGE

5.3 IMPACT OF DIFFERENT TEXT SOURCES

我们进行了各种实验来探索不同的文本来源如何影响语言模态。我们验证了LanguageBind的有效性,该语言使用来自多个来源的文本在各种模式下进行训练。虽然一些文本源产生了良好的结果,但我们发现,单个文本源可能并不普遍适用于所有下游任务和数据集。在视频和深度模式方面,ChatGPT增强的字幕被证明是有利的。对于红外图像,OFA在LLVIP数据集中表现最好,而原始字幕在FLIR v1和v2中实现了最高的准确性。这就是为什么我们的VIDAL-10M提供多视图文本描述,允许灵活选择适合不同任务需求的适当文本源。
 表3 IMPACT OF DIFFERENT TEXT SOURCES表3 IMPACT OF DIFFERENT TEXT SOURCES

5.4 SCALING THE SIZE OF DATASET

我们分析了不同数据量对MSR-VTT的影响,并报告了零样本检索的R@1得分,如下图所示。我们的研究结果表明,数据量的增加会显著提高识别性能。具体而言,3M ChatGPT增强文本的性能分别超过500k和100k数据0.9%和1.6%。此外,在视频到文本检索和文本到视频检索中观察到的趋势一致表明,模式之间的互动在增强学习过程中发挥着关键作用。因此,随着数据大小的扩大,VIDAL-10M数据集中的文本描述与视频内容更加一致,并表现出更强的可扩展性。
图7  SCALING THE SIZE OF DATASET图7 SCALING THE SIZE OF DATASET

5.5 Training loss and architecture

Training epochs. 我们在表4 中进行了一项实验,研究了训练时期对模型的影响,结果表明 LoRA 微调非常有效。尽管经过 3 个时期的训练能够产生更高的准确性,但我们选择优化为单个时期,以在性能和训练成本之间取得平衡。
Training batch size. 在表4 中,我们评估了批次大小对表示学习的影响。实验表明,较大的批次大小并不一定更好。事实上,批次大小为 1,024 是最优的选择。
Rank of LoRA. 在我们的研究中,我们考察了 LoRA 的常见秩配置,详见表~\ref{tab:LoRA}。我们观察到较小的秩值会导致更显著的性能改善,而较大的秩则可能会降低性能。这种趋势可能是由于模型的过拟合造成的。
Temperature for loss. 我们在表4 中详细研究了不同温度值对模型的影响。我们发现,从 0.07 开始的可学习温度表现最佳,优于 ImageBind 提出的固定温度策略。
Masked ratio. 在表4 中,我们探讨了不同的掩码比例对模型的影响。结果表明,掩码比例为 0.5 的性能最高,仅需要四分之一的计算资源,与 FLIP 的研究结果一致。
表4  Training loss and architecture表4 Training loss and architecture

6. 总结

在这项工作中,我们提出了LanguageBind,一种用于多模态预训练的基于语言的语义对齐方法。我们使用对比学习来建立语言模态和所有其他模态之间的模态语义对齐。为了提高模态完整性,我们还构建了第一个直接与语言模态对齐的大规模多模态数据集VIDAL-10M,包括1000万个对齐的VL、IL、DL和AL对。零样本VL、IL、DL和AL理解任务的实验结果证明了LanguageBind的能力和VIDAL-10M的有效性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值