LanguageBind: extending video-language pretraining to n-modality by languagebased semantic alignment

题目:LanguageBind: extending video-language pretraining to n-modality by language- based semantic alignment(语言绑定:通过基于语言的语义对齐将视频语言预训练扩展到N模态)

期刊合集:最近五年,包含顶刊,顶会,学报>>网址
文章来源:https://paperswithcode.com/paper/languagebind-extending-video-language
代码来源:https://github.com/PKU-YuanGroup/LanguageBind

研究背景

  视频-语言(VL)预训练在多个下游任务中取得了显著的改进;然而,目前的 VL 预训练框架很难扩展到除视觉和语言之外的多种模式(N≥3 种模态)。在此背景下,作者提出 LanguageBind 技术,旨在将 语言作为不同模态之间的绑定 桥梁,因为语言模态包含了丰富的语义信息。具体来说,冻结了通过 VL 预训练获得的语言编码器,然后通过对比学习为其他模态训练编码器,从而将所有模态都映射到一个共享的特征空间,实现了多模态语义的对齐。虽然 LanguageBind 确保可以将 VL 模态扩展到 N 个模态,但还需要一个包含以语言为中心的对齐数据对的数据集。因此,作者还提出了具有视频、红外、深度、音频及其相应语言的1000万数据的 VIDAL-10M。在 VIDAL-10M 中,所有视频都来自具有完整语义的短视频平台,而不是来自长视频的截断片段,并且所有视频、深度、红外和音频模式都与其文本描述一致。

在这里插入图片描述
两者差别:ImageBind 提出了一种基于 图像 的多模态预训练方法,但它是通过间接对齐到图像的方式实现的,不适用于与语言模态的对齐,可能导致性能下降。相比之下,LanguageBind 是一种基于语言的多模态预训练框架,不需要图像作为中介,能够直接将各模态扩展到下游任务中,提高适用性。

论文分析

为了提高训练效率,我们采用低秩自适应(LoRA)(Hu et al,2021)进行微调,以最少的训练迭代获得令人印象深刻的训练结果。
为了确保中心语言模态的质量,我们在VIDAL-10M上执行了多视图文本生成和增强。

贡献点:
(1)提出了基于语言的多模态预训练框架 LanguageBind,在预训练过程中通过对比学习将其他模态与语言模态对齐,并且这些模态在一个共享的嵌入空间内统一。

(2)VIDAL-10M 数据集包含1000万个具有对齐 VL、IL、DL和 AL 的五种模态数据对,是第一个具有深度和红外模态的大规模视频多模态数据集。

在这里插入图片描述
【个人理解:Language模态语义丰富,在下游任务中出现频率更多,用Language作为中心能够实现”直接对齐“,VIDAL-10M就是一个 “直接模态对齐” 的数据集】

网络框架


在这里插入图片描述

  LanguageBind 是一种多模态预训练方法,旨在对齐不同模态的语义,并增强跨模态检索和零样本分类。LanguageBind 包括三个部分:多模态编码器、语言编码器和多模态联合学习。

1、MULTI-MODAL ENCODERS(多模态编码器)

对于视频编码器,作者采用的是 CLIP4Clip 的训练框架,它是从 ViT-B/32 初始化的。 对于语言以外的其他模态,使用了24层、1024维的视觉 transformer,每个 patch 的大小设置为 14。编码器是从 OpenCLIP-large 初始化的。深度和红外被视为 RGB 图像,它们在通道维度上被复制 3 次以与 RGB 图像对齐。与 ImageBind 类似,音频数据被转换成10秒(128 mel-bins)的频谱图,然后重复和填充频谱图。例如,一个 4 秒的频谱图将被重复两次,然后用零填充2秒。同样,在通道维度上也复制了3次。如果持续时间超过10秒,随机采样了三个10秒的音频片段,分别来自原始音频的前1/3、中间1/3和后1/3,并将它们堆叠在一起。

Patch masking(补丁掩码)
为了解决编码器内处理所有标记的效率问题,将图像分成补丁,并通过编码器掩码 Me 选择其中的一小部分,遵循 MAE。给定模态 m ∈ R H×W×C,其中(H,W)表示原始数据的分辨率,C 表示通道数。首先使用一个不重叠的滤波器将其转换为补丁,这个操作产生的补丁表示为在这里插入图片描述,其中在这里插入图片描述表示生成的序列长度,S 表示每个补丁的大小。随后,对可见标记应用位置嵌入,这些标记由编码器掩码分割。组合序列 x 定义为:

在这里插入图片描述
其中 P 是可学习的位置标记的序列,并且 i 表示补丁处的位置索引。

LoRA fine-tuning (LoRA 微调) 采用 LoRA 技术来加速微调。对于具有权重矩阵 W0 ∈ R d×k 的模态不可知编码器,保持权重矩阵 W0 不变,同时学习一个新的权重矩阵 BA。例如,在模态不可知编码器 h(·)和 x 的情况下,正向过程可以表示如下:
在这里插入图片描述
其中 B∈R d×k,A∈R r×k,其中 r 是 d 和 k 的最小值。重要的是 W0 和 BA 都具有相同的输入和输出维度,便于它们求和以产生最终输出。

Modality extending (模态扩展)
要将 LanguageBind 方法扩展到多个(N)模态,第一步涉及将数据处理为标签序列。随后,从 OpenCLIP 初始化参数。然后通过令牌掩蔽和 LoRA 微调来训练不同模态的编码器,同时保持语言编码器冻结。最后,将该模态与语言特征空间对齐。

2、LANGUAGE ENCODER AND MULTI-MODAL JOINT LEARNING(语言编码器和多模态联合学习)

 对于语言编码器,本文使用 768 维的 12 层的 transformer 模型,并从 OpenCLIP 对其进行初始化。对于给定的文本,最初使用 BPE 标记器将单词分割成相对常见的子单词。每个子单词对应于一个唯一的标记,并且这些标记会被嵌入到单词嵌入层中。最终,语言编码器对标记进行编码,以获得文本 logit 在这里插入图片描述,其中 L 表示序列的长度。为了确保不同模式之间的一致性,采用对比学习原则,目的是增加配对数据的相似性,使它们更接近同一语义空间,同时最小化未配对数据的相似度。利用对比学习将各个模态与语言绑定起来。
在这里插入图片描述
其中 xi 是第 i 个模态数据,yj 是第 j 个文本,并且它们的特征被标准化。K 和 τ 是批量大小和温度。每个模态 M 与语言 T 的直接对齐显著增强了零样本分类和检索任务。

VIDAL-10M 数据集

在这里插入图片描述

第一步是生成搜索词数据库,设计一种独特的搜索词获取策略,利用来自各种视觉任务数据集的文本数据,包括标签和标题,以构建具有丰富视觉概念和多样性的视频数据集。

第二步是从互联网收集相关视频和音频,并进行一系列过滤处理,以确保数据集的质量和准确性。过程中使用多种过滤方法,包括基于文本的过滤、基于视觉的过滤,以确保数据集中的视频和音频与搜索词相关且质量高。

第三步是进行红外和深度模态生成,以及多视角文本生成和增强。使用多种先进模型来生成其他模态的数据。从外, 还进行了多视角文本生成和增强。具体来说,使用 OFM 模型生成关键帧标题,并将视频、标题和标签输入到 mPLUG-owl 模型中,以获得视频标题。然后,使用 ChatGPT 模型对视频标题进行细化和增强,从而提高文本的质量。最终,多视角文本增强包括标题、标签、关键帧标题、视频标题和增强标题等多个组成部分,提供了对视频内容的全面和详细的描述。

在这里插入图片描述

实验结果

通过不同的实验来评估 LanguageBind 在各种下游任务中的有效性。首先,使用零样本 视频-文本 检索来评估 LanguageBind 对齐视频和文本的能力。此外,还使用 LanguageBind 来增强涉及深度、红外图像和音频的下游任务的性能。最后,进行消融实验用来分析了不同参数配置和文本描述对 LanguageBind 性能的影响。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JJxiao24

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值