LanguageBind: extending video-language pretraining to n-modality by languagebased semantic alignment

JJxiao24

已于 2023-11-28 15:04:45 修改

阅读量1k

点赞数 2

分类专栏：论文学习文章标签：人工智能

于 2023-11-15 16:55:14 首次发布

本文链接：https://blog.csdn.net/JJxiao520/article/details/134418227

版权

论文学习专栏收录该内容

30 篇文章

订阅专栏

文章目录

题目：LanguageBind: extending video-language pretraining to n-modality by language- based semantic alignment（语言绑定：通过基于语言的语义对齐将视频语言预训练扩展到N模态）

期刊合集：最近五年，包含顶刊，顶会，学报>>网址
文章来源：https://paperswithcode.com/paper/languagebind-extending-video-language
代码来源：https://github.com/PKU-YuanGroup/LanguageBind

研究背景

视频-语言（VL）预训练在多个下游任务中取得了显著的改进；然而，目前的 VL 预训练框架很难扩展到除视觉和语言之外的多种模式（N≥3 种模态）。在此背景下，作者提出 LanguageBind 技术，旨在将 语言作为不同模态之间的绑定 桥梁，因为语言模态包含了丰富的语义信息。具体来说，冻结了通过 VL 预训练获得的语言编码器，然后通过对比学习为其他模态训练编码器，从而将所有模态都映射到一个共享的特征空间，实现了多模态语义的对齐。虽然 LanguageBind 确保可以将 VL 模态扩展到 N 个模态，但还需要一个包含以语言为中心的对齐数据对的数据集。因此，作者还提出了具有视频、红外、深度、音频及其相应语言的1000万数据的 VIDAL-10M。在 VIDAL-10M 中，所有视频都来自具有完整语义的短视频平台，而不是来自长视频的截断片段，并且所有视频、深度、红外和音频模式都与其文本描述一致。

在这里插入图片描述
两者差别：ImageBind 提出了一种基于图像的多模态预训练方法，但它是通过间接对齐到图像的方式实现的，不适用于与语言模态的对齐，可能导致性能下降。相比之下，LanguageBind 是一种基于语言的多模态预训练框架，不需要图像作为中介，能够直接将各模态扩展到下游任务中，提高适用性。

论文分析

为了提高训练效率，我们采用低秩自适应（LoRA）（Hu et al，2021）进行微调，以最少的训练迭代获得令人印象深刻的训练结果。
为了确保中心语言模态的质量，我们在VIDAL-10M上执行了多视图文本生成和增强。

贡献点：
（1）提出了基于语言的多模态预训练框架 LanguageBind，在预训练过程中通过对比学习将其他模态与语言模态对齐，并且这些模态在一个共享的嵌入空间内统一。

（2）VIDAL-10M 数据集包含1000万个具有对齐 VL、IL、DL和 AL 的五种模态数据对，是第一个具有深度和红外模态的大规模视频多模态数据集。

在这里插入图片描述
【个人理解：Language模态语义丰富，在下游任务中出现频率更多，用Language作为中心能够实现”直接对齐“，VIDAL-10M就是一个 “直接模态对齐” 的数据集】

网络框架

在这里插入图片描述

LanguageBind 是一种多模态预训练方法，旨在对齐不同模态的语义，并增强跨模态检索和零样本分类。LanguageBind 包括三个部分：多模态编码器、语言编码器和多模态联合学习。

1、MULTI-MODAL ENCODERS（多模态编码器）

对于视频编码器，作者采用的是 CLIP4Clip 的训练框架，它是从 ViT-B/32 初始化的。对于语言以外的其他模态，使用了24层、1024维的视觉 transformer，每个 patch 的大小设置为 14。编码器是从 OpenCLIP-large 初始化的。深度和红外被视为 RGB 图像，它们在通道维度上被复制 3 次以与 RGB 图像对齐。与 ImageBind 类似，音频数据被转换成10秒（128 mel-bins）的频谱图，然后重复和填充频谱图。例如，一个 4 秒的频谱图将被重复两次，然后用零填充2秒。同样，在通道维度上也复制了3次。如果持续时间超过10秒，随机采样了三个10秒的音频片段，分别来自原始音频的前1/3、中间1/3和后1/3，并将它们堆叠在一起。

Patch masking（补丁掩码）
为了解决编码器内处理所有标记的效率问题，将图像分成补丁，并通过编码器掩码 Me 选择其中的一小部分，遵循 MAE。给定模态 m ∈ R ^H×W×C，其中（H，W）表示原始数据的分辨率，C 表示通道数。首先使用一个不重叠的滤波器将其转换为补丁，这个操作产生的补丁表示为在这里插入图片描述，其中表示生成的序列长度，S 表示每个补丁的大小。随后，对可见标记应用位置嵌入，这些标记由编码器掩码分割。组合序列 x 定义为：

在这里插入图片描述
其中 P 是可学习的位置标记的序列，并且 i 表示补丁处的位置索引。

LoRA fine-tuning （LoRA 微调）采用 LoRA 技术来加速微调。对于具有权重矩阵 W0 ∈ R ^d×k 的模态不可知编码器，保持权重矩阵 W0 不变，同时学习一个新的权重矩阵 BA。例如，在模态不可知编码器 h（·）和 x 的情况下，正向过程可以表示如下：
在这里插入图片描述
其中 B∈R ^d×k，A∈R ^r×k，其中 r 是 d 和 k 的最小值。重要的是 W0 和 BA 都具有相同的输入和输出维度，便于它们求和以产生最终输出。

Modality extending （模态扩展）
要将 LanguageBind 方法扩展到多个（N）模态，第一步涉及将数据处理为标签序列。随后，从 OpenCLIP 初始化参数。然后通过令牌掩蔽和 LoRA 微调来训练不同模态的编码器，同时保持语言编码器冻结。最后，将该模态与语言特征空间对齐。

2、LANGUAGE ENCODER AND MULTI-MODAL JOINT LEARNING（语言编码器和多模态联合学习）

对于语言编码器，本文使用 768 维的 12 层的 transformer 模型，并从 OpenCLIP 对其进行初始化。对于给定的文本，最初使用 BPE 标记器将单词分割成相对常见的子单词。每个子单词对应于一个唯一的标记，并且这些标记会被嵌入到单词嵌入层中。最终，语言编码器对标记进行编码，以获得文本 logit 在这里插入图片描述，其中 L 表示序列的长度。为了确保不同模式之间的一致性，采用对比学习原则，目的是增加配对数据的相似性，使它们更接近同一语义空间，同时最小化未配对数据的相似度。利用对比学习将各个模态与语言绑定起来。
在这里插入图片描述
其中 xi 是第 i 个模态数据，yj 是第 j 个文本，并且它们的特征被标准化。K 和 τ 是批量大小和温度。每个模态 M 与语言 T 的直接对齐显著增强了零样本分类和检索任务。

VIDAL-10M 数据集

在这里插入图片描述

第一步是生成搜索词数据库，设计一种独特的搜索词获取策略，利用来自各种视觉任务数据集的文本数据，包括标签和标题，以构建具有丰富视觉概念和多样性的视频数据集。

第二步是从互联网收集相关视频和音频，并进行一系列过滤处理，以确保数据集的质量和准确性。过程中使用多种过滤方法，包括基于文本的过滤、基于视觉的过滤，以确保数据集中的视频和音频与搜索词相关且质量高。

第三步是进行红外和深度模态生成，以及多视角文本生成和增强。使用多种先进模型来生成其他模态的数据。从外，还进行了多视角文本生成和增强。具体来说，使用 OFM 模型生成关键帧标题，并将视频、标题和标签输入到 mPLUG-owl 模型中，以获得视频标题。然后，使用 ChatGPT 模型对视频标题进行细化和增强，从而提高文本的质量。最终，多视角文本增强包括标题、标签、关键帧标题、视频标题和增强标题等多个组成部分，提供了对视频内容的全面和详细的描述。

在这里插入图片描述

实验结果

通过不同的实验来评估 LanguageBind 在各种下游任务中的有效性。首先，使用零样本视频-文本检索来评估 LanguageBind 对齐视频和文本的能力。此外，还使用 LanguageBind 来增强涉及深度、红外图像和音频的下游任务的性能。最后，进行消融实验用来分析了不同参数配置和文本描述对 LanguageBind 性能的影响。

在这里插入图片描述