VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding

阿凡凡提

已于 2024-11-19 08:26:27 修改

阅读量1.4k

点赞数 1

分类专栏：多模态文章标签：自然语言处理

于 2022-04-16 09:00:00 首次发布

原文链接：https://arxiv.53yu.com/abs/2105.09996

版权

多模态专栏收录该内容

8 篇文章

订阅专栏

VLM：用于视频理解的任务无关的视频语言模型预训练

摘要

我们提出了一种简化的、与任务无关的多模态预训练方法，它可以接受视频或文本输入，或两者同时，用于各种结束任务。
现有的预训练是针对特定任务的，通过采用需要两种模态的单一模态编码器，限制它们用于检索式终端任务，或使用两个单模态编码器进行更复杂的多任务学习，限制早期跨模态融合。
相反，我们引入了新的预训练掩码方案，可以更好地跨模态混合（例如，通过强制文本掩码来预测最近的视频嵌入），同时保持可分离性（例如，有时需要单峰预测，而不需要使用所有输入）。
实验结果表明，与之前的任何方法相比，在更广泛的任务范围内，该方法表现出了强大的性能，通常优于特定任务的预训练。

任务、对象：多模态预训练方法、预训练掩码方案

问题：现有的预训练是针对特定任务的，限制早期跨模态融合。

介绍

我们的编码器是一个transformer模块，它将现有的掩码帧模型和掩码语言模型（MFM-MLM）两种新方法相结合，以改进多模态融合的学习。

首先，我们引入了一种称为掩码模态模型（MMM）的掩码方案，该方案为一部分训练示例（其余示例用于传统的MFM-MLM）随机掩码（masks）整个模态，从而迫使编码器使用来自另一模态的令牌来生成掩码模态的令牌。

然后，我们引入了一个单一的掩码令牌损失，以分别替换MFM-MLM在视频和文本上的2个损失。掩码令牌损失使用视频和文本令牌的嵌入来学习编码器的联合隐藏状态。

我们还表明，通过使用特定任务的注意力掩码，可以对广泛任务的单个编码器进行微调。实验表明，与以前的模型相比，该模型在更广泛的任务范围内表现良好，包括在检索任务和视频字幕方面分别比使用类似超参数的单峰编码器的特定任务训练前基线高出2%和1%。注意，这些结果也是通过一个比以前的方法要小得多的模型来实现的，进一步证明了改进的融合和跨模态共享。

综上所述，本文的主要贡献如下：（1）提出了一种用于视频理解的任务无关编码器的预训练方案；（2）在不牺牲可分性的前提下，我们引入掩码模态模型（MMM）和掩码令牌损失来实现训练前的跨模态融合；（3）实验结果表明，所提出的简单基线在显著减少参数的情况下获得了有竞争力的性能。

提出一个encoder，提出一个预训练任务 mmm。实验结果很好。

预训练

我们的目标是为视频文本理解中的各种任务训练一个任务无关模型。

我们首先描述了两种掩码方案作为基线：视频帧的掩码帧模型（MFM）和文本令牌的掩码语言模型（MLM）。

然后，我们了掩码模态模型（MMM），它鼓励人们从一种模态中学习另一种模态的表示。最后，我们介绍了掩码令牌损失（MTL），它将掩码视频和文本令牌的损失统一为一个损失函数。

模型介绍

给定一个视频片段（v，t），v和t分别对应于视频模态和文本模态，将其转化为帧，然后将这些frame送到一个不可训练的特征提取器，这个提取器是 S3D。然后提取后输入到一个视频编码器Encodervideo（·）和一个可训练的MLP层，MLP本质就是几个fc层。（全连接层）

fv是视频中的连续帧序列。MLP层允许视频令牌的隐藏大小与BERT的隐藏大小d相同:。类似地，文本的处理与bert相同。最后再连接起来输入到bert。

为了简化多模态预训练，我们采用了变化最小的单一BERT transformer。我们首先通过[SEP]令牌连接视频令牌xv和文本令牌xt，以便视频和文本属于一个对应的BERT段：

我们进一步将x掩码为xmasked（在下一小节中详细介绍），并将整个序列输入到BERT：

其中h表示最后一层的隐藏状态。为了鼓励在一个共享空间中学习视频/文本隐藏状态，以防止隐藏的令牌损失（在第3.3节中介绍），我们使用共享头通过线性投影层预测视频/文本令牌嵌入：

、W和b是来自BERT预测头的权重。通过这种方式，我们的模型学习了来自BERT的从输入到输出的用于视频和文本令牌的联合嵌入空间。

MFM-MLM（掩码帧模型-掩码语言模型）

MFM-MLM：这是最常见的训练任务。

我们对视频采用掩码帧模型（MFM），对文本采用掩码语言模型（MLM）作为基线。

MFM： mask frame 的方式就是将frame token全置为0. 然后使模型还原。这里使用的损失是noisy contrastive estimation (NCE)。

NCE 的思想很简单，它希望我们将真实的样本和一批“噪声样本”进行对比，从中发现真实样本的规律出来。在word2vector 中负采样就是nce的一种，通过噪声对比估计（NCE）：

其中V是视频令牌的所有索引，并且

其中V'表示同一批（batch）中的所有非掩码视频令牌。以这个例子来说，他就将损失函数转化成十分类似于softmax，ev 是预测mask出来的frame， xv是mask掉的原始frame，xj 是所有的一个batch中没有被mask的frame token，简单通俗的讲就是让 ev 于 xv 的内积在 ev 于所有的xj的内积中属于最大。

其中LMLM与BERT相同，MLM与bert一致，为了简洁起见，我们省略了它的细节。

最终损失是MFM和MLM的总和：

MMM and Masked Token Loss （掩码模态模型-掩码令牌损失）

Masked Modality Model

图2：任务无关的预训练（例如，检索样式对齐上的w/o任务）：MFM-MLM：50%的训练示例被掩码为掩码框架模型（MFM）和掩码语言模型（MLM）；其余50%的示例被掩码为掩码模态模型（MMM）（第二行文本为25%，第三行视频为25%）。

什么是mmm，就是完全将一个模态完全mask掉，要么全部mask掉frame, 要么全部mask掉text。其训练时有一半的样本是使用mlm-mfm，另一半样本采用mmm，在mmm中，一半mask frame，一半mask text。

我们引入了掩码模态（MMM），它可以掩码（给定视频文本片段示例中的）所有视频或所有文本令牌。该掩码方案补充了MFM-MLM（例如，在我们的实验中，50%的训练示例被掩码为MMM，其余50%被掩码为MFM-MLM）。这鼓励编码器使用一种模态的令牌来恢复另一种模态的令牌。

Masked Token Loss

我们进一步引入了掩码令牌损失，它统一了MFM和MLM的损失函数。这种损失鼓励学习视频和文本的联合令牌嵌入空间，这两种类型的令牌都有助于预测掩码（视频或文本）令牌。这也提高了MFM和MLM两种不同损失中对比负嵌入的数量。

其损失函数将三种方法使用统一的损失：

我们将掩码令牌损失定义如下：

其中D是在BERT词汇表上的词嵌入，D\s不包括令牌s（如果s是文本令牌）。此外，定义为：

注意，可以是视频或文本令牌，一个预测标记es必须更接近地面真实令牌嵌入（视频标记或词嵌入），并且远离其他视频/文本令牌嵌入。我们在第5节进行了消融研究，以表明LVLM比LMFM-MLM更有效。

该损失函数类似于刚才的那个。（ev 是预测mask出来的frame， xv是mask掉的原始frame，xj 是所有的一个batch中没有被mask的frame token，简单通俗的讲就是让 ev 于 xv 的内积在 ev 于所有的xj的内积中属于最大。）与刚才的区别就是xj不只有batch中没有被mask的frame token，还加上了整个bert 的word embedding 词库。简单说就是既可以预测是frame ，也可以预测text。

微调（Fine-tuning）

在本节中，我们将介绍如何使用不同类型的注意力掩码来微调VLM以完成各种任务，如图3所示。

图3：下游任务的微调：我们为BERT采用不同类型的注意掩码，以适应需要不同模态的下游任务：在每个框中，上面的子图表示正向计算；下面的子图表示平方自我注意掩码，其中每行的令牌都有一个非白色列的加权和。

数据集

预训练

我们采用Howto100M数据集（Miech et al.，2019）进行预训练，该数据集包含最初来自YouTube的教学视频，是通过搜索维基百科（www.wikihow.com）中的关键字获得的教学视频。

在过滤了不可用的视频后，我们得到了1.1M个视频。我们将4000个视频分割为验证集，其余视频用于预训练。平均而言，每段视频的持续时间约为6.5分钟，有110对片段-文本对。从ASR中删除重叠片段中的重复文本后，我们得到了大约7.7 GB以上的字幕文本，平均每秒2.4个令牌。

微调Fine-tuning

MSR-VTT

（Xu等人，2016）是文本视频检索和Video QA（视频问答）的流行数据集。它有开放域视频片段，每个训练片段有20个由人类标记的字幕句子。共有20个类别的10K个视频中的200K个片段文本对，包括体育、音乐等。继JSFusion（Yu等人，2018年；Miech等人，2019年）之后，我们随机抽取了1000个片段文本对作为测试数据。我们进一步使用QA测试数据（Yu等人，2018年）作为多项选择Video QA的数据集。

Youcook2

（Zhou等人，2017年）包含了来自YouTube的具有14K视频片段的89种食谱的2000个烹饪视频。总持续时间为176小时（平均5.26分钟）。每个视频片段都带有一个字幕句子。按照中的分割设置（Miech等人，2019），我们评估了基于文本的视频检索和多模态视频字幕任务。我们过滤数据，确保预训练和评估数据之间没有重叠。在过滤掉不可用的文本后，我们从1222个视频中获得了9473个训练片段文本对，从430个视频中获得了3305个测试片段文本对。

COIN

（Tang等人，2019年）被用来评估动作分割。它有11827段视频（476小时），每段视频平均有3.91段，总共有46354段。共有778个步骤标签，外加一个背景（外部）标签。因为一个视频可以持续几分钟，远远超过VLM视频段的最大长度。我们使用的滑动窗口的步长为16，窗口大小为32。在推理过程中，我们对来自多个窗口的重叠帧的对数进行平均。

Cross Task （交叉任务）

（Zhukov等人，2019）是一个动作定位数据集，包含83个不同的任务和4.7k视频。每个任务都有一组步骤，在视频的时间帧上标注文本描述。我们使用通过官方代码3分割的测试数据，其中包含带注释的1690个视频。其余540个带注释的视频用于弱监督训练。

实验

实验部分主要是与其他模型效果做对比，还有损失函数的对比，及一些mask 率的消融实验等等。

我们首先研究了VLM与其他基于transformer的多模态预训练基线相比的设计选择。如表1所示，我们收集了这些模型的训练范例（training paradigms）、模型大小（model sizes）等。

VLM比其他模型小得多，因为它只是一个BERTBASE（uncased），但它仍然是完全自我监督的、任务不可知的（例如，没有关于检索或自回归式任务的训练），并且支持联合检索和文本生成。

表1：SSL表示自我监督学习；MTL表示多任务学习，参数数量(#params)，loss的数量（#loss），单峰、跨模态、编码器/解码器的数量(unimodal/cross-modal encoders/decoders)，以及是否支持联合空间中的检索(joint retrieval) 和文本生成(text generation)。VLM非常简单，参数和限制较少。

定量分析（Quantitative Analysis ）

我们研究了VLM在具有非常基本设置的微调任务上的性能。

Text-video Retrieval （文本视频检索）

我们使用MSR-VTT和Youcook2来评估文本视频检索的性能。VLM在这两个数据集上取得了很好的性能，表明MMM和孤立的自我注意掩码可以一起用于联合检索。我们的预训练与任务无关，但仍优于检索式预训练的基线。

表2：在MSR-VTT数据集上的文本-视频检索结果。

表3：Youcook2数据集上基于文本的视频检索结果。

Action Segmentation （动作分割）

Table 4: Action segmentation on COIN dataset.表4：COIN数据集上的动作分割。

Action Step Localization （步骤本地化）

表5：Cross Task的行动步骤定位结果。VLM优于其他基线，表明其良好的令牌级视频表示。请注意，此任务仅测试视频的隐藏状态，表明VLM的单峰编码能力没有受到影响。

Video Question Answering（视频问答）

表6：在MSR-VTT上评估的视频问答（多项选择）。

Video Captioning（视频字幕）

表7:Youcook2数据集上的视频字幕显示结果。

定性分析（Qualitative Analysis）

错误分析

文本-视频检索.

表10：MSR-VTT文本视频检索100个错误的错误分析：我们将错误分为四（4）类：对象（例如狗或猫）、对象属性（例如性别、年龄等）、动作（动作的细微差异）和特定错误与一般错误。用于一般查询的特定视频（反之亦然）（人物与篮球运动员），有时可能不是错误，但很难评估。

视频字幕

我们进一步检查了从视频字幕中生成的文本。请注意，我们的视频字幕不支持ASR或transcript，因此视频是生成文本内容的唯一来源，视频理解的错误很容易反映在文本中。从附录的表11中，我们注意到一种主要的错误类型来自形状和颜色相似的物体，例如洋葱圈和虾。

表11:Youcook2上视频字幕的错误分析：VLM在识别形状和颜色相似的对象时容易出错，从而生成错误的文本。

消融研究

我们对以下研究感兴趣：（1）MMM的示例百分比（w/MMM x%）；（2）文本标记的最小长度，其中视频的长度将由文本标记的开始/结束时间戳决定；（3） LVLM的性能（方程式8）。结果如表8和表9所示。

Effects of MMM （MMM的影响）

如果没有MMM（w/MMM 0%或MFM-MLM 100%），性能显著下降。这表明，单纯采用传统的MFM-MLM掩码可能无法很好地学习联合视频/文本表示。具有不同概率（30%或70%）的MMM，50%是最好的。

Minimum Length of Texts（文本的最小长度）

片段的长度对于检索任务非常重要。我们在更长的视频/文本对（至少16个文本令牌）上运行VLM。性能略有下降，表明长片段的预训练可能不包括短片段的微调任务。

Effects of Masked Token Loss（掩码令牌loss的影响）

使用多任务类型的loss LMFM-MLM可能会降低性能。这表明从视频/文本令牌中学习掩码令牌会有所帮助。

表8:Youcook2上基于文本的视频检索的VLM的消融研究。

表9:Youcook2数据集上用于视频字幕的VLM的消融研究。

结论

我们提出了一种任务无关的预训练方法，该方法采用了新的掩码方案，可以训练出一种既可以接受视频输入，也可以接受文本输入，或者同时接受视频和文本输入的单一的掩码语言模型。我们发现，这个简单的VLM模型可以有效地调整为广泛的下游任务，如文本视频检索和通过不同类型的注意力掩码的视频字幕。实验结果表明，所提出的方法在保持竞争性能的同时，所需的参数数量明显少于竞争方法。