＜＜多模态预训练and视频问答＞＞2022：LAVENDER: Unifying Video-LanguageUnderstanding as Masked Language Modeling

最新推荐文章于 2024-04-21 18:08:12 发布

金克丝、

最新推荐文章于 2024-04-21 18:08:12 发布

阅读量520

点赞数

分类专栏： Visual Question Answering Multi-Modal Pretraing 文章标签：语言模型人工智能自然语言处理 transformer

本文链接：https://blog.csdn.net/m0_56533033/article/details/125401217

版权

Visual Question Answering 同时被 2 个专栏收录

26 篇文章 12 订阅

订阅专栏

Multi-Modal Pretraing

12 篇文章 4 订阅

订阅专栏

3.1、Model Architecture

3.2、Our Unified Framework

4、Experiments

5、Conclusion and Discussion of Broader Impact

Abstract：

大多数VL模型都是采用编码器-解码器结构来将image-text任务统一为序列到序列的生成任务，然而，现有的视频语言（VidL）模型在模型架构和训练优化目标上对每个任务都要进行特定于该任务的设计。我们探索了一个统一的VidL框架LAVENDER，其中MLM被用作所有预训练和下游任务的通用的接口，这种统一便产生了一种简化的模型架构，在多模态编码器的顶部只需要一个少量参数的MLM head，而不是一个具有更多参数的解码器。实验结果表明，在14个VidL基准测试中取得了有竞争力的性能，包括视频问答、文本到视频检索和video captioning。

一、Introduction

基于transformer的大规模预训练已成为NLP和VL研究的主流。随着image-text预训练的巨大成功，视频语言（VidL）预训练也受到了越来越多的关注。通过在大量视频文本对上对端到端multi-modal transformer进行预训练，在广泛的VidL任务中实现了最先进的性能，包括视频问答、文本到视频检索和video captioning。然而，所有现有的VidL工作都需要在transformer编码器顶部为每个预训练或下游任务设计特定于任务的head。例如，在预训练期间，需要使用单独的MLM和VTM head，同时需要为每个下游任务自适应添加新的单独的带有额外参数的head。此外，由于不同任务的特殊性质，它们通常使用不同的训练目标进行建模。例如，multiple choice video QA是一个多分类问题，而video captioning是一个生成任务。一个自然但具有挑战性的问题出现了：我们是否可以有一个统一的体系结构来同时支持所有的VidL任务，而不引入特定于任务的head？

因此，我们提出了LAVENDER，这是一个统一的VidL框架，其中所有预训练和下游任务都视为简单的MLM任务。如图1所示，我们使用两个预训练任务：MLM和VTM。然而，对于VTM，我们在视频文本输入的末尾添加一个和MLM任务一样的[MASK] token，并使用相同的MLM head来预测输入的视频文本对是否匹配。注意，VTM为二分类问题，在这里，我们只需将VTM的true或false输出视为从整个词汇表直接预测的token，以便MLM和VTM都可以使用相同的参数集和词汇表。

在下游任务微调中，我们在所有下游任务的预训练中使用相同的MLM head，而不是抛弃在预训练中使用的MLM head并添加新的heads(这是之前所有VidL工作的标准做法)。具体来说：

For text-to-video retrieval，我们以与VTM预训练任务中相同的方式训练模型。在推理过程中，对于每个文本查询，我们将其与每个候选视频连接起来，并计算[mask] token被预测为true的概率，然后对所有候选视频进行排序。
For multiple-choice video QA，我们将问题和每个候选答案按顺序连接起来，并在序列的末尾添加一个[mask] token，并使用相同的MLM head将答案预测为“n”（假设真值是第n个答案）。
For open-ended video QA，由于数据集中的大多数基本事实答案只包含一个单词，我们只需在视频问题输入的末尾添加一个[mask] token，并让模型从整个词汇表中预测答案。
For video captioning，在训练期间，我们mask掉一定数量百分比的tokens，然后使用seq2seq attention mask预测被mask掉的token。在推断过程中，通过每次插入一个[mask] token，自动回归预测完整caption。

LAVENDER的灵感来自VL-T5【13】、UNICORN【80】和OFA【68】，旨在为图像文本任务提供统一的预训练框架。然而，我们的与他们的非常不同，因为我们只使用编码器模型，并在其上额外使用一个轻量级参数MLM head，而[13、80、68]中需要一个大型transformer解码器。通过将所有VidL任务统一为MLM，LAVENDER可以无缝地适应不同的VidL任务，并在现有任务特定方法上实现新功能。例如（i）在多任务微调时，使用一组参数值支持不同的VidL任务；（ii）在few-shot微调下，测试数据具有更好的泛化性；（iii）视频问答的zero-shot推理。

二、Related Work

Video-Language Pre-training. 研究人员从大规模image-text预训练[11，62]中分离出来，利用大规模多模态数据[10，27，58，46，84，3，83]构建预训练视频语言（VidL）模型[42，49，2，79，75，55，74]，用于广泛的生成性[86，76，30]和判别性[23，44，29]任务。包括VideoBERT【61】、HERO【32】、ActBERT【87】、ClipBERT【28】和MERLOT【84】。常见的预训练任务包括MLM，VTM，frame order modeling[32，84]和masked visual modeling[32，16]。为简单起见，我们仅将MLM和VTM用于预训练，因为我们观察到其他预训练任务对于提高下游任务的最终性能并不是那么重要（结果见附录A）。

现有方法都需要针对不同的下游任务制定特定于任务的模型结构或目标。例如，文本到视频检索[21，54]被建模为二分类[28]或对比学习[45，17]；视频问答[23，73]为多分类；video caption可以通过多层感知器的MLM解决【35】，也可以通过文本解码器的前缀语言建模解决【57】。

Unified Frameworks for Multimodal Understanding. 有些工作希望构建一个模型，该模型使用统一的体系结构同时处理不同的任务，大致分为两个方向。第一种是为每个下游任务插入特定于任务的head。这些特定于任务的输出层需要专家知识，且不太可能推广到新任务。例如，当一个新的问答任务进入时，需要一个输出维度为答案词汇大小的新的Linear层。第二种是统一不同下游任务的输入输出格式，有了统一的词汇表，不同的下游任务可以用共享的编码器-解码器体系结构形成序列到序列的生成。

我们的工作旨在为VidL提供一个统一的框架，与现有VidL模型中使用的特定于任务的模型架构和目标形成对比（图2c与图2a）。LAVENDER与之前的统一的图像-文本模型的不同之处在于，所有预训练和下游任务都统一为MLM，并且使用了一个简单的仅编码器的架构，该架构具有轻量级参数MLM head，而不是序列到序列建模（图2c与图2b）。

三、LAVENDER

3.1、Model Architecture

给定一对文本和视频，我们首先通过单模态编码器（即视觉编码器和文本编码器）分别对它们进行编码，以生成单模态特征。我们遵循之前的工作[28，84]，只对少数帧进行少量采样，以减轻计算负担。多模态融合编码器将文本特征和视觉特征投影到共享的嵌入空间中，以学习跨模态表示。由于LAVENDER将预训练任务和下游任务统一为MLM，因此使用相同的MLM head在不同任务之间生成跨模态表示的最终输出。

Vision Encoder. 我们采用Video Swin Transformer（VidSwin）作为视觉编码器，将原始视频帧输入编码为一系列视觉特征。给定大小为 $H\times W\times 3$ 的 $T$ 个输入视频帧，我们首先将每个帧分割为大小为 $h\times w$ 的非重叠块。作为预处理步骤，VidSwin还会执行size为2的时间维度下采样。为了让LAVENDER能够灵活地利用视频文本和图像文本数据进行预训练，我们删除了这种时间下采样。因此，我们可以从VidSwin的最后一个编码器块中提取一系列大小为 $T\times\frac{H}{h}\times\frac{W}{w}$ 的视觉特征，通过全连接层投影到与文本特征相同的尺寸空间。我们按照【16】的要求，在空间和时间维度上添加可学习的位置嵌入层，生成的视觉特征用作融合编码器的输入，以学习跨模态表示。

Text Encoder. 输入的文本首先token化单词token序列，在token序列的开头和结尾插入两个特殊token [CLS]和[SEP]。我们采用了一个轻量级的word embedding层【14】作为文本编码器，高维文本嵌入与视觉特征连接，然后输入融合编码器。

Multimodal Fusion Encoder. 融合编码器是一个12层、768维的Transformer。为了得到跨模态表示，通过自注意操作将视觉和文本编码器的单模态特征融合在一起。

3.2、Our Unified Framework

现在，我们介绍如何以统一的方式训练LAVENDER。

Video-language Pre-training. 我们采用两个目标来预训练LAVENDER。第一是MLM，我们随机将15%的token替换为[MASK] token、random token或same token。第二是视频文本匹配，但转换为MLM任务，具体来说，我们在文本句子中附加一个[MASK]标记，以模仿MLM任务中的mask文本输入。在每个训练步骤中，我们用同一batch中不同视频的文本随机替换给定视频的相应文本。在[MASK]位置，LAVENDER重复使用MLM任务中使用的完全相同的MLP进行预测。虽然真值标签仅限于两个token，即true和false，但模型预测是在所有词汇表中进行的。

Downstream Adaptation. 如图1所示，我们可以很容易地将预训练好的LAVENDER应用于4种下游任务，包括文本到视频检索、多项选择视频问答、开放式视频问答和视频caption。对于每个任务，我们通过插入现有tokon或将现有token替换为[MASK] token来转换文本输入，这样所有任务都可以通过交叉熵损失进行优化，并根据在[MASK]位置预测的token进行最终预测。

        For text-to-video retrieval 与预训练期间的VTM类似，我们在文本输入的末尾插入一个[MASK] token。在训练期间，我们将相应的视频文本对视为true，将通过随机抽样文本替换真实文本而构建的所有其他成对组合视为false，在推理过程中，给定一个文本查询，我们根据模型置信度对视频进行排序，以预测[MASK]位置为true还是false。

        For multiple-choice video QA 我们将每个候选答案选择依次与问题拼接，中间各有一个[SEP] token。然后在末尾添加一个[MAKS] token，以允许模型预测真值答案的正确的索引。例如，对于一个问题和5个答案选项，我们用Q+[SEP]+A0+[SEP]+...+A4+[MASK]作为文本输入。如果An是正确答案，则[MASK]的标签为n。通过MLM head，模型在整个词汇表的[MASK]位置进行预测。在推理过程中，为了确保答案有效，我们对所有答案（例如，{0,1,2,3,4}）进行最可能的预测。

        For open-ended video QA 我们同样在问题末尾注入[MASK] token。为了简单起见，我们只添加一个[MASK] token，然后，我们将真值答案token化为[MASK]预测的真值标签。如果token化答案的长度超过1个单词，我们在训练过程中会忽略它，并将其视为推理过程中的错误预测。

For video captioning 我们使用self-attention mask，其中caption token只能关注现有的输出的token，这模拟了单向seq2seq生成过程。在训练期间，我们随机用[MASK] token mask掉一些单词，并应用MLM优化。在推理过程中，caption以自回归的方式生成。在每个生成步骤，模型都会看到整个视频输入和以前生成的token，以及一个[MASK] token，在该token处，模型会对当前token进行预测。

4、Experiments

看看原文就好，精华都在前三节。

5、Conclusion and Discussion of Broader Impact

我们介绍了第一个统一视频语言（VidL）框架LAVENDER，它可以使用统一的MLM任务处理各种VidL任务，在没有任何特定于任务的体系结构的情况下，LAVENDER在所考虑的14个基准测试中，有12个在性能上优于现有的最先进水平。实验表明，LAVENDER更适合视频问答任务的多任务学习、few-shot泛化和zero-shot测试。LAVENDER有几个潜在的局限性，这将为未来的工作提供有希望的方向，包括：（i）扩展到细粒度VidL任务（例如，视频语料库矩检索[30]）；（ii）在few-shot learning或prompt tuning的情况下更有效。与其他靠数据推动的系统一样，LAVENDER也面临着类似的风险，这些风险可能会对产生负面影响，例如训练数据的偏差和大规模预训练的能耗。然而，我们相信，我们的统一框架与多任务学习相结合，很可能会降低内存和能源成本，并有可能在实际应用中实现更经济的部署。

金克丝、

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
＜＜多模态预训练and视频问答＞＞2022：LAVENDER: Unifying Video-LanguageUnderstanding as Masked Language Modeling

目录Abstract：一、Introduction二、Related Work三、LAVENDER3.1、Model Architecture3.2、Our Unified Framework4、Experiments5、Conclusion and Discussion of Broader Impact 基于transformer的大规模预训练已成为NLP和VL研究的主流。随着image-text预训练的巨大成功，视频语言（VidL）预训练也受到了越来越多的关注。通过在大量视频文本对上对端
复制链接

扫一扫