UniVL: A Unifified Video and Language Pre-Training Model for Multimodal Understanding and Generation

动机
  1. 随着近年来自然语言处理和图像语言任务的预训练技术的成功,一些视频语言预训练工作逐渐被开发出来,以改进视频文本相关的下游任务。
  2. 多模态视频语言任务的研究和应用都具有重要的意义。
  3. 近年来,针对多模态任务提出了许多视觉语言预训练模型。以往的模型大多只对模型进行理解任务上的预训练,这导致了生成任务的预训练与finetune不一致。与这些作品不同的是,作者专注于针对视频和文本预训练做统一表示。
  4. 作者通过一个编码器-解码器范例,对理解任务和生成任务进行了预训练。
  5. 虽然并发工作VideoAsMT具有与作者类似的编码器-解码器,但对于只有一个单一统一框架的下游任务来说并不灵活。作者提出了一种灵活的学习视频和语言联合表征和适应下游多模态任务的方法,该模型包含两个独立的编码器,而不是一个统一的编码器-解码器。
方法
简介

在这里插入图片描述

在本工作中,作者首先提出使用在教学视频中视频和有声语音识别(ASR)transcripts来预训练一个统一的视频语言模型来学习视频和语言的联合表示。然后,作者在五个典型的多模态任务上微调了这个模型,包括理解和生成目标。图1展示了作者的预训练和微调流程。以多模态视频captioning为例。该模型输入视频和ASR transcripts并预测captioning句子。

作者提出了一个统一的视频和语言预训练模型UNIVL,用于多模态的识别和生成。作者的UniVL模型采用Transformer作为主干,有四个组件,包括两个单模态编码器、一个交叉编码器和一个解码器。具体来说,作者首先通过两个单模态编码器分别对文本和视觉进行编码。如一个视频-文本联合目标在这两个编码器上执行,其目的是在融合它们之前学习每个模态的更好的表示。这样一种双流设计对于检索任务来说是很自然的,因为它可以扩展到非常大的数据集。所提出的表示可以被索引,并且在视频数量上具有线性复杂度。然后采用基于Transformer的编码器-解码器模型,通过四个任务:条件masked语言模型(CMLM用于语言损坏)、条件masked帧模型(CMFM用于视频损坏)、视频-文本对齐和语言重建。在此基础上,作者设计了两种预训练策略,包括分阶段预训练策略(StagedP)和增强视频表示策略(EnhanceDV)来促进UniVL的预训练。StagedP在作者的设置中有两个部分。在第一阶段,作者只通过视频-文本联合目标对文本编码器和视频编码器进行预训练。然后在第二阶段的整个目标下对所有模块进行预训练。此外,作者在文本上采用了一个完整的masked策略EnhancedV来增强视频的再现性。

架构

该问题定义为:给定输入视频和相应的ASR transcripts对,采用自监督的方法预训练一个学习视频和文本联合表示的模型,并对下游任务进行微调。
在这里插入图片描述

如图3所示,UniVL作为编码器-解码器架构。UniVL的主要结构包括四个组件:两个单模态编码器、一个交叉编码器和一个解码器。该模型对许多文本和视频下游任务具有灵活性。该模型首先利用各种特征提取器提取输入文本标记和视频帧序列的表示。然后,文本编码器采用BERT模型嵌入文本,视频编码器利用Transformer编码器嵌入视频帧。接下来,作者使用了一个基于Transformer的交叉编码器来实现文本和视频之间的交互。最后使用Transformer解码器对输入文本进行重构。

模型

具体来说,模型包括以下几部分:

  1. 预训练。

在这里插入图片描述

作者总结了三种预训练范式,以覆盖先前的视觉-文本预训练模型,考虑到不同的编码器架构,如图2所示。Unicoder-VL、VL-BERT,UNITER、VLP、VideoBERT、ActBERT和VideoAsMT属于图2(a)中的共享类型,其中文本和视觉序列被组合作为一个共享Transformer编码器的输入。ViLBERT和LXMERT是图2(b)所示的交叉型。CBT和HERO是图2©所示联合型。交叉型和联合型体系结构有两个流输入,区别是跨两种模态的交互。与共享类型中的单流输入相比,双流输入可以适应每个模态的不同处理需求,并在不同的表示深度下交互。此外,与交叉式结构相比,联合式结构具有一个跨模态编码器,以实现两个流之间的充分交互。作者采用联合式结构作为编码器。

作者开发了两种预训练策略来有效地训练UniVL模型。

1)StageDP:一个阶段一个阶段的预训练。UniVL可以从文本编码器模块中预训练好的BERT-Base uncased模型中获益。自然的想法是训练一个对等视频编码器作为BERT-Base。作者采用两个阶段的训练方式。在第一阶段,作者只预服务于文本BERT和视频Transformer,以利用视频-文本联合损失(公式(5))来学习权重。接下来,作者降低学习率,继续按照所有五个目标

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值