HERO: Hierarchical Encoder for Video+LanguageOmni-representation Pre-training(未完)

Abstract
我们提出了 HERO,一种用于大规模视频 + 语言全方位表示学习的新框架。 HERO 在分层结构中编码多模态输入,其中视频帧的局部上下文由跨模态转换器通过多模态融合捕获,全局视频上下文由时间转换器捕获。除了标准的掩码语言建模 (MLM) 和掩码帧建模 (MFM) 目标之外,我们还设计了两个新的预训练任务:(i) 视频字幕匹配 (VSM),其中模型预测全局和局部时间对齐; (ii) Frame OrderModeling (FOM),其中模型预测打乱视频帧的正确顺序。HERO 在 HowTo100M 和大规模电视数据集上联合训练,以深入了解具有多角色交互的复杂社会动态。综合实验表明,HERO 在基于文本的视频/视频时刻重新检索、视频问答 (QA)、视频和语言推理以及跨不同领域的视频字幕任务的多个基准测试中实现了最新技术水平。我们还介绍了两个新的具有挑战性的基准测试 How2QA以及用于 VideoQA 和检索的 How2R,从多模态的不同视频内容中收集。
1 Introduction
受 BERT(Devlin 等人,2019 年)的启发,大规模多模态预训练在视觉和语言研究领域盛行(Lu 等人,2019 年;Tan 和 Bansal,2019 年;Chen 等人,2020b ). 该领域有很多早期参与者,包括ViLBERT (Lu et al., 2019)、LXMERT (Tan and Bansal, 2019)、UNITER (Chen et al., 2020b)、VL-BERT (Su et al., 2020) ) 和 Unicoder-VL (Li et al., 2020a)。 然而,大多数大规模预训练模型是为静态图像而不是动态视频量身定制的。 VideoBERT (Sun et al.,2019b) 是第一个应用 BERT 来学习视频文本对联合嵌入的人。 但由于仅使用离散令牌来表示视频帧,因此没有充分利用丰富的视频帧特征。 为了解决这个问题,CBT (Sunet al., 2019a) 提出使用对比损失,但主要用于单独的视频表示学习,文本输入仅被视为辅助信息。 UniViLM (Luo et al., 2020) 更进一步并考虑 理解和生成任务。
一些约束本质上限制了现有模型的成功。 (i) 大多数模型设计都是 BERT 的直接改编,将字幕句子和视觉帧的简单串联作为输入,同时失去了视频和文本模态之间的时间对齐。 (ii) 预训练任务直接借用图像+文本预训练方法,没有利用视频的顺序性。 (iii) 与现有工作中调查的各种图像域相比,当前模型中使用的视频数据集仅限于烹饪或叙述教学视频(Miech 等,2019),不包括包含动态场景和复杂社交互动的视频源。
为了应对这些挑战,我们提出了一个新的视频和语言大规模预训练框架 - HERO(HierarchicalEncodeRforOmni-representation learning)。 如图 1 所示,HERO 将一系列视频剪辑帧及其附带的字幕句子作为输入。 融合字幕句及其伴随的本地视频帧,然后是 (ii) 时间转换器以获得每个视频帧的顺序上下文嵌入,使用所有周围的帧作为全局上下文。 所提出的分层模型首先在帧级别上吸收视觉和文本局部上下文,然后将其转移到全局视频级别的时间上下文。 实验表明,这种新颖的模型设计比扁平的 BERT 式架构实现了更好的性能。
为 HERO 设计了四个预训练任务:(i) 掩码语言建模 (MLM); (ii) 蒙版框架建模 (MFM); (iii) 视频字幕匹配 (VSM); (iv) 帧顺序建模 (FOM)。与之前的工作相比,关键新颖性是 VSM 和 FOM,它们鼓励多模态之间的显式时间对齐以及对视频输入序列性的全面利用。在 VSM 中,模型不仅考虑全局对齐(预测字幕是否与输入视频剪辑匹配),还考虑局部时间对齐(检索字幕应在视频剪辑中定位的时刻)。在 FOM 中,我们随机选择并打乱视频帧的子集,并训练模型以恢复其原始顺序。广泛的消融研究表明,VSM 和 FOM 在视频+语言预训练中都发挥着关键作用。
为了使模型具有比之前工作中使用的教学视频更丰富的知识,我们使用 HowTo100M(叙述式教学视频)(Miech 等人,2019 年)和大型电视数据集(包含跨越不同类型的电视剧集)(Lei等,2018,2020a,b;Liu 等,2020)。与 HowTo100M 中的事实描述相比,TV 数据集包含更复杂的情节,需要综合解读人类情感、社会动态和事件的因果关系,使其成为 HowTo100M 的宝贵补充,更接近现实生活场景。
现有的预训练模型在 YouCook2 (Zhou et al.,2018a) 和 MSR-VTT (Xuet al.,2016a) 数据集上进行评估。 YouCook2只专注于烹饪视频,MSR-VTT中的字幕非常简单。为了在更具挑战性的基准测试中评估我们的模型,我们收集了两个新的数据集:视频时刻检索和问答,How2R 和 How2QA。此外,我们在流行的检索和 QA 任务上评估 HERO,例如 TVR(Lei 等人,2020b)和 TVQA(Lei 等人,2018 年),其中 HERO 大大优于现有模型。我们通过使模型适应 (i) 不同的下游任务:视频和语言推理和视频字幕任务,在 VIOLIN (Liu et al., 2020) 和 TVC (Lei et al.,2020) al.,2020b) 基准; (ii) 不同的视频类型:单通道视频(仅视频)和多通道视频(视频 + 字幕),在 DiDeMo 上报告了优于现有技术的性能(Anne Hendricks 等人,2017a)和MSR-VTT。
我们的主要贡献总结如下。 (i) 我们提出了 HERO,这是一种基于分层转换器的视频+语言表示学习模型。 (ii) 我们提出了新的预训练任务 VSM 和 FOM,它们通过更好地捕捉全球和本地环境中多模态之间的时间对齐来补充 MLM 和 MRM 目标。 (iii) 与之前主要依赖 HowTo100M 的工作不同,我们包含额外的视频数据集用于预训练,鼓励模型从更丰富、更多样化的视觉内容中学习。 (iv) 我们基于 HowTo100M 收集了两个用于视频时刻检索/QA 的新数据集,并将发布新的基准以促进未来的研究。 HERO 在所有评估的任务中实现了最新的技术水平。
2 Related Work
自BERT (Devlin et al., 2019) 诞生以来,语言模型预训练不断取得进步,如XLNet (Yang et al., 2019)、RoBERTa (Liu et al., 2019)、ALBERT (Lanet al., 2020)、UniLM (Dong et al., 2019) 和 T5 (Raffel et al., 2019),它们体现了大规模预训练的超强能力。围绕 BERT,人们对模型压缩(Sun 等人,2019c;Shen 等人,2020 年)和生成任务的扩展(Chen 等人,2020a;Wang 和 Cho,2019 年)的兴趣不断增长。
从语言处理扩展到多模态,后续的研究也出现在视觉+语言空间。突出的工作包括 ViLBERT (Lu et al., 2019)、LXMERT (Tanand Bansal, 2019)、VL-BERT (Su et al., 2020)、Unicoder-VL (Li et al., 2020a)、B2T2 (Albertiet al., 2019)、UNITER (Chen et al., 2020b) 和 VILLA (Gan et al., 2020)。附录A.7 中有详细的评论。
与图像+文本领域的繁荣相反,视频+语言的预训练还处于起步阶段。 到目前为止,VideoBERT (Sun et al., 2019b)、CBT (Sunet al., 2019a)、MIL-NCE (Miech et al., 2020)、Act-BERT (Zhu and Yang, 2020) 和 UniViLM (Luoet al., 2020) ,2020) 是探索该领域的唯一现有工作,涵盖了基于文本的视频检索 (Zhou et al.,2018a;Xu et al.,2016b) 和视频问答 (Maharajet al.,2017;Lei et al., 2016b) 的下游任务。 ,2020a) 到视频字幕 (Zhou et al., 2018b)。
在本文中,我们旨在从四个维度推动视频+语言全表示学习:(i) 更好的模型架构设计; (ii) 更好的预训练任务设计; (iii) 培训机构多样化; (iv) 用于下游评估的新的高质量基准。
3 Hierarchical Video+Language Encoder
在本节中,我们将详细解释所提出的 HERO 架构和四个预训练任务。
3.1 Model Architecture
HERO 的模型架构如图 1所示,它将视频剪辑的帧和字幕句子的文本标记作为输入。将它们输入到 Video Embedder 和 TextEmbedder 中以提取初始表示。 HERO 在分层程序中计算上下文化视频嵌入。首先,每个视觉帧的局部文本上下文由跨模态转换器捕获,计算字幕句子与其相关视觉帧之间的上下文多模态嵌入。然后将整个视频剪辑的编码帧嵌入输入 Temporal Transformer 以学习全局视频上下文并获得最终的上下文化视频嵌入。
Input Embedder 我们将视频片段的视觉帧数表示为v={vi}Nvi=1,其字幕 ass={si}Nsi=1(Nvis 表示视频片段中的视觉帧数,Nsis 表示每个字幕中的句子数)。对于Text Embedder,我们遵循Liu et al.(2019) 并将字幕句子标记为WordPieces 序列(Wu et al.,2016),即wsi={wjsi}Lj=1(Lis the number of tokens insi)。每个子词令牌的最终表示是通过总结其令牌嵌入和位置嵌入,然后是层归一化(LN)层来获得的。
输入嵌入器我们将视频片段的视觉帧表示为v={vi}Nvi=1,将其副标题表示为s={si}N si=1(Nv 是视频片段中的视觉帧数,Ns 是每个字幕中的句子数)。对于Text Embedder,我们遵循Liu et al.(2019) 将字幕句子si 标记为Word Pieces 序列(Wu et al.,2016),即wsi={wjsi}L j=1(L 是令牌)。每个子词标记的最终表示是通过总结其标记嵌入和位置嵌入获得的,然后是层归一化 (LN) 层。对于视频嵌入器,我们首先使用在 ImageNet (Deng et al.,2009) 上预训练的 ResNet (He et al.,2016) 和在 Ki-netics 上预训练的 Slow-Fast (Feichtenhofer et al.,2019) (Kay et al., 2017) 为每个视频帧提取 2D 和 3D 视觉特征。这些特征连接为视觉特征,并通过全连接 (FC) 层馈送,以投影到与令牌嵌入相同的低维空间中。由于视频帧是连续的,它们的位置嵌入可以像在文本嵌入器中一样计算。帧的最终嵌入是通过将 FC 输出和位置嵌入相加,然后通过 LN 层获得的。在输入嵌入器之后,wsi 和 vsi3 的标记和帧嵌入表示为 Wembsi∈RL×dandVembsi∈RK×d(dis thehidden size)。
跨模态转换器为了利用字幕和视频帧之间的内在对齐,对于每个字幕句子 i,我们首先通过跨模态注意学习相应标记 wsi 及其相关视觉帧之间的上下文嵌入。 受最近成功(Chen 等人,2020b;Lu 等人,2019 年)使用 Transformer(Vaswani 等人,2017)进行多模态融合的启发,我们在这里也使用了多层 Trans-former。 Cross-modal Trans-former 的输出是每个字幕标记和每个视频帧的上下文嵌入序列:
在这里插入图片描述
Temporal Transformer 在从 Cross-modal Trans-former 的输出中收集所有视觉帧嵌入 Vcross={Vcrosssi}Nsi=1∈RNv×d 之后,我们使用另一个 Transformer 作为时间注意力从全局上下文中学习上下文化视频嵌入视频剪辑。为了避免丢失位置信息,我们使用剩余连接(He 等人,2016)添加 backVemb∈RNv×d。最终的上下文视频嵌入计算如下:
在这里插入图片描述
与直接连接所有文本标记和视觉帧作为输入的平面 BERT 类编码器相比,所提出的模型有效地利用字幕句子和视频帧之间的时间对齐以更细粒度的方式进行多模态融合。在实验中,我们表明我们的模型designfar 优于类似 BERT 的扁平基线。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值