多模态理解与生成,西南交大&MSRA提出统一的"视频和语言预训练"模型:UniVL!...

关注公众号,发现CV技术之美


本文分享论文『UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation』,由西南交大&MSRA提出《UniVL》,用于多模态理解和生成的统一视频和语言预训练模型!


详细信息如下:

37bc9ed6fb5d9818077a4830a09ac020.png

  • 论文链接:https://arxiv.org/abs/2002.06353

  • 项目链接:https://github.com/microsoft/UniVL

      01      

摘要

近年来,随着NLP和图像语言任务预训练技术的成功,一些视频语言预训练工作逐渐发展起来,以改进与视频文本相关的下游任务。然而,大多数现有的多模态模型都是以理解任务来预训练的,这导致了生成任务的预训练差异。

本文提出了UniVL:一个用于多模态理解和生成的统一视频和语言预训练模型。它由四个组件组成,包括两个单模编码器一个交叉编码器一个带Transformer主干的解码器。设计了五个目标,包括视频-文本联合条件掩蔽语言模型(CMLM)条件掩蔽帧模型(CMFM)视频文本对齐和语言重建,以训练每个组成部分。

作者进一步开发了两种预训练策略,即逐步预训练(StagedP)和增强视频表征(EnhancedV),以使UniVL的训练过程更加有效。预训练是在一个相当大的教学视频数据集HowTo100M上进行的。实验结果表明,UniVL可以学习强大的视频文本表示,并在五个下游任务上获得最先进的结果。

      02      

Motivation

随着自监督学习的发展,预训练技术在视觉和语言表征的学习中起着至关重要的作用。该范式是在大规模未标记数据上预训练模型,并使用特定任务标记的数据优化下游任务。受BERT模型在NLP任务中的成功启发,人们提出了许多多模态图像语言预训练模型。他们的结果证明了各种视觉和语言任务的预训练的有效性。与以往的文本预训练或图像语言预训练不同,本文重点研究了视频语言预训练。

723444f398772282916c01fa737bf235.png

视频包含丰富的视觉、听觉和语言信息,供人们获取知识或学习如何执行任务。这促使研究人员调查人工智能代理是否可以像人类一样从视频中学习任务完成,这些视频既有低级视觉信号,也有高级语义语言信号。因此,多模态视频语言任务的研究和应用都具有重要意义。

在这项工作中,作者首先提出使用视频和ASR预训练统一的视频语言模型来学习视频和语言的联合表达。然后,作者在五个典型的多模态任务(包括理解和生成目标)上微调该模型。上图展示了预训练和微调流程。以多模态视频字幕为例。该模型输入视频和ASR转录本,并预测字幕句子。

以前的大多数模型只在理解任务方面对模型进行预训练。在本文中,作者通过编码器-解码器范例对理解和生成任务进行预训练。尽管并行工作VideoAsMT有一个类似的编码器-解码器,但对于只有一个单一框架的下游任务,它是不灵活的。在本文中,作者开发了一种灵活的方法来学习视频和语言的联合表达,并适应下游的多模态任务。

作者提出了UniVL:一个用于多模

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值