VLM:Meta AI & CMU提出任务无关视频语言模型视频理解预训练VLM,代码已开源!(ACL 2021)...

关注公众号,发现CV技术之美


本文分享 ACL 2021 论文『VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding』,由 Meta AI & CMU 联合提出任务无关视频语言模型视频理解预训练 VLM,代码已开源!


详细信息如下:

5d7e76c93ff34082d6824f8321bed8d6.png

  • 论文链接:https://arxiv.org/abs/2105.09996

  • 项目链接:https://github.com/pytorch/fairseq/tree/main/examples/MMPT

      01      

摘要

我们提出了一种简单的、任务无关的多模态预训练方法,可以接受视频或文本输入,或同时接受视频或文本输入,用于各种最终的下游任务。现有的预训练是针对特定任务的,通过采用需要两种模态的单一交叉模态编码器,这限制其用于检索式任务,或采用两个单模态编码器进行更复杂的多任务学习,这限制早期交叉模态融合。

相反,我们引入了新的预训练mask方案,可以更好地跨模态混合(例如,通过强制文本mask来预测最近的视频嵌入),同时保持可分性(例如,有时只需要单模态预测,而不使用所有输入)。

实验结果表明,与之前的任何方法相比,本文提出的VLM在更广泛的任务范围内表现出色,通常优于特定任务的预训练。

      02      

Motivation

我们研究了在多模态视频理解中实现任务无关预训练的挑战,以最近的单模态方法为基础。尽管某些语言模型在NLP任务上接近于任务不可知,但由于文本视频检索等跨模态任务,在多模态任务上不可知任务更具挑战性。

现有的视频和语言预训练是特定于任务的,它们采用(1)需要跨模态推理(例如视频字幕)的任务的单个跨模态编码器,或(2)多个单模态编码器/解码器,来结合需要单独嵌入每个模态的特定任务。相反,我们提出了一种称为视频语言模型(video language model,VLM),证明了任务无关模型的预训练是可能的,该模型可以接受文本、视频或两者作为输入。

d9f9fe80db05200154ce33a2185911d2.png

如上图所示,这种与任务无关的单一编码器方法有几个优点:(1) 它通过多种损失和模型降低了预训练的复杂性;(2) 与基于检索的预训练相比,它对接近下游任务的假设较少,并且与经典LMs一样通用(3) 它鼓励模态间的特征共享,而不具有很强的可分性;(4) 它的参数效率更高。下表总结了最新模型的设计选择。

a26b42f0c20262b838660d679f7c15ba.png

我们的编码器是一个Transformer块,结合了现有的mask帧模型和mask语言模型(MFM-MLM),并用两种改进多模态融合学习的新方法。首先,我们引入了一种称为mask模态模型(MMMÿ

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值