关注公众号,发现CV技术之美
本文分享 ACL 2021 论文『VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding』,由 Meta AI & CMU 联合提出任务无关视频语言模型视频理解预训练 VLM,代码已开源!
详细信息如下:
论文链接:https://arxiv.org/abs/2105.09996
项目链接:https://github.com/pytorch/fairseq/tree/main/examples/MMPT
01
摘要
我们提出了一种简单的、任务无关的多模态预训练方法,可以接受视频或文本输入,或同时接受视频或文本输入,用于各种最终的下游任务。现有的预训练是针对特定任务的,通过采用需要两种模态的单一交叉模态编码器,这限制其用于检索式任务,或采用两个单模态编码器进行更复杂的多任务学习,这限制早期交叉模态融合。
相反,我们引入了新的预训练mask方案,可以更好地跨模态混合(例如,通过强制文本mask来预测最近的视频嵌入),同时保持可分性(例如,有时只需要单模态预测,而不使用所有输入)。
实验结果表明,与之前的任何方法相比,本文提出的VLM在更广泛的任务范围内表现出色,通常优于特定任务的预训练。
02
Motivation
我们研究了在多模态视频理解中实现任务无关预训练的挑战,以最近的单模态方法为基础。尽管某些语言模型在NLP任务上接近于任务不可知,但由于文本视频检索等跨模态任务,在多模态任务上不可知任务更具挑战性。
现有的视频和语言预训练是特定于任务的,它们采用(1)需要跨模态推理(例如视频字幕)的任务的单个跨模态编码器,或(2)多个单模态编码器/解码器,来结合需要单独嵌入每个模态的特定任务。相反,我们提出了一种称为视频语言模型(video language model,VLM),证明了任务无关模型的预训练是可能的,该模型可以接受文本、视频或两者作为输入。
如上图所示,这种与任务无关的单一编码器方法有几个优点:(1) 它通过多种损失和模型降低了预训练的复杂性;(2) 与基于检索的预训练相比,它对接近下游任务的假设较少,并且与经典LMs一样通用(3) 它鼓励模态间的特征共享,而不具有很强的可分性;(4) 它的参数效率更高。下表总结了最新模型的设计选择。
我们的编码器是一个Transformer块,结合了现有的mask帧模型和mask语言模型(MFM-MLM),并用两种改进多模态融合学习的新方法。首先,我们引入了一种称为mask模态模型(MMMÿ