多模态理解与生成，西南交大&MSRA提出统一的"视频和语言预训练"模型：UniVL！...-CSDN博客

本文链接：https://blog.csdn.net/moxibingdao/article/details/124642557

西南交大与微软亚洲研究院合作提出UniVL，这是一种统一的视频和语言预训练模型，旨在促进多模态理解和生成。该模型包含四个组件，使用五个预训练目标进行训练，并在多个下游任务中取得最佳结果。UniVL通过逐步预训练和增强视频表示策略优化训练过程，展示了在视频语言预训练领域的进步。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关注公众号，发现CV技术之美

本文分享论文『UniVL: A Uniﬁed Video and Language Pre-Training Model for Multimodal Understanding and Generation』，由西南交大&MSRA提出《UniVL》，用于多模态理解和生成的统一视频和语言预训练模型！

详细信息如下：

论文链接：https://arxiv.org/abs/2002.06353
项目链接：https://github.com/microsoft/UniVL

摘要

近年来，随着NLP和图像语言任务预训练技术的成功，一些视频语言预训练工作逐渐发展起来，以改进与视频文本相关的下游任务。然而，大多数现有的多模态模型都是以理解任务来预训练的，这导致了生成任务的预训练差异。

本文提出了UniVL：一个用于多模态理解和生成的统一视频和语言预训练模型。它由四个组件组成，包括两个单模编码器、一个交叉编码器和一个带Transformer主干的解码器。设计了五个目标，包括视频-文本联合、条件掩蔽语言模型(CMLM)、条件掩蔽帧模型(CMFM)、视频文本对齐和语言重建，以训练每个组成部分。

作者进一步开发了两种预训练策略，即逐步预训练（StagedP）和增强视频表征（EnhancedV），以使UniVL的训练过程更加有效。预训练是在一个相当大的教学视频数据集HowTo100M上进行的。实验结果表明，UniVL可以学习强大的视频文本表示，并在五个下游任务上获得最先进的结果。

Motivation

随着自监督学习的发展，预训练技术在视觉和语言表征的学习中起着至关重要的作用。该范式是在大规模未标记数据上预训练模型，并使用特定任务标记的数据优化下游任务。受BERT模型在NLP任务中的成功启发，人们提出了许多多模态图像语言预训练模型。他们的结果证明了各种视觉和语言任务的预训练的有效性。与以往的文本预训练或图像语言预训练不同，本文重点研究了视频语言预训练。

视频包含丰富的视觉、听觉和语言信息，供人们获取知识或学习如何执行任务。这促使研究人员调查人工智能代理是否可以像人类一样从视频中学习任务完成，这些视频既有低级视觉信号，也有高级语义语言信号。因此，多模态视频语言任务的研究和应用都具有重要意义。

在这项工作中，作者首先提出使用视频和ASR预训练统一的视频语言模型来学习视频和语言的联合表达。然后，作者在五个典型的多模态任务（包括理解和生成目标）上微调该模型。上图展示了预训练和微调流程。以多模态视频字幕为例。该模型输入视频和ASR转录本，并预测字幕句子。

以前的大多数模型只在理解任务方面对模型进行预训练。在本文中，作者通过编码器-解码器范例对理解和生成任务进行预训练。尽管并行工作VideoAsMT有一个类似的编码器-解码器，但对于只有一个单一框架的下游任务，它是不灵活的。在本文中，作者开发了一种灵活的方法来学习视频和语言的联合表达，并适应下游的多模态任务。

作者提出了UniVL：一个用