VLM：Meta AI & CMU提出任务无关视频语言模型视频理解预训练VLM，代码已开源！(ACL 2021)...

最新推荐文章于 2024-04-12 13:55:04 发布

我爱计算机视觉

最新推荐文章于 2024-04-12 13:55:04 发布

阅读量598

点赞数

文章标签：算法 python 机器学习人工智能深度学习

本文链接：https://blog.csdn.net/moxibingdao/article/details/124223775

版权

本文介绍Meta AI与CMU合作的ACL 2021论文，提出任务无关视频语言模型VLM，用于视频理解预训练，代码已开源。VLM在多个下游任务上表现出色，包括文本视频检索、动作分割等，并通过新的mask方案实现跨模态融合。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

本文分享 ACL 2021 论文『VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding』，由 Meta AI & CMU 联合提出任务无关视频语言模型视频理解预训练 VLM，代码已开源！

详细信息如下：

论文链接：https://arxiv.org/abs/2105.09996
项目链接：https://github.com/pytorch/fairseq/tree/main/examples/MMPT

摘要

我们提出了一种简单的、任务无关的多模态预训练方法，可以接受视频或文本输入，或同时接受视频或文本输入，用于各种最终的下游任务。现有的预训练是针对特定任务的，通过采用需要两种模态的单一交叉模态编码器，这限制其用于检索式任务，或采用两个单模态编码器进行更复杂的多任务学习，这限制早期交叉模态融合。

相反，我们引入了新的预训练mask方案，可以更好地跨模态混合（例如，通过强制文本mask来预测最近的视频嵌入），同时保持可分性（例如，有时只需要单模态预测，而不使用所有输入）。

实验结果表明，与之前的任何方法相比，本文提出的VLM在更广泛的任务范围内表现出色，通常优于特定任务的预训练。

Motivation

我们研究了在多模态视频理解中实现任务无关预训练的挑战，以最近的单模态方法为基础。尽管某些语言模型在NLP任务上接近于任务不可知，但由于文本视频检索等跨模态任务，在多模态任务上不可知任务更具挑战性。

现有的视频和语言预训练是特定于任务的，它们采用（1）需要跨模态推理(例如视频字幕)的任务的单个跨模态编码器，或（2）多个单模态编码器/解码器，来结合需要单独嵌入每个模态的特定任务。相反，我们提出了一种称为视频语言模型（video language model，VLM），证明了任务无关模型的预训练是可能的，该模型可以接受文本、视频或两者作为输入。

如上图所示，这种与任务无关的单一编码器方法有几个优点：（1）它通过多种损失和模型降低了预训练的复杂性；（2）与基于检索的预训练相比，它对接近下游任务的假设较少，并且与经典LMs一样通用（3）它鼓励模态间的特征共享，而不具有很强的可分性；（4）它的参数效率更高。下表总结了最新模型的设计选择。

我们的编码器是一个Transformer块，结合了现有的mask帧模型和mask语言模型（MFM-MLM），并用两种改进多模态融合学习的新方法。首先，我们引入了一种称为mask模态模型（MMM&#x

最低0.47元/天解锁文章

我爱计算机视觉

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
VLM：Meta AI & CMU提出任务无关视频语言模型视频理解预训练VLM，代码已开源！(ACL 2021)...

关注公众号，发现CV技术之美本文分享 ACL 2021 论文『VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding』，由 Meta AI & CMU 联合提出任务无关视频语言模型视频理解预训练 VLM，代码已开源！详细信息如下：论文链接：https://arxiv....
复制链接

扫一扫