【综述】基于Transformer的视频语言预训练

本文概述了Transformer在视频语言处理中的预训练方法,包括完成任务、匹配任务和排序任务,如MLM、MFM、VLM等。预训练模型如VideoBERT、HERO、ClipBERT等展示了在视频字幕、检索、问答等任务中的应用。此外,文章讨论了预训练数据集、多模态表示学习和Transformer结构的效率问题。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

 1. 论文和代码地址

fa986a591a829668622a4ff81ae9ba3a.png

Survey: Transformer based Video-Language Pre-training

论文地址:https://arxiv.org/abs/2109.09920


 2. Introduction

Transformer已经在性能上显示出巨大的优势,并在深度学习(DL)中流行起来。与多层感知器(MLP)、卷积神经网络(CNN)和递归神经网络(RNN)等传统深度学习网络相比,transformer更适合于预训练和网络化,因为其网络结构易于深化,且模型bias较小。

典型的pretraining和finetuning是,模型首先在大量(通常是自监督的)训练数据上进行训练吗,然后在较小(通常是任务特定的)下游任务数据集上进行微调。预训练阶段有助于模型学习通用表示法,这有助于完成下游任务。

基于Transformer的预训练方法首次被提出用于自然语言处理(NLP)任务,并取得了显著的性能提升。受NLP领域基于Transformer的预训练方法突破的启发,计算机视觉(CV)研究人员近年来也将Transformer应用于各种任务中。

视频分析和理解更具挑战性,因为视频自然携带多模态信息。对于具有代表性的视频语言任务,如视频字幕和视频检索,现有的方法主要侧重于基于视频帧序列和相应字幕学习视频的语义表示。

在本文中,我们重点对视频语言处理中基于Transformer的预训练方法的最新进展进行了全面概述,包括相应基准的常用度量、现有模型设计的分类,以及一些进一步的讨论。

5f71cb946628ab4abd724b93b568c027.png

标准Transformer的结构如上图所示。


 3. Proxy Tasks

3ab1ab8dadb2651a6bf12d35bbb27017.png

代理任务(Proxy Tasks)主要可以分为三类:

1)完成任务(Completion tasks)的目的是重建被mask的token。典型任务包括Masked Language Modeling (MLM), Masked Frame Modeling (MFM), Masked Token Modeling (MTM), Masked Modal Modeling (MMM) and Language Reconstruction (LR)。

2)匹配任务(Matching tasks)旨在学习不同模态之间的一致性,视频语言匹配(Video Language Matching,VLM)是经典的匹配任务,其目标是匹配视频和文本模态。

3)排序任务(Ordering tasks)是在输入端对序列进行排序,并迫使模型识别原始序列顺序。例如,帧顺序建模(FOM)专门用于利用视频序列的时间特性,而句子顺序建模(SOM)专门用于文本模态。

3.1.  Masked Language Modeling (MLM)

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值