【综述】基于Transformer的视频语言预训练

最新推荐文章于 2024-06-25 14:24:12 发布

我爱计算机视觉

最新推荐文章于 2024-06-25 14:24:12 发布

阅读量1.9k

点赞数 1

文章标签：大数据自然语言处理算法 python 计算机视觉

本文链接：https://blog.csdn.net/moxibingdao/article/details/124207366

版权

本文概述了Transformer在视频语言处理中的预训练方法，包括完成任务、匹配任务和排序任务，如MLM、MFM、VLM等。预训练模型如VideoBERT、HERO、ClipBERT等展示了在视频字幕、检索、问答等任务中的应用。此外，文章讨论了预训练数据集、多模态表示学习和Transformer结构的效率问题。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

▊ 1. 论文和代码地址

Survey: Transformer based Video-Language Pre-training

论文地址：https://arxiv.org/abs/2109.09920

▊ 2. Introduction

Transformer已经在性能上显示出巨大的优势，并在深度学习(DL)中流行起来。与多层感知器（MLP）、卷积神经网络（CNN）和递归神经网络（RNN）等传统深度学习网络相比，transformer更适合于预训练和网络化，因为其网络结构易于深化，且模型bias较小。

典型的pretraining和finetuning是，模型首先在大量（通常是自监督的）训练数据上进行训练吗，然后在较小（通常是任务特定的）下游任务数据集上进行微调。预训练阶段有助于模型学习通用表示法，这有助于完成下游任务。

基于Transformer的预训练方法首次被提出用于自然语言处理（NLP）任务，并取得了显著的性能提升。受NLP领域基于Transformer的预训练方法突破的启发，计算机视觉（CV）研究人员近年来也将Transformer应用于各种任务中。

视频分析和理解更具挑战性，因为视频自然携带多模态信息。对于具有代表性的视频语言任务，如视频字幕和视频检索，现有的方法主要侧重于基于视频帧序列和相应字幕学习视频的语义表示。

在本文中，我们重点对视频语言处理中基于Transformer的预训练方法的最新进展进行了全面概述，包括相应基准的常用度量、现有模型设计的分类，以及一些进一步的讨论。

标准Transformer的结构如上图所示。

▊ 3. Proxy Tasks

代理任务（Proxy Tasks）主要可以分为三类：

1）完成任务（Completion tasks）的目的是重建被mask的token。典型任务包括Masked Language Modeling (MLM), Masked Frame Modeling (MFM), Masked Token Modeling (MTM), Masked Modal Modeling (MMM) and Language Reconstruction (LR)。

2）匹配任务（Matching tasks）旨在学习不同模态之间的一致性，视频语言匹配（Video Language Matching，VLM）是经典的匹配任务，其目标是匹配视频和文本模态。

3）排序任务（Ordering tasks）是在输入端对序列进行排序，并迫使模型识别原始序列顺序。例如，帧顺序建模（FOM）专门用于利用视频序列的时间特性，而句子顺序建模（SOM）专门用于文本模态。

3.1. Masked Language Modeling (MLM)

最低0.47元/天解锁文章

我爱计算机视觉

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【综述】基于Transformer的视频语言预训练

关注公众号，发现CV技术之美▊1. 论文和代码地址Survey: Transformer based Video-Language Pre-training论文地址：https://arxiv.org/abs/2109.09920▊2. IntroductionTransformer已经在性能上显示出巨大的优势，并在深度学习(DL)中流行起来。与多层感知器（MLP）、...
复制链接

扫一扫