基于BERT的多模态应用:图像,视频如何通过BERT处理
本次分享的是结合了预训练的语言模型BERT和视觉方面的结合。分为单流模型和双流模型。单流模型指在训练开始前融合多模态数据,双流模型是先对多模态数据进行独立编码,在进行融合。
文本介绍的1-4模型为单流模型,5-6为双流模型。
1. VideoBERT: A Joint Model for Video and Language Representation Learning
视频+文本的训练方法
通过automatic speech recognition (ASR)模块和vector quantization(VQ)模块,加上BERT形成整个模型。其中ASR模块是用来识别语音的神经网络模块,用来将视频中的语音翻译成文本。VQ模块用来提取视频中图像的特征。
模型采用了sequence word+sequence video的结构训练。结合构图如图所示:
输入数据为视频语音文字拼接视频图像。并采用了BERT原文中常见的mask方法。
2. VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE
同VideoBERT,VisualBERT同样使用了输入数据=image+text的形式。但是区别是在训练开始时先使用Transformer的self attention机制对图像数据和文本进行融合。
其中,text部分使用word token mask。使用RCNN对图像处理,形成图像的分割,再对分割后的图像进行掩模。
3. Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training
同样是训练开始时对数据融合,区别是使用了Faster-RCNN处理图像,使用了图像区域特征和图像位置进行编码。
4. VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS
与2,3工作没有太多本质上的区别。使用了预训练方法MLM处理输入数据。训练任务为MLM,图像标签分类,图像语言匹配任务。
5. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
使用了先编码,后融合的方法。在编码后,使用了context attention对图像和文本配对。训练任务为预训练MLM,图像语言匹配任务。
6. LXMERT: Learning Cross-Modality Encoder Representations from Transformers
与5差不多
训练任务为预训练MLM,图像语言匹配任务,图像掩模,图像问答任务。
Ref:
VideoBERT: A Joint Model for Video and Language Representation Learning
VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training
VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
LXMERT: Learning Cross-Modality Encoder Representations from Transformers