基于BERT的多模态应用：图像，视频如何通过BERT处理

最新推荐文章于 2023-06-10 13:50:18 发布

秃然变强了

最新推荐文章于 2023-06-10 13:50:18 发布

阅读量4.1k

点赞数 1

分类专栏： Transformer 计算机视觉 NLP 文章标签：人工智能机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jxsdq/article/details/106533845

版权

NLP 同时被 3 个专栏收录

15 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

计算机视觉

2 篇文章 0 订阅

订阅专栏

基于BERT的多模态应用：图像，视频如何通过BERT处理

本次分享的是结合了预训练的语言模型BERT和视觉方面的结合。分为单流模型和双流模型。单流模型指在训练开始前融合多模态数据，双流模型是先对多模态数据进行独立编码，在进行融合。

文本介绍的1-4模型为单流模型，5-6为双流模型。

1. VideoBERT: A Joint Model for Video and Language Representation Learning

视频+文本的训练方法

通过automatic speech recognition （ASR）模块和vector quantization（VQ）模块，加上BERT形成整个模型。其中ASR模块是用来识别语音的神经网络模块，用来将视频中的语音翻译成文本。VQ模块用来提取视频中图像的特征。

模型采用了sequence word+sequence video的结构训练。结合构图如图所示：
在这里插入图片描述
输入数据为视频语音文字拼接视频图像。并采用了BERT原文中常见的mask方法。

2. VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE

同VideoBERT，VisualBERT同样使用了输入数据=image+text的形式。但是区别是在训练开始时先使用Transformer的self attention机制对图像数据和文本进行融合。

其中，text部分使用word token mask。使用RCNN对图像处理，形成图像的分割，再对分割后的图像进行掩模。

3. Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

同样是训练开始时对数据融合，区别是使用了Faster-RCNN处理图像，使用了图像区域特征和图像位置进行编码。

4. VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS

与2，3工作没有太多本质上的区别。使用了预训练方法MLM处理输入数据。训练任务为MLM，图像标签分类，图像语言匹配任务。

5. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

使用了先编码，后融合的方法。在编码后，使用了context attention对图像和文本配对。训练任务为预训练MLM，图像语言匹配任务。

6. LXMERT: Learning Cross-Modality Encoder Representations from Transformers

与5差不多
训练任务为预训练MLM，图像语言匹配任务，图像掩模，图像问答任务。

Ref:
VideoBERT: A Joint Model for Video and Language Representation Learning
VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training
VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
LXMERT: Learning Cross-Modality Encoder Representations from Transformers

秃然变强了

关注

1
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。