基于BERT的多模态应用:图像,视频如何通过BERT处理

基于BERT的多模态应用:图像,视频如何通过BERT处理

本次分享的是结合了预训练的语言模型BERT和视觉方面的结合。分为单流模型和双流模型。单流模型指在训练开始前融合多模态数据,双流模型是先对多模态数据进行独立编码,在进行融合。

文本介绍的1-4模型为单流模型,5-6为双流模型。

1. VideoBERT: A Joint Model for Video and Language Representation Learning

视频+文本的训练方法

通过automatic speech recognition (ASR)模块和vector quantization(VQ)模块,加上BERT形成整个模型。其中ASR模块是用来识别语音的神经网络模块,用来将视频中的语音翻译成文本。VQ模块用来提取视频中图像的特征。

模型采用了sequence word+sequence video的结构训练。结合构图如图所示:
在这里插入图片描述
输入数据为视频语音文字拼接视频图像。并采用了BERT原文中常见的mask方法。

2. VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE

同VideoBERT,VisualBERT同样使用了输入数据=image+text的形式。但是区别是在训练开始时先使用Transformer的self attention机制对图像数据和文本进行融合。

其中,text部分使用word token mask。使用RCNN对图像处理,形成图像的分割,再对分割后的图像进行掩模。

3. Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

同样是训练开始时对数据融合,区别是使用了Faster-RCNN处理图像,使用了图像区域特征和图像位置进行编码。

4. VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS

与2,3工作没有太多本质上的区别。使用了预训练方法MLM处理输入数据。训练任务为MLM,图像标签分类,图像语言匹配任务。

5. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

使用了先编码,后融合的方法。在编码后,使用了context attention对图像和文本配对。训练任务为预训练MLM,图像语言匹配任务。

6. LXMERT: Learning Cross-Modality Encoder Representations from Transformers

与5差不多
训练任务为预训练MLM,图像语言匹配任务,图像掩模,图像问答任务。

Ref:
VideoBERT: A Joint Model for Video and Language Representation Learning
VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training
VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
LXMERT: Learning Cross-Modality Encoder Representations from Transformers

  • 1
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1.项目代码均经过功能验证ok,确保稳定可靠运行。欢迎下载体验!下载完使用问题请私信沟通。 2.主要针对各个计算机相关专业,包括计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师、企业员工。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可直接作为毕设、课程设计、大作业、初期项目立项演示等用途。 4.当然也鼓励大家基于此进行二次开发。在使用过程中,如有问题或建议,请及时沟通。 5.期待你能在项目中找到乐趣和灵感,也欢迎你的分享和反馈! 【资源说明】 基于ResNet+BERT的多种融合方法实现的多模态情感分析源码+数据集+项目说明(人工智能课程实验).zip 本项目基于Hugging Face和torchvision实现,共有五种融合方法(2Naive 3Attention),在Models文件夹中查看 Project Structure ``` |-- Multimodal-Sentiment-Analysis |-- Config.py |-- main.py |-- 项目说明.md |-- requirements.txt |-- Trainer.py |-- data | |-- .DS_Store | |-- test.json | |-- test_without_label.txt | |-- train.json | |-- train.txt | |-- data |-- Models | |-- CMACModel.py | |-- HSTECModel.py | |-- NaiveCatModel.py | |-- NaiveCombineModel.py | |-- OTEModel.py | |-- __init__.py |-- src | |-- CrossModalityAttentionCombineModel.png | |-- HiddenStateTransformerEncoderCombineModel.png | |-- OutputTransformerEncoderModel.png |-- utils |-- common.py |-- DataProcess.py |-- __init__.py |-- APIs | |-- APIDataset.py | |-- APIDecode.py | |-- APIEncode.py | |-- APIMetric.py | |-- __init__.py ``` Requirements chardet==4.0.0 numpy==1.22.2 Pillow==9.2.0 scikit_learn==1.1.1 torch==1.8.2 torchvision==0.9.2 tqdm==4.63.0 transformers==4.18.0 ```shell pip install -r requirements.txt ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值