[多模态预训练模型] Single-stream/Two-stream architectures

本文介绍了多模态预训练模型的基本架构,包括two-stream和one-stream两大类,并列举了代表性的模型如ViLBERT、LXMERT等。同时,还详细说明了常用的预训练数据集,如MS-COCO、VisualGenome等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我们通常从三个方面学习了解一个多模态预训练模型:模型架构、预训练任务、预训练数据集,目前层出不穷的各种模型也是针对其中某个或某几个方面做文章。根据模型架构,多模态预训练模型可以分为two-stream和one-stream两大类,前者首先利用两个独立的模型分别处理图片和文本两种单模态信息,然后通过co-attention transformer layers融合两种模态信息;后者首先将两种模态的信息融合,然后直接输入到同一个模型中处理。目前one-stream有ViLBERT[1]、LXMERT[2]、ERNIE-ViL[3]三种two-stream多模态模型做简单介绍;two-stream有CBT(双流提取视频(S3D)和语音文本(ASR+BERT)特征后对比学习)、CLIP(SimCLR框架的对比学习)、WenLan(中文对比学习的MoCo)

ViLBERT

 

 

 

 

预训练数据集

MS-COCO,Visual Genome以及VQA v2.0、 GQA balanced version、VG-QA三个VQA数据集的train&dev部分,最终一共约有918万个图像-文本对。

 

 

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值