多模态预训练模型一般是图像和文本模态的交互,能充分利用已有的文本信息,对图像进行自监督或有监督的训练。多模态数据集和预训练任务总结如下:
模型 | 数据集 | 预训练任务 |
---|---|---|
ALBEF | 图文对:COCO,VG,CC,SBU Caption | ITC, MLM,ITM |
CLIP | 400million 网络公开数据集 | 对比学习 |
UniT | 视觉/文本单模态和多模态的8个数据集 | 基于8个数据集的7个任务,包含目标检测,VQA,NLU |
Vx2TEXT | 视频用Kinetics,音频使用AudioSet | TVQA, AVSD,TVC |
UNIMO | 文本:BookWiki and OpenWebText; | 对比学习,MLM,MRM |
UNITER | 图文对:COCO,VG,CC,SBU Caption | conditional MLM和MRM,ITM,WRA |
Pixel-BERT | 图文对:MS-COCO,VG | MLM,ITM |
Oscar | 图文对:COCO,CC,SBU Caption,flicker30k, GQA等4.1million; | 对比学习,MTL |
Unicoder-VL | 3.8M 图文对齐数据; | MLM,ITM,MOC |
VisualBERT | 图文对:COCO | MLM,ITM |
ViLBERT | 图文对:CC,3.3million,文本弱相关 | MLM,ITM |
VideoBERT | YouCook II dataset | 3种masked learning,text-only, video-only和text-video |
数据集说明 VG:Visual Genome CC:Conceptual Captions 预训练任务说明 MLM:masked language model MTL:masked token loss MRM:masked region model ITM:image text matching MOC:masked object classification WRA:Word-Region Alignment TVQA:video questions answering TVC:video captioning,同TVQA,但视频节选方式不同 AVSD:audio-visual scene-aware dialog
论文&代码地址
模型 | 论文&代码 |
---|---|
ALBEF | https://arxiv.org/pdf/2107.07651.pdf |
CLIP | https://arxiv.org/pdf/2103.00020.pdf |
UniT | https://arxiv.org/pdf/2102.10772.pdf |
Vx2TEXT | https://arxiv.org/pdf/2101.12059.pdf |
UNIMO | https://arxiv.org/pdf/2012.15409.pdf |
UNITER | https://arxiv.org/pdf/1909.11740.pdf |
Pixel-BERT | https://arxiv.org/pdf/2004.00849.pdf |
Oscar | https://arxiv.org/pdf/2004.06165.pdf |
Unicoder-VL | https://arxiv.org/pdf/1908.06066.pdf |
VisualBERT | https://arxiv.org/pdf/1908.03557.pdf |
ViLBERT | https://arxiv.org/abs/1908.02265 |
VideoBERT | https://arxiv.org/abs/1904.01766 |
模型概况
ALBEF
-
双流模型;
-
在预训练和下游任务时,使用momentum distillation,缓解图文数据集中的噪声问题;
-
从Mutual Information的视角看图文对信息对齐。
CLIP
-
双流模型,文本和视觉分别进入transformer encoder,经过线性投影计算不同图文对的相似度;
-
使用对比学习,将图片分类转换成图文匹配任务。
UniT:文本和视觉分别encoder,concat之后进入transformer decoder,根据head进行不同任务的训练。 Vx2TEXT
-
基于backbone network提取模态特征,经过分类器,使用Gumbel-softmax 采样得到k个类别,和文本一样,映射到统一的语言空间;
-
端对端的文本生成模型。
UNIMO
-
目的:集成单模态和多模态结果的预训练模型,在多模态任务上表现不错,在单模态任务上,效果也不会下降太多;
-
数据增强:通过text rewriting,text/image retrieval 增强正负样本。
UNITER
-
目的:构建一个统一的图文学习框架,适用于各种图文任务;
-
分别对图文做embedding,经过Layer Normalization进入transformer;
-
提出conditional masking和OT-based WRA预训练任务。
Pixel-BERT
-
目的:之前都是用Faster R-CNN做目标检测提取视觉特征,存在噪音冗余和语义鸿沟,通过pixel-based 特征提取,提高视觉表达的鲁棒性;
-
pixel-based:random pixel sampling mechanism,视觉特征提取后,在每个feature map里提取pixel作为视觉特征,相当于feature map内部的dropout。
Oscar
-
目的:同图片中的object tags作为anchor points辅助学习多模态对齐的信息;
-
输入为3元组Word-Tag-Image;
-
通过Faster R-CNN检测的k个高精度region作为object tags。
Unicoder-VL
-
目的:构建图片和长序列的联合表征的预训练模型;
-
提取的100个region feature 和文本 concat一起,进入multi-layer transformers。
VisualBERT
-
Embedding有3种:视觉bounding region,区分视觉和文本的segment embedding和视觉和文本对齐的position embedding;
-
用了多种fusion方式,实验结果显示early-fusion最好。
ViLBERT:双流模型,每个模态先进入自己的TRM(transformer block),再做模态交叉Co-TRM(co-attentional transformer)。 VideoBERT
-
通过BERT学习text-to-video和video-to-text任务;
-
视觉文本对齐处理;
-
3种masked learning,text-only, video-only和text-video。