多模态预训练模型

a839766550

已于 2022-11-17 14:53:47 修改

阅读量1.5k

点赞数 1

分类专栏：多模态文章标签：深度学习计算机视觉多模态

于 2022-09-29 15:53:38 首次发布

本文链接：https://blog.csdn.net/a839766550/article/details/127108387

版权

多模态专栏收录该内容

6 篇文章 0 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

多模态预训练模型一般是图像和文本模态的交互，能充分利用已有的文本信息，对图像进行自监督或有监督的训练。多模态数据集和预训练任务总结如下：

模型	数据集	预训练任务
ALBEF	图文对：COCO，VG，CC，SBU Caption	ITC, MLM,ITM
CLIP	400million 网络公开数据集	对比学习
UniT	视觉/文本单模态和多模态的8个数据集	基于8个数据集的7个任务，包含目标检测，VQA，NLU
Vx2TEXT	视频用Kinetics，音频使用AudioSet	TVQA, AVSD,TVC
UNIMO	文本：BookWiki and OpenWebText；图片：OpenImages，unlabeled COCO；图文对：COCO，VG，CC，SBU Caption	对比学习，MLM，MRM
UNITER	图文对：COCO，VG，CC，SBU Caption	conditional MLM和MRM，ITM，WRA
Pixel-BERT	图文对：MS-COCO，VG	MLM，ITM
Oscar	图文对：COCO，CC，SBU Caption，flicker30k, GQA等4.1million； text-tag-image三元组：6.5million	对比学习，MTL
Unicoder-VL	3.8M 图文对齐数据；包含3M的CC和0.8M的SBU Captions	MLM,ITM,MOC
VisualBERT	图文对：COCO 一张图片对应5个描述，共10w张图片	MLM，ITM
ViLBERT	图文对：CC，3.3million，文本弱相关	MLM，ITM
VideoBERT	YouCook II dataset 包括2k视频，平均时长5.26m	3种masked learning，text-only, video-only和text-video

数据集说明 VG：Visual Genome CC：Conceptual Captions 预训练任务说明 MLM：masked language model MTL：masked token loss MRM：masked region model ITM：image text matching MOC：masked object classification WRA：Word-Region Alignment TVQA：video questions answering TVC：video captioning，同TVQA，但视频节选方式不同 AVSD：audio-visual scene-aware dialog

论文&代码地址

模型	论文&代码
ALBEF	https://arxiv.org/pdf/2107.07651.pdf https://github.com/salesforce/ALBEF
CLIP	https://arxiv.org/pdf/2103.00020.pdf https://github.com/openai/CLIP
UniT	https://arxiv.org/pdf/2102.10772.pdf
Vx2TEXT	https://arxiv.org/pdf/2101.12059.pdf
UNIMO	https://arxiv.org/pdf/2012.15409.pdf https://github.com/PaddlePaddle/Research/tree/master/NLP/UNIMO
UNITER	https://arxiv.org/pdf/1909.11740.pdf https://github.com/ChenRocks/UNITER
Pixel-BERT	https://arxiv.org/pdf/2004.00849.pdf
Oscar	https://arxiv.org/pdf/2004.06165.pdf https://github.com/microsoft/oscar
Unicoder-VL	https://arxiv.org/pdf/1908.06066.pdf
VisualBERT	https://arxiv.org/pdf/1908.03557.pdf
ViLBERT	https://arxiv.org/abs/1908.02265
VideoBERT	https://arxiv.org/abs/1904.01766

模型概况

ALBEF

双流模型；
在预训练和下游任务时，使用momentum distillation，缓解图文数据集中的噪声问题；
从Mutual Information的视角看图文对信息对齐。

CLIP

双流模型，文本和视觉分别进入transformer encoder，经过线性投影计算不同图文对的相似度；
使用对比学习，将图片分类转换成图文匹配任务。

UniT：文本和视觉分别encoder，concat之后进入transformer decoder，根据head进行不同任务的训练。 Vx2TEXT

基于backbone network提取模态特征，经过分类器，使用Gumbel-softmax 采样得到k个类别，和文本一样，映射到统一的语言空间；
端对端的文本生成模型。

UNIMO

目的：集成单模态和多模态结果的预训练模型，在多模态任务上表现不错，在单模态任务上，效果也不会下降太多；
数据增强：通过text rewriting，text/image retrieval 增强正负样本。

UNITER

目的：构建一个统一的图文学习框架，适用于各种图文任务；
分别对图文做embedding，经过Layer Normalization进入transformer；
提出conditional masking和OT-based WRA预训练任务。

Pixel-BERT

目的：之前都是用Faster R-CNN做目标检测提取视觉特征，存在噪音冗余和语义鸿沟，通过pixel-based 特征提取，提高视觉表达的鲁棒性；
pixel-based：random pixel sampling mechanism，视觉特征提取后，在每个feature map里提取pixel作为视觉特征，相当于feature map内部的dropout。

Oscar