多模态大模型训练数据与资源总结

简介

总结对比QWenVL、Vary、InternVL-V-1.5三个多模态大模型的预训练阶段与Finetune阶段对于数据量与训练资源的需求。目标是借此了解多模态大模型在训练过程中需要的数据类型数据量级以及训练资源

数据分布

多模型大模型的训练通常包含预训练和Finetune两个阶段:

  1. 预训练结果使用大批量、弱标签的数据来增强模型的通用能力
  2. Finetune阶段采用数量较少、高质量的数据来提升模型在特定任务中的能力
模型参数量训练数据(预训练阶段训练数据(Finetune阶段训练资源(全参数预训练最低要求)
QWenVL7B公开数据集+私有数据集; 1.4B (Pre-training, weakly labeled image-text pairs.); 76.8M (Multi-task Pre-training, high quality)私有数据集; 350K instruction tuning data.2*A100(预估)
InternVL-V-1.525.5B公开数据集; 200M image-text pairs.公开数据集; 5M image-text pairs.4*A100
Vary7B人工生成数据集; 2.87M (Vary-tiny); 5.1M (Vary-base)公开数据集; ~124K2*A100(预估)

QWenVL

预训练

预训练数据分布

1.4B large-scale, weakly labeled, web-crawled set of image-text pairs.

LanguageDatasetOriginalCleanedRemaining%
EnglishLAION-en2B280M14%
LAION-COCO600M300M50%
DataComp1.4B300M21%
Coyo700M200M28%
CC12M12M8M66%
CC3M3M3M100%
SBU1M0.8M80%
COCO Caption0.6M0.6M100%
ChineseLAION-zh108M105M97%
In-house Data220M220M100%
Total5B1.4B28%
多任务预训练数据分布

76.8M high-quality and fine-grained VL annotation data

Task# SamplesDataset
Captioning19.7MLAION-en & zh, DataComp, Coyo, CC12M & 3M, SBU, COCO, In-house Data
VQA3.6MGQA, VGQA, VQAv2, DVQA, OCR-VQA, DocVQA, TextVQA, ChartQA, AI2D
Grounding²3.5MGRIT
Ref Grounding8.7MGRIT, Visual Genome, RefCOCO, RefCOCO+, RefCOCOg
Grounded Cap.8.7MGRIT, Visual Genome, RefCOCO, RefCOCO+, RefCOCOg
OCR24.8MSynthDoG-en & zh, Common Crawl pdf & HTML
Pure-text Autoregression7.8MIn-house Data
Total76.8M

Finetune

通过手工标注、模型生成和策略连接构建了一组额外的对话数据,共350K指令微调数据,以将定位和多图像理解能力引入QwenVL

InternVL-V-1.5

预训练

https://internvl.github.io/blog/2024-04-30-InternVL-1.5/
~200M训练数据

TaskRatioQuantityDataset
Captioning53.9%Laion-EN (en) , Laion-ZH (zh) , COYO (zh) , GRIT (zh) , COCO (en) , TextCaps (en)
Detection5.2%Objects365 (en&zh), GRIT (en&zh) , All-Seeing (en&zh)
OCR (large)32.0%Wukong-OCR (zh) , LaionCOCO-OCR (en) , Common Crawl PDF (en&zh)
OCR (small)8.9%MMC-Inst (en) [61], LSVT (zh) , ST-VQA (en) ,RCTW-17 (zh) , ReCTs (zh) , ArT (en&zh) , SynthDoG (en&zh) , COCO-Text (en) , ChartQA (en) , CTW (zh) , DocVQA (en) , TextOCR (en) , PlotQA (en) , InfoVQA (en)
Total100%~200M

Laion-EN:2.32B图文对
Laion-ZH:142M图文对
Objects365 (en&zh):600K图片
GRIT(en&zh):共91M图片,但是可公开下载只有20M图片
All-Seeing (en&zh) :11M图片
Wukong-OCR (zh) :100M图文对,用paddle OCR生成ocr结果
LaionCOCO-OCR (en) :600M图文对,用paddleocr生成OCR结果
Common Crawl PDF (en&zh)(非公开)

Finetune

5M high-quality bilingual data

TaskDataset
CaptioningTextCaps (en) , ShareGPT4V (en&zh)
General QAVQAv2 (en) , GQA (en) , OKVQA (en) , VSR (en) , VisualDialog (en)
ScienceAI2D (en) , ScienceQA (en) , TQA (en)
ChartChartQA (en) , MMC-Inst (en) , DVQAv2 (en) , PlotQA (en) , LRV-Instruction (en)
MathematicsGeoQA+ (en) , TabMWP (en) , MathQA (en) , CLEVR-Math/Super (en) , Geometry3K (en)
KnowledgeKVQA (en) , A-OHVQA (en) , ViQuAE (en) , Wikipedia (en&zh)
OCROCRVQA (en) , InfoVQA (en) , TextVQA (en) , ArT (en&zh) , COCO-Text (en) , CTW (zh) , LSVT (zh) , RCTW-17 (zh) , ReCTs (zh) , SynthDoG (en&zh) , ST-VQA (en)
DocumentDocVQA (en) , Common Crawl PDF (en&zh)
GroundingRefCOCO/+/g (en), Visual Genome (en)
ConversationLLaVA-150K (en&zh) , LVIS-Instruct4V (en), ALLaVA (en&zh), Laion-GPT4V (en) , TextOCR-GPT4V (en) , SVIT (en&zh)
Text-onlyOpenHermes2.5 (en) , Alpaca-GPT4 (en) , ShareGPT (en&zh) , COIG-CQIA (zh)

Vary

预训练

Vary-tiny预训练
TaskQuantityDataset
Document2M收集网络公开PDF数据,转换为image-text pair
Chart750K人工生成表格数据
Negative natural image120KCOCO
Total2.87M
Vary-base预训练
TaskQuantityDataset
LATEX rendering document0.9M收集网络公开PDF数据,转换为latex格式
Semantic association chart rendering200K人工生成表格数据
General data4MLAION-COCO
Total5.1M

Finetune

TaskQuantityDataset
General data~124KDocVQA、ChartQA、LLaVA-80k
Total~124K
  • 24
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值