目录
简介
总结对比QWenVL、Vary、InternVL-V-1.5三个多模态大模型的预训练阶段与Finetune阶段对于数据量与训练资源的需求。目标是借此了解多模态大模型在训练过程中需要的数据类型、数据量级以及训练资源。
数据分布
多模型大模型的训练通常包含预训练和Finetune两个阶段:
- 预训练结果使用大批量、弱标签的数据来增强模型的通用能力
- Finetune阶段采用数量较少、高质量的数据来提升模型在特定任务中的能力
模型 | 参数量 | 训练数据(预训练阶段) | 训练数据(Finetune阶段) | 训练资源(全参数预训练最低要求) |
---|---|---|---|---|
QWenVL | 7B | 公开数据集+私有数据集; 1.4B (Pre-training, weakly labeled image-text pairs.); 76.8M (Multi-task Pre-training, high quality) | 私有数据集; 350K instruction tuning data. | 2*A100(预估) |
InternVL-V-1.5 | 25.5B | 公开数据集; 200M image-text pairs. | 公开数据集; 5M image-text pairs. | 4*A100 |
Vary | 7B | 人工生成数据集; 2.87M (Vary-tiny); 5.1M (Vary-base) | 公开数据集; ~124K | 2*A100(预估) |
QWenVL
预训练
预训练数据分布
1.4B large-scale, weakly labeled, web-crawled set of image-text pairs.
Language | Dataset | Original | Cleaned | Remaining% |
---|---|---|---|---|
English | LAION-en | 2B | 280M | 14% |
LAION-COCO | 600M |