多模态大模型训练数据与资源总结

isongxw

已于 2024-06-28 17:37:37 修改

阅读量1.3k

点赞数 24

分类专栏：多模态大语言模型文章标签：人工智能深度学习机器学习语言模型

于 2024-06-28 17:36:11 首次发布

本文链接：https://blog.csdn.net/qq_34499305/article/details/140049577

版权

总结对比QWenVL、Vary、InternVL-V-1.5三个多模态大模型的预训练阶段与Finetune阶段对于数据量与训练资源的需求。目标是借此了解多模态大模型在训练过程中需要的数据类型、数据量级以及训练资源。

多模型大模型的训练通常包含预训练和Finetune两个阶段：

模型	参数量	训练数据（预训练阶段）	训练数据（Finetune阶段）	训练资源(全参数预训练最低要求)
QWenVL	7B	公开数据集+私有数据集; 1.4B (Pre-training, weakly labeled image-text pairs.); 76.8M (Multi-task Pre-training, high quality)	私有数据集; 350K instruction tuning data.	2*A100（预估）
InternVL-V-1.5	25.5B	公开数据集; 200M image-text pairs.	公开数据集; 5M image-text pairs.	4*A100
Vary	7B	人工生成数据集; 2.87M (Vary-tiny); 5.1M (Vary-base)	公开数据集; ~124K	2*A100（预估）