书生浦语大模型的研发和应用体系,包括模型研发、工具体系和预训练语料库等。
浦语大模型的规模包括轻量级、中量级和重量级,其中轻量级以70亿参数的模型为代表,中量级以200亿参数的模型为代表,重量级以千亿参数的模型为代表。
大模型的应用
大模型应用需要完成很多工作,包括模型选型、评估业务场景、模型微调、构建基于大模型的整体等。模型应用时需要考虑模型是否需要与环境交互,是否需要构建基于大模型的整体,以及是否需要对模型进行评测。
大模型从选型到应用的开发流程
1. 数据方面,开源了多模态语料库书生万卷,包括2TB的数据和多种模态和任务。
2. 预训练方面,开源了InternLM-Train预训练框架,通过并行优化提高训练效率。
3. 微调方面,开源了XTuner,支持全参数微调和低成本微调。
4. 部署方面,开源了LMDdeploy框架,支持全链路部署流程,性能在开源社区领先。
5. 应用方面,开源了legend和agent lego项目,提供轻量级智能体搭建框架和丰富的工具箱,方便大模型调用。