书生·浦语大模型全链路开源体系介绍
此笔记为书生·浦语大模型学习第一课笔记
开源历程
时间 | 描述 |
---|---|
2023.6 | 发布InternLM |
2024.1 | InternLM2开源 |
体系介绍
两种规格
- 7B: 适合轻量级研究
- 20B: 综合性能更好,更适合复杂场景
具体描述
每个规格含有InternLM2-base、InternLM2、InternLM2-chat三个模型版本,其中后两个是再base的基础上发展而来,分别适用于大部分应用以及共情聊天。
从模型到应用
典型流程
全链条开源开放体系
阶段 | 内容 |
---|---|
数据 | 书生.万卷 |
预训练 | InternLM-Train |
微调 | XTuner |
部署 | LMDeploy |
评测 | OpenCompass |
应用 | Lagent AgentLego |
数据
- 书生·万卷1.0: 2TB;符合主流中国价值观的中文语料;多模态
- 书生·万卷CC: 400GB;安全、信息密度更高的英文语料
预训练
微调
- 增量续训: 让基座模型学习新知识,如垂直领域知识
常用训练数据:文章、书籍、代码 - 有监督微调: 让模型学会理解指令进行对话
常用训练数据:高质量对话,问答数据
微调框架XTuner
评测
OpenCompass司南大模型评测体系
CompassRank:中立全面的性能榜单
CompassKit:大模型评测全栈工具链
CompassHub:高质量评测基准社区
部署
LMDeploy