书生·浦语大模型全链路开源开放体系
大模型成为热门关键词
大模型成为发展通用人工智能的重要途径
书生·浦语大模型开源历程
书生·浦语20B开源大模型性能
- 全面领先相近量级的开源模型(包含Llama-33B、Llama2-13B以及国内主流的7B、13B开源模型)
- 以不足三分之一的参数量,达到Llama2-70B水平
从模型到应用
书生·浦语全链路开源开放体系
数据
总数据量 2TB
包含:
- 文本数据 50亿个文档
- 图像-文本数据集 2200万个文件
- 视频数据 超1000个文件
预训练
微调
- 增量续训
- 垂直领域知识 文章、书籍、代码等
- 有监督微调
- 高质量的对话、问答数据
- 高质量的对话、问答数据
评测
提出了OpenCompass评测体系
6大维度 80+评测集、40万+评测题目
部署
智能体
局限:
- 最新信息和知识的获取
- 回复的可靠性
- 数学计算
- 工具使用和交互