书生大模型性能天梯图
书生·浦语2.5
- 原生推理能力领先
- 支持百万字上下文
- 通过信息搜索和整合,完成复杂任务
- MindSearch
核心技术思路
数据驱动模型性能提升
当前模型 -> 数据过滤,智能评估 -> 预训练数据 -> 更好模型
当前模型 -> 指令生成,辅助标注 -> 对齐数据 -> 更好模型
高质量合成数据
- 基于规则的数据构造
- 代码
- 公式、函数
- 数学题解
- 基于模型的数据扩充
- 基于反馈的数据生成
全链路开源
数据
开源数据集:书生万卷-OpenDataLab
数据标注:opendatalab/LabelLLM: The Open-Source Data Annotation Platform (github.com)
图像及视频标注:Label U