书生·浦语大模型开源开放体系
大模型的全链路流程已实现并开源,涵盖数据采集、标注、训练、调优、评估,以及基于模型的智能代理和搜索引擎开发,最终实现AI应用部署。
书生·浦语发展史
自2023年7月6日起,internlm模型系列开始免费开源并支持商业使用,同时发布了全链条的开源工具,包括xtune微调工具和LLMdeploy部署工具。2023年9月底,推出了20B参数的internlm模型。2024年1月,internlm 2.0版本开源,其性能在7B参数级别上超越了其他同量级甚至高达70B参数的开源模型。2024年7月初,internlm 2.5版本也进行了开源。
随着时间推移和版本迭代,internlm模型系列性能持续提升,逐渐接近GBT(可能指某行业标杆模型)的性能水平。在2024年,20B参数的internlm 2.5版本在聊天模型方面与GPT-40版本性能相当。
最新版书生浦语2.5模型在多个方面实现了显著提升:
推理能力:模型的推理能力领先,相比前代internlm2模型性能提升了20%。
上下文处理:模型的短期记忆能力达到了100万级别,是GPT-40模型的十倍。
复杂任务处理:能够利用外部工具自主规划和搜索,以完成复杂的任务。
核心技术思路
在开源体系的迭代发展中,核心的技术思想侧重于持续的反馈和改进过程:
- 数据过滤与评估:发布初始模型后,通过不断过滤和智能评估数据,提高数据质量。
- 辅助标注与对齐:利用指令生成辅助标注,对齐数据,以优化模型训练。
- 预训练数据准备:生成高质量的预训练数据,为模型迭代提供基础。
- 迭代优化:通过循环迭代,不断优化模型性能。
- 数据驱动:模型性能的提升最终依赖于数据的质量和处理方式。
这一过程体现了数据在模型开发中的核心作用,以及通过持续迭代来实现技术进步的重要性。
在模型开发和迭代过程中,采用了以下策略来提升数据质量和模型性能: - 基于规则的数据构造:
- 代码:构造符合编程规范的数据。
- 公式和函数:创建包含数学公式和函数的数据。
- 数学解题:生成用于解决数学问题的示例数据。
- 半格式化数据:构建部分结构化的数据,以适应特定应用场景。
- 基于模型的数据扩充:
- 利用现有商业模型生成额外的训练数据。
- 通过人类反馈进行强化训练,提高模型输出的多样性和质量。
- 人类反馈循环:
- 在模型生成多样化内容时,通过人类的满意度排序来提供反馈。
- 利用这些反馈调整和优化模型,以更好地满足用户需求。
领先的推理能力
百万token上下文
基于规划和搜索解决复杂问题
多端搭建的基础模型
全链条开源与社区生态无缝链接
数据
开源数据处理工具箱
预训练InternEvo
微调 XTuner
评测体系OpenCompass
工具-基准-榜单 三位一体:
部署LMDeploy
智能体
轻量级智能体框架 Lagent:
智能体 MindSearch:
企业级知识库构建工具(茴香豆)
茴香豆特性: