书生大模型全链路开源开放体系
一、概述
书生大模型,即InternLM系列模型,是由上海人工智能实验室书生团队开发的一系列大语言模型。这些模型以其强大的功能而著称,涵盖了从基础的语言理解到复杂的数学解题和图文创作等多个领域。
发展历程如下图:
书生·浦语2.5
最新推出了InternLM2.5 系列大模型。InternLM2.5 系列模型在本仓库正式发布,具有如下特性:
- 卓越的推理性能:在数学推理方面取得了同量级模型最优精度,超越了 Llama3 和 Gemma2-9B。
- 有效支持百万字超长上下文:模型在 1 百万字长输入中几乎完美地实现长文“大海捞针”,而且在 LongBench 等长文任务中的表现也达到开源模型中的领先水平。 可以通过 LMDeploy 尝试百万字超长上下文推理。更多内容和文档对话 demo 请查看这里。
- 工具调用能力整体升级:InternLM2.5 支持从上百个网页搜集有效信息进行分析推理,相关实现将于近期开源到 Lagent。InternLM2.5 具有更强和更具有泛化性的指令理解、工具筛选与结果反思等能力,新版模型可以更可靠地支持复杂智能体的搭建,支持对工具进行有效的多轮调用,完成较复杂的任务。可以查看更多样例
核心技术思路
书生大模型的核心技术思路可以概括为以下几个关键点:
① 广泛使用模型参与自身迭代:书生大模型通过在各种应用场景中广泛使用,收集反馈和数据,以此参与模型的自我迭代和优化。
② 高质量合成数据。基于规则构建了代码、公式函数数学题等数据。基于模型扩充了大量数据,基于反馈生成了人类对其的数据。
③ 对齐数据:确保训练数据与模型的预期应用场景相匹配,通过对齐数据来提升模型在特定任务上的表现。
数据过滤&智能评估:在模型训练过程中,对收集到的数据进行筛选和清洗,确保只有高质量的数据被用于模型训练,从而提高模型的性能和准确性。通过智能评估系统来评估模型的性能,包括准确度、效率和适应性等,确保模型能够满足不同的应用需求。
模型指令生成&辅助标注:书生大模型能够根据评估结果生成相应的指令,指导模型的训练和优化过程。利用模型的能力辅助人工标注,提高数据标注的效率和质量,进一步优化模型的训练数据。
书生大模型采用持续迭代的方法,不断更新和优化模型,以适应不断变化的应用需求和技术进步。模型能力飞轮形成正向循环,即随着模型能力的提高,可以吸引更多的使用和数据,进一步推动模型能力的提升。
这些核心技术思路体现了书生大模型在设计和开发过程中的迭代、数据驱动和智能化的特点,旨在通过不断的自我优化和学习,提高模型的性能和适应性,以满足各种复杂的应用场景。
领先的推理能力
模型的推理能力相比上一代有了大幅度的提升,并且领先于同量级的其他开源模型。
特点
① 强大的模型推理能力
② 100万Token的长上下文,大海捞针实验效果很好。
③ 基于规划和搜索解决复杂问题。
模拟人解决复杂问题的思路,将一个复杂问题分解成多个子问题,并决定是否需要调用工具。
④ 多种模型版本可选,适应不同需求。
⑤ 全链路开源体系
书生大模型的开源工具体系为用户提供了从模型训练到部署的全链条支持,有:模型训练框架、数据处理工具、模型评估工具、模型部署方案。
⑥ 大量开源数据
全链条开源开放体系提供了丰富多样的开放数据资源,包括图像、视频、3D模型和语料库等不同类型的数据。具体数据量包括60亿图像、8亿视频片段、1万亿tokens的语料、1百万3D模型和2万小时音频。数据类型多样,覆盖了30多种不同的数据模态,如LAION-5B、SA-1B、ImageNet、MovieNet、KineticsMOT等。提供了包括The Pile、C4、WikiQA、OmniObject3D、ShapeNet、Scannet在内的多种数据集。数据总大小达到180TB,显示出该体系拥有庞大的数据资源。
⑦ 开源数据处理工具箱
⑧ 预训练InternEvo
全链条开源开放体详细概览,特别聚焦于预训练模型的演化(InterEvo)和模型训练的各个方面。通过分层次、模块化的划分,使得各部分功能更加明确,使得能够更好的提供多种的需求实现。
模型训练包括InternLM、LLAMA、LLAVA和MoE等模型,以及它们在训练和演化过程中使用的InternEvo format。HuggingFace平台作为模型和数据集的来源。训练技术包括仿真器用于求解最优并行配置、显存优化、分布式训练系统等。
通过数据并行、流水并行、activation checkpoint、ZeRO optimizer等技术,以及张量并行、序列并行、通信优化等方法,实现高效的训练目标。
在训练支持系统层次,包括跨集群任务调度、异常恢复、可视化、日志系统、监控系统和告警系统等。基础设施作为底层基础,涵盖了跨硬件平台、存储、网络、CPU/GPU/NPU等。大规模训练、极致性能优化、软硬件生态、全场景训练,这四个特点也形成这样预训练的主要支柱。