大模型成为发展通用人工智能的重要途径
专用模型针对特定任务,一个模型解决一个问题。
通用大模型一个模型应对多种任务、多种模态。
书生·浦语大模型开源历程
2023年
- 6月7日: InternLM 千亿参数语言大模型发布
- 7月6日: InternLM 千亿参数大模型全面升级,支持 8K 语境、26 种语言
- 8月14日: 书生·万卷 1.0 多模态预训练语料库开源发布
- 8月21日: 升级版对话模型 InternLM-Chat-7B v1.1 发布,开源智能体框架 Lagent
- 8月28日: InternLM 千亿参数模型参数量升级至 123B
- 9月20日: 增强版 InternLM-208 开源,开源工具链全线升级
2024年
- 1月17日: InternLM 2 开源
书生·浦语 2.0 (InternLM2) 的体系
面向不同使用需求的三个模型版本
- 7B: 为轻量级的研究和应用提供了一个轻便但性能不俗的模型
- 20B: 综合性能更为强劲,可有效支持更加复杂的实用场景
InternLM2-Base
- 高质量和具有很强可塑性的模型基座,是模型进行深度领域适配的高质量起点
InternLM2
- 在 Base 基础上,在多个能力方向进行了强化,在评测中成绩优异,同时保持了很好的通用语言能力,是我们推荐的在大部分应用中考虑选用的优秀基座
InternLM2-Chat
- 在 Base 基础上,经过 SFT 和 RLHF,面向对话交互进行了优化,具有很好的指令遵循、共情聊天和调用工具等能力
新一代数据清洗过滤技术
多维度数据价值评估
-
基于文本质量、信息质量、信息密度等维度对数据价值进行综合评估与提升
高质量语料驱动的数据富集
- 利用高质量语料的特征从物理世界、互联网以及语料库中进一步富集更多类似语料
有针对性的数据补齐
- 针对性补充语料,重点加强世界知识、数理、代码等核心能力
-
书生·浦语 2.0 (InternLM2) 的主要亮点
超长上下文
- 模型在 20万 token 上下文中,几乎完美实现 “大海捞针”
综合性能全面提升
- 推理、数学、代码能力提升显著
- InternLM2-Chat-20B 在重点评测上比肩 ChatGPT
优秀的对话和创作体验
- 精准指令跟随,丰富的结构化创作
- 在 AlpacaEval2 超越 GPT-3.5 和 Gemini Pro
工具调用能力整体升级
- 可靠支持工具多轮调用和复杂智能体搭建
突出的数理能力和实用的数据分析功能
- 强大的内生计算能力
- InternLM2 在不依靠计算器等外部工具的情况下,在 100 以内的简单数学运算上能够做到接近 100% 的准确率,在 1000 以内达到 80% 左右的运算准确率
- 复杂运算和求解:InternLM2 不借助外部工具就能够进行部分复杂数学题的运算和求解
代码解释器:更上一层楼
- 在典型的数学评测集 GSM8K 和 MATH 上,配合代码解释器,InternLM2 都能够在本身已经较高的分数上进一步获得提升
- 对于难度更高的 MATH 数据集,借助代码解释器,精度从 32.5 大幅提升到 51.2,甚至超过了 GPT-4 的表现
实用的数据分析功能
从模型到应用
应用场景
- 智能客服
- 个人助手
- 行业应用
从模型到应用的典型流程![](https://i-blog.csdnimg.cn/direct/b64e8ef13148432baba5fe5d5d8e2c1c.png)
书生·浦语全链条开源开放体系
数据
- 书生·万卷: 2TB数据,涵盖多种模态与任务
预训练
- InternLM-Train: 并行训练,极致优化,速度达到 3600 tokens/sec/gpu
微调
- XTuner: 支持全参数微调,支持 LORA 等低成本微调
部署
- LMDeploy: 全链路部署,性能领先,每秒生成 2000+ tokens
评测
- OpenCompass: 全方位评测,支持 100 套评测集,50 万道题目应用
应用
- Lagent: 支持多种智能体,50 万道题目码解释器等多种工具
全链条开源开放体系
开放高质量语料数据![](https://i-blog.csdnimg.cn/direct/8f3a3a32e19b496581dd1686781652b1.png)
预训练
- 高可扩展: 支持从 8 卡到千卡训练,千卡加速效率达 92%
- 极致性能优化: Hybrid Zero 独特技术+ 极致优化,加速 50%
- 兼容主流: 无缝接入 HuggingFace 等技术生态,支持各类轻量化技术
- 开箱即用: 支持多种规格语言模型,修改配置即可训练
微调
- 大语言模型的下游应用中,增量续训和有监督微调是经常会用到的两种方式
- 增量续训: 使用场景包括让基座模型学习到一些新知识,如某个垂类领域知识
- 训练数据: 文章、书籍、代码等
- 有监督微调: 使用场景包括让模型学会理解各种指令进行对话,或者注入少量领域知识
- 训练数据: 高质量的对话、问答数据
多种微调算法
- 多种微调策略与算法,覆盖各类 SFT 场景
- 适配多种开源生态: 支持加载 HuggingFace、ModelScope 模型或数据集
- 自动优化加速: 开发者无需关注复杂的显存优化与计算加速细节
- 适配多种硬件: 训练方案覆盖 NVIDIA 20 系以上所有显卡,最低只需 8GB 显存即可微调 7B 模型
评测 CompassKit: 大模型评测全栈工具链
- 5月1日: 完成Alpha版本开发,支持千亿参数语言大模型高效评测
- 8月18日: OpenCompass 数据和性能对比上线,支持 100+ 开源模型的多维度性能对比
- 10月26日: 联合南京大学推出大模型司法能力评测基准,构建多层能力体系,助力法律场景能力分析
OpenCompass 核心代码库功能全面升级
- 数据污染检查: 提供多种数据污染检测方法,支持包括 GSM-8K, MMLU 等主流数据集上的污染检测
- 长文本能力评测: 支持 200K 大海捞针测试,支持多个主流长文本评测基准
部署 LMDeploy
- 支持近 20 个商业模型 API,支持 LMDeploy、vLLM、LightLLM 等推理后端
- 中英文双语主观评测: 支持基于大模型评价的主观评测,提供模型打分、模型对战多种能力,灵活切换上百种评价模型
高质量评测基准社区 compassHub
- 开源开放,共建共享的大模型评测基准社区
- OpenCompass 助力大模型产业发展和学术研究,广泛应用于头部大模型企业和科研机构
评价
综合性客观评测
- 整体能力仍有较大提升空间: 采用了更加准确的循环评测策略,实现了对模型真实能力的分析。在百分制的客观评测基准中,GPT-4-Turbo 仅仅达到了 61.8 分的及格水平
- “理科”能力和模型尺寸关联性高: 在语言和知识这类“文科”维度,中轻量级模型和重量级/闭源商业模型差距较小,但在数学、推理、代码等维度上,性能和尺寸呈现较强相关性
- 复杂推理仍是短板: 国内多个模型综合能力接近 GPT-4-Turbo,但在复杂推理上仍然存在较大差距,并且和模型尺寸存在较强相关性
- 模型主客观性能需综合参考: 大量开源模型和 API 模型的客观性能和主观性能存在较大偏差,社区不仅仅需要夯实客观能力基础,更需要在偏好对齐和对话体验上下功夫
主观评测-对战胜率![](https://i-blog.csdnimg.cn/direct/6579db51c7c44e96ab27f365f2b5ad88.png)
- 闭源大模型接近 GPT-4 水平: 国内近期发布的部分大模型表现优异,多个维度上缩小了与 GPT-4-Turbo 的差距
- 国内模型在中文场景具有性能优势: 在中文语言理解、中文知识和中文创作上,国内商业模型相比 GPT-4-Turbo 具有极强的竞争力,甚至部分模型实现了单个维度上对 GPT-4-Turbo 的超越
- 开源社区未来可期: Yi-34B-Chat、InternLM2-Chat-20B 以中轻量级的尺寸,展示出优秀的综合性对话体验,并接近商业闭源模型的性能
部署
- LMDeploy 提供大模型在 GPU 上部署的全流程解决方案,包括模型轻量化、推理和服务
- 高效推理引擎: 持续批处理技巧,深度优化的低比特计算 kernels
- 模型并行: 完备易用的工具链
- 量化、推理、服务全流程无缝对接 OpenCompass 评测
- 推理精度多维度评测工具: 高效的 k/v 缓存管理机制
- 支持交互式推理,不为历史对话买单
轻量级智能体框架 Lagent
- 多模态智能体工具箱 AgentLego: 丰富的工具集合,提供大量视觉、多模态相关领域的前沿算法功能
- 支持多个主流智能体系统: 如 LangChain,Transformers Agent,Lagent 等
- 灵活的多模态工具调用接口: 可以轻松支持各类输入输出格式的工具函数
- 一键式远程工具部署: 轻松使用和调试大模型智能体