书生·浦语大模型学习笔记

大模型成为发展通用人工智能的重要途径

专用模型针对特定任务,一个模型解决一个问题。

通用大模型一个模型应对多种任务、多种模态。


书生·浦语大模型开源历程

2023

  • 6月7日: InternLM 千亿参数语言大模型发布
  • 7月6日: InternLM 千亿参数大模型全面升级,支持 8K 语境、26 种语言
  • 8月14日: 书生·万卷 1.0 多模态预训练语料库开源发布
  • 8月21日: 升级版对话模型 InternLM-Chat-7B v1.1 发布,开源智能体框架 Lagent
  • 8月28日: InternLM 千亿参数模型参数量升级至 123B
  • 9月20日: 增强版 InternLM-208 开源,开源工具链全线升级

2024

  • 1月17日: InternLM 2 开源

书生·浦语 2.0 (InternLM2) 的体系

面向不同使用需求的三个模型版本

  • 7B: 为轻量级的研究和应用提供了一个轻便但性能不俗的模型
  • 20B: 综合性能更为强劲,可有效支持更加复杂的实用场景

InternLM2-Base

  • 高质量和具有很强可塑性的模型基座,是模型进行深度领域适配的高质量起点

InternLM2

  • 在 Base 基础上,在多个能力方向进行了强化,在评测中成绩优异,同时保持了很好的通用语言能力,是我们推荐的在大部分应用中考虑选用的优秀基座

InternLM2-Chat

  • 在 Base 基础上,经过 SFT 和 RLHF,面向对话交互进行了优化,具有很好的指令遵循、共情聊天和调用工具等能力

新一代数据清洗过滤技术

多维度数据价值评估
  • 基于文本质量、信息质量、信息密度等维度对数据价值进行综合评估与提升

高质量语料驱动的数据富集
  • 利用高质量语料的特征从物理世界、互联网以及语料库中进一步富集更多类似语料
有针对性的数据补齐
  • 针对性补充语料,重点加强世界知识、数理、代码等核心能力

书生·浦语 2.0 (InternLM2) 的主要亮点

超长上下文
  • 模型在 20万 token 上下文中,几乎完美实现 “大海捞针”
综合性能全面提升
  • 推理、数学、代码能力提升显著
  • InternLM2-Chat-20B 在重点评测上比肩 ChatGPT
优秀的对话和创作体验
  • 精准指令跟随,丰富的结构化创作
  • 在 AlpacaEval2 超越 GPT-3.5 和 Gemini Pro
工具调用能力整体升级
  • 可靠支持工具多轮调用和复杂智能体搭建
突出的数理能力和实用的数据分析功能
  • 强大的内生计算能力
    • InternLM2 在不依靠计算器等外部工具的情况下,在 100 以内的简单数学运算上能够做到接近 100% 的准确率,在 1000 以内达到 80% 左右的运算准确率
    • 复杂运算和求解:InternLM2 不借助外部工具就能够进行部分复杂数学题的运算和求解
代码解释器:更上一层楼
  • 在典型的数学评测集 GSM8K 和 MATH 上,配合代码解释器,InternLM2 都能够在本身已经较高的分数上进一步获得提升
  • 对于难度更高的 MATH 数据集,借助代码解释器,精度从 32.5 大幅提升到 51.2,甚至超过了 GPT-4 的表现
实用的数据分析功能

从模型到应用

应用场景

  • 智能客服
  • 个人助手
  • 行业应用

从模型到应用的典型流程


书生·浦语全链条开源开放体系

数据
  • 书生·万卷: 2TB数据,涵盖多种模态与任务
预训练
  • InternLM-Train: 并行训练,极致优化,速度达到 3600 tokens/sec/gpu
微调
  • XTuner: 支持全参数微调,支持 LORA 等低成本微调
部署
  • LMDeploy: 全链路部署,性能领先,每秒生成 2000+ tokens
评测
  • OpenCompass: 全方位评测,支持 100 套评测集,50 万道题目应用
应用
  • Lagent: 支持多种智能体,50 万道题目码解释器等多种工具

全链条开源开放体系

开放高质量语料数据


预训练
  • 高可扩展: 支持从 8 卡到千卡训练,千卡加速效率达 92%
  • 极致性能优化: Hybrid Zero 独特技术+ 极致优化,加速 50%
  • 兼容主流: 无缝接入 HuggingFace 等技术生态,支持各类轻量化技术
  • 开箱即用: 支持多种规格语言模型,修改配置即可训练

微调
  • 大语言模型的下游应用中,增量续训和有监督微调是经常会用到的两种方式
  • 增量续训: 使用场景包括让基座模型学习到一些新知识,如某个垂类领域知识
    • 训练数据: 文章、书籍、代码等
  • 有监督微调: 使用场景包括让模型学会理解各种指令进行对话,或者注入少量领域知识
    • 训练数据: 高质量的对话、问答数据
多种微调算法
  • 多种微调策略与算法,覆盖各类 SFT 场景
  • 适配多种开源生态: 支持加载 HuggingFace、ModelScope 模型或数据集
  • 自动优化加速: 开发者无需关注复杂的显存优化与计算加速细节
  • 适配多种硬件: 训练方案覆盖 NVIDIA 20 系以上所有显卡,最低只需 8GB 显存即可微调 7B 模型

评测  CompassKit: 大模型评测全栈工具链

  • 5月1日: 完成Alpha版本开发,支持千亿参数语言大模型高效评测
  • 8月18日: OpenCompass 数据和性能对比上线,支持 100+ 开源模型的多维度性能对比
  • 10月26日: 联合南京大学推出大模型司法能力评测基准,构建多层能力体系,助力法律场景能力分析
OpenCompass 核心代码库功能全面升级
  • 数据污染检查: 提供多种数据污染检测方法,支持包括 GSM-8K, MMLU 等主流数据集上的污染检测
  • 长文本能力评测: 支持 200K 大海捞针测试,支持多个主流长文本评测基准

部署  LMDeploy
  • 支持近 20 个商业模型 API,支持 LMDeploy、vLLM、LightLLM 等推理后端
  • 中英文双语主观评测: 支持基于大模型评价的主观评测,提供模型打分、模型对战多种能力,灵活切换上百种评价模型

高质量评测基准社区 compassHub
  • 开源开放,共建共享的大模型评测基准社区
  • OpenCompass 助力大模型产业发展和学术研究,广泛应用于头部大模型企业和科研机构

评价

综合性客观评测

  • 整体能力仍有较大提升空间: 采用了更加准确的循环评测策略,实现了对模型真实能力的分析。在百分制的客观评测基准中,GPT-4-Turbo 仅仅达到了 61.8 分的及格水平
  • “理科”能力和模型尺寸关联性高: 在语言和知识这类“文科”维度,中轻量级模型和重量级/闭源商业模型差距较小,但在数学、推理、代码等维度上,性能和尺寸呈现较强相关性
  • 复杂推理仍是短板: 国内多个模型综合能力接近 GPT-4-Turbo,但在复杂推理上仍然存在较大差距,并且和模型尺寸存在较强相关性
  • 模型主客观性能需综合参考: 大量开源模型和 API 模型的客观性能和主观性能存在较大偏差,社区不仅仅需要夯实客观能力基础,更需要在偏好对齐和对话体验上下功夫
主观评测-对战胜率
  • 闭源大模型接近 GPT-4 水平: 国内近期发布的部分大模型表现优异,多个维度上缩小了与 GPT-4-Turbo 的差距
  • 国内模型在中文场景具有性能优势: 在中文语言理解、中文知识和中文创作上,国内商业模型相比 GPT-4-Turbo 具有极强的竞争力,甚至部分模型实现了单个维度上对 GPT-4-Turbo 的超越
  • 开源社区未来可期: Yi-34B-Chat、InternLM2-Chat-20B 以中轻量级的尺寸,展示出优秀的综合性对话体验,并接近商业闭源模型的性能

部署

  • LMDeploy 提供大模型在 GPU 上部署的全流程解决方案,包括模型轻量化、推理和服务
  • 高效推理引擎: 持续批处理技巧,深度优化的低比特计算 kernels
  • 模型并行: 完备易用的工具链
  • 量化、推理、服务全流程无缝对接 OpenCompass 评测
  • 推理精度多维度评测工具: 高效的 k/v 缓存管理机制
  • 支持交互式推理,不为历史对话买单

轻量级智能体框架 Lagent

  • 多模态智能体工具箱 AgentLego: 丰富的工具集合,提供大量视觉、多模态相关领域的前沿算法功能
  • 支持多个主流智能体系统: 如 LangChain,Transformers Agent,Lagent 等
  • 灵活的多模态工具调用接口: 可以轻松支持各类输入输出格式的工具函数
  • 一键式远程工具部署: 轻松使用和调试大模型智能体
  • 27
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值