书生·浦语大模型学习笔记

fengyanziup

已于 2024-07-23 15:10:08 修改

阅读量1k

点赞数 27

文章标签：人工智能

于 2024-07-23 13:19:44 首次发布

本文链接：https://blog.csdn.net/fengyanziup/article/details/140633065

版权

大模型成为发展通用人工智能的重要途径

专用模型针对特定任务，一个模型解决一个问题。

通用大模型一个模型应对多种任务、多种模态。

书生·浦语大模型开源历程

2023年

6月7日: InternLM 千亿参数语言大模型发布
7月6日: InternLM 千亿参数大模型全面升级，支持 8K 语境、26 种语言
8月14日: 书生·万卷 1.0 多模态预训练语料库开源发布
8月21日: 升级版对话模型 InternLM-Chat-7B v1.1 发布，开源智能体框架 Lagent
8月28日: InternLM 千亿参数模型参数量升级至 123B
9月20日: 增强版 InternLM-208 开源，开源工具链全线升级

2024年

1月17日: InternLM 2 开源

书生·浦语 2.0 (InternLM2) 的体系

面向不同使用需求的三个模型版本

7B: 为轻量级的研究和应用提供了一个轻便但性能不俗的模型
20B: 综合性能更为强劲，可有效支持更加复杂的实用场景

InternLM2-Base

高质量和具有很强可塑性的模型基座，是模型进行深度领域适配的高质量起点

InternLM2

在 Base 基础上，在多个能力方向进行了强化，在评测中成绩优异，同时保持了很好的通用语言能力，是我们推荐的在大部分应用中考虑选用的优秀基座

InternLM2-Chat

在 Base 基础上，经过 SFT 和 RLHF，面向对话交互进行了优化，具有很好的指令遵循、共情聊天和调用工具等能力

新一代数据清洗过滤技术

多维度数据价值评估

基于文本质量、信息质量、信息密度等维度对数据价值进行综合评估与提升

高质量语料驱动的数据富集

利用高质量语料的特征从物理世界、互联网以及语料库中进一步富集更多类似语料

有针对性的数据补齐

针对性补充语料，重点加强世界知识、数理、代码等核心能力

书生·浦语 2.0 (InternLM2) 的主要亮点

超长上下文

模型在 20万 token 上下文中，几乎完美实现 “大海捞针”

综合性能全面提升

推理、数学、代码能力提升显著
InternLM2-Chat-20B 在重点评测上比肩 ChatGPT

优秀的对话和创作体验

精准指令跟随，丰富的结构化创作
在 AlpacaEval2 超越 GPT-3.5 和 Gemini Pro

工具调用能力整体升级

可靠支持工具多轮调用和复杂智能体搭建

突出的数理能力和实用的数据分析功能

强大的内生计算能力
- InternLM2 在不依靠计算器等外部工具的情况下，在 100 以内的简单数学运算上能够做到接近 100% 的准确率，在 1000 以内达到 80% 左右的运算准确率
- 复杂运算和求解：InternLM2 不借助外部工具就能够进行部分复杂数学题的运算和求解

代码解释器：更上一层楼

在典型的数学评测集 GSM8K 和 MATH 上，配合代码解释器，InternLM2 都能够在本身已经较高的分数上进一步获得提升
对于难度更高的 MATH 数据集，借助代码解释器，精度从 32.5 大幅提升到 51.2，甚至超过了 GPT-4 的表现

实用的数据分析功能

从模型到应用

应用场景

智能客服
个人助手
行业应用

从模型到应用的典型流程

书生·浦语全链条开源开放体系

数据

书生·万卷: 2TB数据，涵盖多种模态与任务

预训练

InternLM-Train: 并行训练，极致优化，速度达到 3600 tokens/sec/gpu

微调

XTuner: 支持全参数微调，支持 LORA 等低成本微调

部署

LMDeploy: 全链路部署，性能领先，每秒生成 2000+ tokens

评测

OpenCompass: 全方位评测，支持 100 套评测集，50 万道题目应用

应用

Lagent: 支持多种智能体，50 万道题目码解释器等多种工具

全链条开源开放体系

开放高质量语料数据

预训练

高可扩展: 支持从 8 卡到千卡训练，千卡加速效率达 92%
极致性能优化: Hybrid Zero 独特技术+ 极致优化，加速 50%
兼容主流: 无缝接入 HuggingFace 等技术生态，支持各类轻量化技术
开箱即用: 支持多种规格语言模型，修改配置即可训练

微调

大语言模型的下游应用中，增量续训和有监督微调是经常会用到的两种方式
增量续训: 使用场景包括让基座模型学习到一些新知识，如某个垂类领域知识
- 训练数据: 文章、书籍、代码等
有监督微调: 使用场景包括让模型学会理解各种指令进行对话，或者注入少量领域知识
- 训练数据: 高质量的对话、问答数据

多种微调算法

多种微调策略与算法，覆盖各类 SFT 场景
适配多种开源生态: 支持加载 HuggingFace、ModelScope 模型或数据集
自动优化加速: 开发者无需关注复杂的显存优化与计算加速细节
适配多种硬件: 训练方案覆盖 NVIDIA 20 系以上所有显卡，最低只需 8GB 显存即可微调 7B 模型

评测 CompassKit: 大模型评测全栈工具链

5月1日: 完成Alpha版本开发，支持千亿参数语言大模型高效评测
8月18日: OpenCompass 数据和性能对比上线，支持 100+ 开源模型的多维度性能对比
10月26日: 联合南京大学推出大模型司法能力评测基准，构建多层能力体系，助力法律场景能力分析

OpenCompass 核心代码库功能全面升级

数据污染检查: 提供多种数据污染检测方法，支持包括 GSM-8K, MMLU 等主流数据集上的污染检测
长文本能力评测: 支持 200K 大海捞针测试，支持多个主流长文本评测基准

部署 LMDeploy

支持近 20 个商业模型 API，支持 LMDeploy、vLLM、LightLLM 等推理后端
中英文双语主观评测: 支持基于大模型评价的主观评测，提供模型打分、模型对战多种能力，灵活切换上百种评价模型

高质量评测基准社区 compassHub

开源开放，共建共享的大模型评测基准社区
OpenCompass 助力大模型产业发展和学术研究，广泛应用于头部大模型企业和科研机构

评价

综合性客观评测

整体能力仍有较大提升空间: 采用了更加准确的循环评测策略，实现了对模型真实能力的分析。在百分制的客观评测基准中，GPT-4-Turbo 仅仅达到了 61.8 分的及格水平
“理科”能力和模型尺寸关联性高: 在语言和知识这类“文科”维度，中轻量级模型和重量级/闭源商业模型差距较小，但在数学、推理、代码等维度上，性能和尺寸呈现较强相关性
复杂推理仍是短板: 国内多个模型综合能力接近 GPT-4-Turbo，但在复杂推理上仍然存在较大差距，并且和模型尺寸存在较强相关性
模型主客观性能需综合参考: 大量开源模型和 API 模型的客观性能和主观性能存在较大偏差，社区不仅仅需要夯实客观能力基础，更需要在偏好对齐和对话体验上下功夫

主观评测-对战胜率

闭源大模型接近 GPT-4 水平: 国内近期发布的部分大模型表现优异，多个维度上缩小了与 GPT-4-Turbo 的差距
国内模型在中文场景具有性能优势: 在中文语言理解、中文知识和中文创作上，国内商业模型相比 GPT-4-Turbo 具有极强的竞争力，甚至部分模型实现了单个维度上对 GPT-4-Turbo 的超越
开源社区未来可期: Yi-34B-Chat、InternLM2-Chat-20B 以中轻量级的尺寸，展示出优秀的综合性对话体验，并接近商业闭源模型的性能