书生·浦语大模型全链路开源体系发展历程和特点(lesson 1)

书生·浦语大模型实战系列文章目录

书生·浦语大模型全链路开源体系发展历程和特点(lesson 1)
部署 InternLM2-Chat-1.8B(lesson 2-1)
部署八戒demo InternLM2-Chat-1.8B(lesson 2-2)
部署InternLM2-Chat-7B 模型(lesson 2-3)
部署浦语·灵笔2 模型(lesson 2-4)
部署InternLM Studio“茴香豆”知识助手(lesson 3)
XTuner 微调 LLM: 1.8B、多模态和 Agent(lesson 4
LMDeploy 量化部署 LLM & VLM 实践(lesson 5)
Lagent & AgentLego 智能体应用搭建(lesson 6)
OpenCompass 大模型评测实战(lesson 7)


前言

	73年前,“机器思维”的概念第一次被计算机科学之父艾伦·图灵(Alan Turing)提出。
	73年后,AI历经了数十年的不断进化迭代,随着ChatGPT的问世,开启了人类图灵测试的史诗级大幕。
	这一里程碑事件,几乎在一夜之间引爆了全球AI热,国内外生成式AI大规模爆发。
	硅谷的AI大战呈“一超多强”局势,竞争视野主要聚焦于OpenAI和谷歌。
	而国内AI势力主要集中在传统IT大厂,紧随境外AI产品不断迭代进化。
	在这些实力大厂中,有一支黑马与众不同一枝独秀,他就是汤晓鸥老师于2014年创建的商汤科技。
	汤老师说:人工智能的中国式文艺复兴,也叫人工智能的中国式十月革命。
	2020年,上海人工智能实验室成立。
	2023年7月6日,书生·浦语(InternLM)在世界人工智能大会上正式开源
	上海AI实验室(Shanghai AI Laboratory)林达华教授:“在大模型时代,基座模型和相关的工具体系是大模型创新的技术基石。通过书生·浦语的高质量全方位开源开放,我们希望可以助力大模型的创新和应用,让更多的领域和行业受惠于大模型变革的浪潮。”

一、书生·浦语(InternLM)是什么?

书生·浦语(InternLM),是一个70亿参数的轻量级版本InternLM-7B,贯穿数据、预训练、微调、部署和评测五大环节的全链条工具体系。开源链接
InternLM-7B 在包含40个评测集的全维度评测中展现出卓越且平衡的性能,全面领先现有开源模型。值得一提的是,它在两个被广泛采用的基准 MMLU 和 CEval 上分别取得了50.8和52.8的高分,刷新了7B量级模型的世界纪录。
InternLM-7B 在全维度评测中展现出卓越且平衡的性能
书生·浦语开源了全链条工具体系,涵盖数据、预训练、微调、部署和评测五大环节。
在数据环节,通过OpenDataLab开放了包含30多种模态的5500公开数据集,其中在自然语言方面开放了超过10000亿token的高质量语料。
在预训练环节,开源了面向轻量级语言大模型的训练框架 InternLM-Train,支持从8卡到1024卡并行训练,提出了Hybrid-Zero独特技术,性能领先行业水平。
在微调环节,开源了全流程微调工具,支持SFT、RLHF,还支持训练模型进行复杂的符号计算和工具调用,通过代码解决复杂的数学计算问题。
在部署环节,开源了部署推理工具链LMDeploy。支持十亿到千亿参数语言模型的高效推理,性能超越 HuggingFace、Deepspeed、vLLM等主流推理框架。
在评测环节,上线了开放评测平台 OpenCompass,支持大模型的一站式、全方位评测,包含超过40个评测集、30万评测题目。通过全自动分布式评测,保障开源模型性能可高效复现。

开源历程

在这里插入图片描述

核心理念

在这里插入图片描述

二、书生·浦语(InternLM)的主要特点和优势

体系

在这里插入图片描述

回归本质

在这里插入图片描述

亮点

在这里插入图片描述
超长上下文支持:模型在 20 万字长输入中几乎完美地实现长文“大海捞针”,在 LongBench 和 L-Eval 等长文任务中的表现也达到开源模型中的领先水平。

性能全方位提升

	在各能力维度全面进步,在推理、数学、代码等方面的能力提升尤为显著,综合性能达到同量级开源模型的领先水平,在重点能力评测上 InternLM2-Chat-20B 甚至可以达到比肩 ChatGPT (GPT-3.5)的水平。

性能

在这里插入图片描述

创作体验

		AlpacaEval2 英文主观对话榜单(斯坦福大学发布): InternLM2-Chat-20B 胜率(21.75%) 超越了 GPT-3.5(14.13%)、Gemini Pro(16.85%) 和 Claude-2 (17.19%)。

在这里插入图片描述
指令遵循能力评测集 IFEval(谷歌发布): InternLM2-Chat-20B 的指令遵循率超越了 GPT-4(79.5% vs 79.3%)。

工具调用能力升级

工具调用能够极大地拓展大语言模型的能力边界 ,使得大语言模型能够通过搜索、计算、代码解释器等获
取最新的知识并处理更加复杂的问题。InternLM2进一步升级了模型的工具调用能力,能够更稳定地进
行工具筛选和多步骤规划,完成复杂任务。

数理能力突出

在这里插入图片描述

强大的内生计算能力

	InternLM2 针对性提高了模型的计算能力,在不依靠计算器等外部工具的情况下,

在 100 以内的简单数学运算上能够做到接近 100% 的准确率,在 1000 以内达到 80% 左右的运算准确率
依赖模型优秀的内生能力,InternLM2 不借助外部工具就能够进行部分复杂数学题的运算和求解。
代码解释器:在典型的数学评测集 GSM8K 和 MATH 上,配合代码解释器,InternLM2 都能够在本身已经较高的分数上,进一步获得提升。其中对于难度更高的 MATH 数据集,借助代码解释器,精度从 32.5 大幅提升到 51.2,甚至超过了 GPT-4 的表现。在这里插入图片描述
在实用分析、上下文聊天、编程代码方面也有不俗的表现。

总之,书生·浦语体系是一个富有想像力,充满人文关怀,贴心又可靠 的AI 助手。

三、评测

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四、部署

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

五、应用

应用流程

在这里插入图片描述
在这里插入图片描述

六、数据集

在这里插入图片描述

开放高质量语料数据

在这里插入图片描述
数据集获取

预训练

在这里插入图片描述

微调

大语言模型的下游应用中,增量续训和有监督微调是经常会用到两种方式:

增量续训

**使用场景:**让基座模型学习到一些新知识,如某个垂类领域知识
**训练数据:**文章、书籍、代码等

有监督微调

**使用场景:**让模型学会理解各种指令进行对话,或者注入少量领域知识
**训练数据:**高质量的对话、问答数据
在这里插入图片描述
全量参数微调 部分参数微调
在这里插入图片描述

XTuner 数据引擎

在这里插入图片描述
在这里插入图片描述

七、智能体

多模态智能体工具箱 AgentLego

• 代码解数学题
• 零样本泛化:多模态 AI 工具使用
• 丰富的工具集合,尤其是提供了大量视觉、多模态相关领域的前沿算法功能
• 支持多个主流智能体系统,如 LangChain,Transformers Agent,lagent 等
• 灵活的多模态工具调用接口,可以轻松支持各类输入输出格式的工具函数
• 一键式远程工具部署,轻松使用和调试大模型智能体
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

八、总结

在这里插入图片描述
经过第一课的学习,初步了解了书生·浦语大模型的发展历程、特点、能力和数据规模等知识点,通过对这些内容的进一步消化,未来该模型可用于以下应用方向:
在这里插入图片描述
相信在未来的课程中,通过实战化训练,进一步掌握环境构建、模型部署、数据集的处理、训练、微调和具体应用等基础能力,以便将来把AI代入生活工作的方方面面,用技术创新为行业赋能。

  • 23
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值