书生·浦语大模型实战营第一课笔记

最新推荐文章于 2024-10-02 22:45:05 发布

Horace_01

最新推荐文章于 2024-10-02 22:45:05 发布

阅读量892

点赞数 20

文章标签：笔记

本文链接：https://blog.csdn.net/m0_50123831/article/details/135384354

版权

本文记录了书生·浦语大模型实战营的第一课内容，介绍了大语言模型的全球关注度提升、InternLM模型的优势以及其全链条开源开放体系，包括预训练、微调、评测、部署和智能体构建工具。

摘要由CSDN通过智能技术生成

书生·浦语大模型实战营第一课笔记

全链条开源开放体系 | 数据
全链条开源开放体系 | 预训练
全链条开源开放体系 | 微调
全链条开源开放体系 | 评测
全链条开源开放体系 | 部署
全链条开源开放体系 | 智能体

在datawhale上看到此次大模型课的宣传链接，故参与进来。这是第一节课的笔记。

在这里插入图片描述
全球对于大语言模型的关注程度从ChatGPT开始，急速上升。

在这里插入图片描述
之所以全球关注度那么高，是因为大语言模型是通用模型，一种模型对应多种任务，通用模型是发展AGI的重要途经。从ChatGPT的文本模态，发展到GPT4的图文多模态，目前的大模型能力越来越强。

上海人工智能实验室也不断跟进大模型发展进程，推出了InternLM大模型，后续推出了更多相关的版本和工具。
在这里插入图片描述
发布了三个参数量级的模型，7B，20B，123B。各个模型有各自适用的应用场景与优势。

这里拿InternLM-20B模型举例，可以看出在相似参数量级（左边一众13B参数量级）的模型中，InternLM的性能还是挺好的（不过个人认为参数量多，性能好是应该的）

在这里插入图片描述
上图是从模型到应用的决策流程。
其中关于算力的部分，如果算力不够，只能进行部分参数微调（如lora技术），这是非常常见的。
同时，是否需要与环境交互（比如调用外部环境的api，与已有业务数据库交互），如果需要的话，就需要构造agent。这样才会更智能。
在这里插入图片描述
书生·浦语将过程中使用的数据，预训练，微调，部署，评测，应用的所有步骤都开源了出来！
先生大义呀！！！
预训练框架：做了优化，比如并行的优化，通信的优化，训练效率非常高。
XTuner：是一个微调框架，既支持全参数微调，也支持lora等部分参数微调的技术
OpenCompass：提供全方位评测
Lagent：一个轻量级的智能体搭建框架
AgentLego：供大模型调用的工具箱，涵盖了非常多的应用

全链条开源开放体系 | 数据

书生万卷包含了：文本、文本图像对、视频数据。涵盖了大部分领域，经过了精细化的处理，还做了人类价值观的对齐。
在这里插入图片描述
还有一个OpenDataLab开放数据平台，数据集资源十分丰富。

全链条开源开放体系 | 预训练

其中突出的优点是：
1、支持从8卡拓展到千卡，千卡加速效率达92%，领先各大开源框架
2、极致性能优化，加速50%

在这里插入图片描述

全链条开源开放体系 | 微调

提出了高效的微调框架XTuner，适配多种开源生态，自动优化加速。
在这里插入图片描述

全链条开源开放体系 | 评测

在这里插入图片描述
目前的评测不太能满足当前LLM的发展，于是书生浦语公布了自己的评测体系OpenCompass

全链条开源开放体系 | 部署

在这里插入图片描述
无论是静态推理性能，还是动态推理性能，都十分优异

全链条开源开放体系 | 智能体

LLM局限性有四点：
1、最新信息的获取
2、数学计算
3、工具使用与交互

在这里插入图片描述
有ReAct，ReWoo，AutoGPT三种类型的智能体能力，支持多种LLM。

AgentLego
1、丰富的工具集合，尤其是提供了大量视觉、多模态相关领域的前沿算法功能
2、支持多个主流智能体系统，如 LangChain，Transformers Agent，Lagent 等
3、灵活的多模态工具调用接口，可以轻松支持各类输入输出格式的工具函数
4、一键式远程工具部署，轻松使用和调试大模型智能体
在这里插入图片描述