书生大模型全链路开源体系介绍

最新推荐文章于 2024-08-19 18:33:44 发布

FlyAstro_Fiestina

最新推荐文章于 2024-08-19 18:33:44 发布

阅读量368

点赞数 5

文章标签：人工智能

本文链接：https://blog.csdn.net/qq_22876439/article/details/141029245

版权

通过这篇简介，可以简要了解一下书生·浦语整个开放体系的主要结构和链路。

从模型的开源开放体系、数据收集整理、模型训练、微调、评测、搜索引擎到AI应用的部署等方面进行了介绍。其中，最新版本的书生·浦语大模型2.5在推理能力和短期记忆等方面有质的飞跃，同时开源了labelLLM项目方便标注数据。

概览：

书生·浦语系列开放体系中，目前最具有代表性的就是书生·浦语2.5，特点：

相对于Intern LM 2来说，综合推理能力性能提升20%
支持超长背景文字的理解、精确处理
自主规划、搜索并可以完成较为复杂的任务。

核心技术思路：

在当前模型的基础上，通过数据过滤，智能评估生成预训练数据；以及指令生成、辅助标注生成对其数据，并获取下个版本的模型，循环往复进行迭代。
在数据合成方案中，大致使用三种核心思路创造合成高质量数据：

基于规则构造数据：比如代码、公式等格式或者半格式化去塑造数据；
基于模型的数据扩充：在一些基础代码中增加符合更多需求的功能代码；
基于反馈：也就是通过人工提示的方式去主观优化。值得的是，在这种方法中，可以通过lableLLM开源工具进行NLP标注。

领先的推理能力：

通过大海捞针实验，模型在处理超长背景知识的时候，具有良好的表现。在十万TOKEN中可以百分百定位；在百万级也基本上都可以覆盖。
同时，可以提供更好语言模型分析的，尤其在跨文档的理解、支持逻辑自洽上，在未来有可能更通用地替代RAG的方式。
在基于规划和抖索解决复杂问题方面，模型也表现出与人类更为贴近的思考过程，并可以通过类似脑图的形式进行分步骤的表现形式。

全链条开源：

从数据、预训练、微调、部署、评测、应用六个关键环节均有一系列的模型，并可融入社区生态。

数据：书生万卷：惊喜处理的开源多模态语料库。
- 具有海量及的开放数据，并提供服务于工具。
- 在数据提取方面，可以使用minerU https://github.com/opendatalab/MinerU
- Label LLM Label U——数据标注很好用，比如在问答、对话、偏好等，甚至是视频标注。
InternEvo：预训练的框架
- 进行了性能优化，尤其是分布式训练
XTuner：多种微调、偏好对齐，支持千亿级别的参数，百万级上下文
- 致力于零显存浪费的偏好对其方案
- 支持很多其他开源模型，由多种微调算法、偏好对其算法，并具有自动优化加速，适配多种硬件
OpenCompass：开源评测体系
- 司南评测是大模型评测国标的主要参与单位。
- 工具基准榜单三位一体。
- 助力通用人工智能发展。
LMDeploy：部署框架
- 支持主流接口，量化、引擎、服务。
应用：具有mindsearch, lagend, minerU,茴香豆等不同领域的饮用。
- 从LLM向智能体Agent的发展：更新的知识获取，回复可靠性、数据计算，以及和其他API或者工具的交互使用。
- 轻量级智能体Lagent：支持多种类型，比如React，Rewoo，AutoGPT；并且可以支持多种大语言模型，以及其他工具。
- 茴香豆：企业级的知识库构建工具，开源、务实，支持7中文档格式的更新生效；简单便宜，扩展性强。