书生大模型全链路开源体系介绍

qq_41472205

于 2024-08-10 20:12:01 发布

阅读量599

点赞数 19

文章标签： python

本文链接：https://blog.csdn.net/qq_41472205/article/details/141095615

版权

通过这篇简介，您可以简要了解书生·浦语开放体系的主要结构与流程。

文章介绍了从模型的开源开放体系、数据收集与整理、模型训练、微调、评测、搜索引擎到AI应用部署等各个方面的内容。特别是在推理能力和短期记忆方面，书生·浦语大模型2.5版本实现了质的飞跃，同时还开源了labelLLM项目，方便数据标注。

概览

书生·浦语系列开放体系中，书生·浦语2.5版本是最具代表性的模型，其特点如下：

相较于Intern LM 2，综合推理能力提升了20%；
支持超长背景文字的理解与精确处理；
具备自主规划、搜索并完成复杂任务的能力。

核心技术思路

在当前模型基础上，采用数据过滤、智能评估生成预训练数据，并通过指令生成与辅助标注生成数据，不断迭代更新模型。在数据合成方案中，主要采用以下三种核心思路来生成高质量数据：

基于规则构造数据：例如通过代码、公式等格式化或半格式化的方法构建数据；
基于模型的数据扩充：在基础代码中增加更多功能代码以满足需求；
基于反馈：通过人工提示对数据进行主观优化，可利用labelLLM开源工具进行NLP标注。

领先的推理能力

在多数实验中，书生·浦语模型在处理超长背景知识时表现出色，能够在十万TOKEN中百分百定位，并基本覆盖百万级TOKEN。同时，模型在跨文档理解和逻辑自洽方面具有优秀表现，有望在未来更广泛地替代RAG方法。

在解决复杂问题方面，书生·浦语模型展示了更接近人类的思考过程，能够通过类似脑图的形式分步骤呈现解决方案。

全链条开源

书生·浦语开放体系涵盖从数据、预训练、微调、部署、评测到应用的全链条，每个环节都有相应的开源模型，且能够融入社区生态：

数据：书生万卷是一个经过精细处理的开源多模态语料库，包含海量开放数据并提供工具支持。数据提取方面可以使用 minerU。
Label LLM：Label U 是一款数据标注工具，适用于问答、对话、偏好，甚至是视频标注。
InternEvo：预训练框架，进行了性能优化，尤其是分布式训练。
XTuner：多种微调和偏好对齐算法，支持千亿级别参数和百万级上下文，致力于零显存浪费的偏好对齐方案，并且兼容多种硬件。
OpenCompass：开源评测体系，是大模型评测国标的主要参与单位，提供工具、基准、榜单三位一体的支持，助力通用人工智能发展。
LMDeploy：部署框架，支持主流接口、量化、引擎和服务。
应用：包括mindsearch、lagent、minerU、茴香豆等多个领域的应用。

从LLM向智能体Agent的发展

书生·浦语开放体系支持更新的知识获取、回复可靠性、数据计算以及与其他API或工具的交互使用。轻量级智能体Lagent支持React、Rewoo、AutoGPT等多种类型，并兼容多个大语言模型与工具。茴香豆是企业级的知识库构建工具，开源、务实，支持7种中文档格式的更新生效，具有简便、低成本和高度扩展性的特点。

qq_41472205

关注

19
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
书生大模型全链路开源体系介绍

通过这篇简介，您可以简要了解书生·浦语开放体系的主要结构与流程。文章介绍了从模型的开源开放体系、数据收集与整理、模型训练、微调、评测、搜索引擎到AI应用部署等各个方面的内容。特别是在推理能力和短期记忆方面，书生·浦语大模型2.5版本实现了质的飞跃，同时还开源了labelLLM项目，方便数据标注。
复制链接

扫一扫