书生大模型全链路开源体系介绍

通过这篇简介,您可以简要了解书生·浦语开放体系的主要结构与流程。

文章介绍了从模型的开源开放体系、数据收集与整理、模型训练、微调、评测、搜索引擎到AI应用部署等各个方面的内容。特别是在推理能力和短期记忆方面,书生·浦语大模型2.5版本实现了质的飞跃,同时还开源了labelLLM项目,方便数据标注。

概览

书生·浦语系列开放体系中,书生·浦语2.5版本是最具代表性的模型,其特点如下:

  • 相较于Intern LM 2,综合推理能力提升了20%;
  • 支持超长背景文字的理解与精确处理;
  • 具备自主规划、搜索并完成复杂任务的能力。

核心技术思路

在当前模型基础上,采用数据过滤、智能评估生成预训练数据,并通过指令生成与辅助标注生成数据,不断迭代更新模型。在数据合成方案中,主要采用以下三种核心思路来生成高质量数据:

  1. 基于规则构造数据:例如通过代码、公式等格式化或半格式化的方法构建数据;
  2. 基于模型的数据扩充:在基础代码中增加更多功能代码以满足需求;
  3. 基于反馈:通过人工提示对数据进行主观优化,可利用labelLLM开源工具进行NLP标注。

领先的推理能力

在多数实验中,书生·浦语模型在处理超长背景知识时表现出色,能够在十万TOKEN中百分百定位,并基本覆盖百万级TOKEN。同时,模型在跨文档理解和逻辑自洽方面具有优秀表现,有望在未来更广泛地替代RAG方法。

在解决复杂问题方面,书生·浦语模型展示了更接近人类的思考过程,能够通过类似脑图的形式分步骤呈现解决方案。

全链条开源

书生·浦语开放体系涵盖从数据、预训练、微调、部署、评测到应用的全链条,每个环节都有相应的开源模型,且能够融入社区生态:

  • 数据:书生万卷是一个经过精细处理的开源多模态语料库,包含海量开放数据并提供工具支持。数据提取方面可以使用 minerU
  • Label LLM:Label U 是一款数据标注工具,适用于问答、对话、偏好,甚至是视频标注。
  • InternEvo:预训练框架,进行了性能优化,尤其是分布式训练。
  • XTuner:多种微调和偏好对齐算法,支持千亿级别参数和百万级上下文,致力于零显存浪费的偏好对齐方案,并且兼容多种硬件。
  • OpenCompass:开源评测体系,是大模型评测国标的主要参与单位,提供工具、基准、榜单三位一体的支持,助力通用人工智能发展。
  • LMDeploy:部署框架,支持主流接口、量化、引擎和服务。
  • 应用:包括mindsearch、lagent、minerU、茴香豆等多个领域的应用。

从LLM向智能体Agent的发展

书生·浦语开放体系支持更新的知识获取、回复可靠性、数据计算以及与其他API或工具的交互使用。轻量级智能体Lagent支持React、Rewoo、AutoGPT等多种类型,并兼容多个大语言模型与工具。茴香豆是企业级的知识库构建工具,开源、务实,支持7种中文档格式的更新生效,具有简便、低成本和高度扩展性的特点。

  • 19
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值