书生·浦语大模型全链路开源开放体系

书生大模型性能天梯图

在这里插入图片描述

书生·浦语2.5

  • 原生推理能力领先
  • 支持百万字上下文
  • 通过信息搜索和整合,完成复杂任务
    • MindSearch

核心技术思路

数据驱动模型性能提升

当前模型 -> 数据过滤,智能评估 -> 预训练数据 -> 更好模型

当前模型 -> 指令生成,辅助标注 -> 对齐数据 -> 更好模型

高质量合成数据

  • 基于规则的数据构造
    • 代码
    • 公式、函数
    • 数学题解
  • 基于模型的数据扩充
  • 基于反馈的数据生成

全链路开源

在这里插入图片描述

数据

开源数据集:书生万卷-OpenDataLab

数据标注:opendatalab/LabelLLM: The Open-Source Data Annotation Platform (github.com)

数据提取:opendatalab/MinerU: A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。 (github.com)

图像及视频标注:Label U

预训练 InternEvo

在这里插入图片描述

微调 XTuner

在这里插入图片描述

评测 OpenCompass

在这里插入图片描述

部署 LMDeploy

在这里插入图片描述

应用

智能体框架 Lagent

在这里插入图片描述

Rag框架 茴香豆
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值