书生·浦语大模型全链路开源体系

书生·浦语大模型全链路开源体系 笔记
书生浦语是一个大模型全链路开源体系,为开发者提供了从数据集准备到模型训练、部署和应用的全套解决方案。通过该体系,开发者可以自由定制和扩展模型,满足不同场景下的需求。

体系的演变:
从专用模型 到 通用大模型
(从一个模型解决一个问题 到 一个模型应对多种任务、多种模态)

Large language model 为当下热门关键词
大模型关键词搜索

GPT在openai的发展过程

大模型发展时间线:
大模型发展时间线

语言模型发展历史:
Statistical LM —> Neural LM —> Pre-trained LM —> LLM
能解决任务能力提升:
assist in specific tasks --> solve typical NLP tasks —> solve various NLP tasks —> solve various real-world tasks
语言模型\能力 发展历史

书生浦语是一个大模型全链路开源体系,为开发者提供了从数据集准备到模型训练、部署和应用的全套解决方案。通过该体系,开发者可以自由定制和扩展模型,满足不同场景下的需求。

书生·浦语大模型全链路开源体系:
数据: 开放了书生万卷,具有2TB数据,涵盖多种模态与任务
预训练: 开源了InternLM-Train框架,支持并行训练,进行了极致优化,速度达到3600 tokens/sec/gpu
微调: 开源了XTuner框架,支持 全参数微调,支持LoRA等低成本微调
部署: 开源了LMDeploy框架,支持全链路部署,性能领先,每秒生成2000+ tokens
评测: 开源OpenCompass框架,支持全方位评测,性能可复现,80套评测集,40万道题目
应用: 开源了Lagent、AgentLego项目,支持多种智能体,支持代码解析器多种工具调用

在这里插入图片描述
书生·浦语大模型开源历程:
开源历程
三个模型版本
具体参数
轻量级适合社区低成本使用
中量级适合商业场景的定制高精度中模型
重量级适合通用大预言模型能力全面覆盖千亿模型规模

以20B开源大模型为例,其性能全面领先相近量级的开源模型(包括Llama-33B、Llama2-13B以及国内主流的7B、13B开源模型),以不足三分之一的参数量,达到Llama2-70B水平。

对开源体系各部分进一步的详细展示:

详细展开体系
1、数据: 开放了书生万卷,具有2TB数据,涵盖多种模态与任务数据
高质量语料数据,大家可以访问官网: 书生高质量语料数据
书生万卷:书生万卷

2、 预训练: 开源了InternLM-Train框架,支持并行训练,进行了极致优化,速度达到3600 tokens/sec/gpu

预训练
预训练框架 github-预训练框架

3、 微调: 开源了XTuner框架,支持 全参数微调,支持LoRA等低成本微调
微调
书生浦语全链条开源开发体系提供了Xtuner微调框架:github-Xtuner微调框架

4、部署: 开源了LMDeploy框架,支持全链路部署,性能领先,每秒生成2000+ tokens
部署
书生浦语全链条开源开发体系提供了LMDeploy框架 github-LMDeploy框架 其在性能上优于vLLm推理框架

5、评测: 开源OpenCompass框架,支持全方位评测,性能可复现,80套评测集,40万道题目
评测
汇聚社区力量:工具-基准-榜单 ,让评测体系不断优化,
书生浦语全链条开源开发体系从去年5月份陆陆续续发布了不同的评测体系,在今年1月30日发布了OpenaiCompass 2.0评测体系: OpenaiCompass 2.0评测体系

6、应用: 开源了Lagent、AgentLego项目,支持多种智能体,支持代码解析器多种工具调用

Lagent
Lagent智能体轻量级框架 Lagent智能体轻量级框架
AgentLego
AgentLego:github-AgentLego

开源体系介绍完毕!
亮点

  • 12
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值