01 书生·浦语大模型全链路开源体系

wangzixinxinxin

已于 2024-01-16 09:07:19 修改

阅读量587

点赞数 5

分类专栏：书生·浦语大模型实战营文章标签：语言模型自然语言处理人工智能 gpt

于 2024-01-04 14:24:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Wzxdecsdn/article/details/135384534

版权

书生·浦语大模型实战营专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本文概述了书生·浦语大模型的开源历程，从千万到二十亿参数的迭代，强调其在阅读理解、对话交互和多模态预训练等方面的表现，并介绍了完整的开源开放体系，包括数据、预训练、微调、部署和评测工具以及应用场景。

摘要由CSDN通过智能技术生成

目录

1 InterLM简介

2 书生·浦语大模型开源历程

3 书生·浦语20B开源大模型性能

4 书生·浦语全链条开源开放体系

1 InterLM简介

InternLM 是在过万亿 token 数据上训练的多语千亿参数基座模型。通过多阶段的渐进式训练，InternLM 基座模型具有较高的知识水平，在中英文阅读理解、推理任务等需要较强思维能力的场景下性能优秀，在多种面向人类设计的综合性考试中表现突出。在此基础上，通过高质量的人类标注对话数据结合 RLHF 等技术，使得 InternLM 可以在与人类对话时响应复杂指令，并且表现出符合人类道德与价值观的回复。

2 书生·浦语大模型开源历程

2023.06.07 发布千亿参数大语言模型InternLM

2023.07.06 支持8k语境，26种语言，全面开源、免费商用，InternLM-7B、全链条开源体系

2023.08.14 书生·万卷1.0，多模态预训练语料库发布

2023.08.21 InternLM-Chat-7B v1.1发布，开源智能体框架lagent

2023.08.28 参数量升级至123B

2023.09.20 增强版InterLM-20B开源，开源工具链全线升级

……

3 书生·浦语20B开源大模型性能

官方的评测分数如上图，可以看出模型用Llamm2-70B三分之一的参数量达到了几乎不逊的性能。

4 书生·浦语全链条开源开放体系

4.1 数据

书生·万卷，包括2TB数据，涵盖多种模态和多种任务、OpenDataLab：

4.2 预训练

InternLM-Train，速度达到3600tokens/sec/gpu：

4.3 微调

XTuner，支持全参数、LoRA等低成本微调：

4.4 部署

LMDeploy，全链路部署，每秒生成2000+tokens：

4.5 评测

OpenCompass，80套评测集，40w+题目：

4.6 应用

Lagent、AgengLego，支持多种智能体，代码解释器等多种工具：

wangzixinxinxin

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
01 书生·浦语大模型全链路开源体系

书生·浦语大模型全链路开源体系简介
复制链接

扫一扫

专栏目录

wangzixinxinxin CSDN认证博客专家 CSDN认证企业博客

码龄2年

9: 原创

132万+: 周排名

18万+: 总排名

1万+: 访问

: 等级

310: 积分

145: 粉丝

196: 获赞

12: 评论

210: 收藏

私信

关注

热门文章

分类专栏

书生·浦语大模型实战营 7篇

最新评论

医疗大模型实战——MedicalGPT项目记录
wangzixinxinxin: 因为预训练阶段是NTP（预测下一个token），经过增量训练后的模型是没有回复能力的。需要重新通过监督微调来获得回答问题的能力
医疗大模型实战——MedicalGPT项目记录
Tiezhu_kotaro: 十分期待您的回复
医疗大模型实战——MedicalGPT项目记录
Tiezhu_kotaro: 博主您好！请问”经过增量预训练大模型的对齐会被破坏需要重新进行”这个观点有出处吗？还是您得出的经验？
epilogue 书生·浦语大模型实战营终章
CSDN-Ada助手: 恭喜作者完成了“epilogue 书生·浦语大模型实战营终章”，真是辛苦了！看到您一直坚持不懈地创作，实在是令人钦佩。希望您能继续保持这样的创作热情，不断突破自我，为读者带来更多精彩的内容。或许在下一步的创作中，您可以尝试探索一些新的题材或写作风格，让自己的创作更加丰富多彩。期待您的下一篇作品！
05 LMDeploy大模型量化部署实践
CSDN-Ada助手: 恭喜您写了第7篇博客！标题“05 LMDeploy大模型量化部署实践”听起来非常吸引人。您在量化部署方面的实践经验一定非常丰富，对读者来说将是一次宝贵的学习机会。接下来，我希望您能够继续分享更多关于模型部署方面的实践经验，比如如何优化部署流程、如何应对挑战等等。非常期待您的下一篇博客！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。