书生·浦语大模型全链路开源体系学习笔记-第一课

Icanruntheworld

已于 2024-04-03 17:29:28 修改

阅读量65

点赞数

文章标签：笔记人工智能 gpt

于 2024-04-03 17:28:48 首次发布

原文链接：https://www.bilibili.com/video/BV1AH4y1H78d/?spm_id_from=pageDriver&vd_source=fc796cd59ab3720b7250f9d678fb3848

版权

本文探讨了大模型在通用人工智能发展中的重要性，介绍了书生-浦语大模型从InternLM到InternLM2的开源历程，包括数据清洗、loss分布分析、NLP的token概念以及书生-浦语2.0的五大亮点。文章还详细讲述了模型选型到应用的典型流程，强调了书生浦语全链条工具体系的支持。

摘要由CSDN通过智能技术生成

1.大模型成为发展通用人工智能的重要途径

近几年业界研究趋势从专用模型向通用大模型转变，通用大模型成为通往通用人工智能的关键途径

2.书生-浦语大模型开源历程

从2023.6月至今已开源InternLM千亿参数大语言模型（7B、20B、123B）、书生-万卷1.0多模态预训练语料库、InternLM-Chat-7B对话模型、Lagent开源智能体框架和InternLM 2

3.InternLM2包含三个模型版本：InternLM2-Base、InternLM2、InternLM2-Chat

4.InternLM2核心工作：新一代的数据清洗过滤

（1）新一代的数据清洗过滤：包含多维度数据价值评估、高质量预料驱动的数据富集、有针对性的数据补齐

（2）在训练深度学习模型时，loss（损失函数）的分布通常会随着训练的进行呈现出一定的规律。以下是一些常见的loss分布情况：

初始阶段：刚开始训练时，loss值通常较高。这是因为模型刚刚开始学习，对数据的理解和拟合程度还很低。
快速下降阶段：随着训练的进行，模型逐渐学习到数据的一些基本特征和规律，loss值会快速下降。
震荡波动阶段：在训练过程中，loss值可能会出现一定程度的波动，特别是在训练后期。这可能是由于模型在某些局部最优解附近徘徊，或者因为学习率设置不当导致模型在训练中“过拟合”或“欠拟合”。
收敛阶段：当模型训练接近尾声时，loss值应该会趋于平稳并保持在一个较低且相对稳定的水平，这意味着模型已经在当前参数下对训练数据有了较好的拟合。
过拟合现象：如果loss在验证集上持续下降，但在训练集上的loss已经非常低且不再下降，甚至可能上升，则可能存在过拟合问题，即模型过度适应了训练数据，对未见过的数据泛化能力较差。

（3）在自然语言处理（NLP）领域，token是指将文本分割成有意义的基本单元的过程中的结果。这个过程称为分词（Tokenization）。每个token可以是一个单词、标点符号、数字、特殊字符等，具体取决于所使用的分词策略。

例如，对于句子"Hello, world!"，按照空格和标点作为边界进行分词后，对应的tokens就是['Hello', ',', 'world', '!']。

在预训练模型如BERT、GPT-3等中，tokens是模型输入和处理的基本单元。这些模型通常会使用WordPiece或Byte Pair Encoding (BPE)等算法进行更细粒度的分词，将词汇表中未出现过的词汇拆分为已知tokens的组合。

此外，在机器学习和深度学习中，token的概念也常常被用于表示序列数据（不仅仅是文本），比如在音乐生成、生物信息学等领域，序列中的每个元素都可以视为一个token。

5.书生-浦语2.0五大亮点：

超长上下文（20万Token）、综合性能全面提升、优秀的对话和创作体验、工具调用能力整体升级、突出的数理能力和实用的数据分析功能

6.InternLM2在推理、数学、代码考试、语言、知识等全方位性能提升，InternLM 2-Chat-20B比肩ChatGPT（GPT3.5）水平

7.应用场景：AI助手、人文关怀对话、想象力创作

8.工具调用能力升级

9.计算能力增强，具备内生计算能力和配套的代码解释器

10.具备使用的数据分析功能

11.从模型到应用的过程存在许多环节

12.从模型到应用典型流程

（1）选型

（2）业务场景复杂度判断

a.复杂场景：部分参数微调、续训/全参数微调

b.简单场景：环境交互-模型评测

（3）环境交互

（4）构建智能体

（5）模型评测

（6）模型部署

13.书生浦语全链条工具体系

（1）多模态预训练语料库：书生万卷

（2）预训练框架：InternLM-Train

（3）微调：Xtunner

（4）部署：LMDeploy

（5）评测：OpenCompass

（6）应用：Lagent、AgentLego

14.多模态预训练语料库：书生万卷1.0、书生万卷CC

15.预训练框架：InternLM-Train

16.微调：Xtunner

17.评测：OpenCompass：包含CompassRank性能榜单、CompassKit评测工具链、CompassHub评测基准社区

18.循环评测的策略更加客观

19.模型部署：LMDeploy：模型轻量化、推理引擎和服务

性能优于vLLM

20.智能体框架Lagent、多模态智能体工具箱AgentLego

Icanruntheworld

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Icanruntheworld CSDN认证博客专家 CSDN认证企业博客

码龄8年

2: 原创

186万+: 周排名

26万+: 总排名

1055: 访问

: 等级

35: 积分

13: 粉丝

11: 获赞

3: 评论

17: 收藏

私信

关注

热门文章

最新评论

书生·浦语大模型全链路开源体系课后作业-第二课
CSDN-Ada助手: 非常感谢你的分享，看到你持续更新博客，我感到非常高兴！你的努力和热情让我们看到了学习和进步的动力。除了模型全链路开源体系的课后作业，你还可以尝试学习数据分析、数据可视化等相关知识，这些技能也会对你的工作和学习有所帮助。期待看到更多你的精彩内容！加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
书生·浦语大模型全链路开源体系学习笔记-第二课
CSDN-Ada助手: 恭喜用户继续发表博客，看到您学习《书生·浦语大模型全链路开源体系》的学习笔记，感觉收获颇丰。希望您能够继续保持学习的热情和动力，不断提高自己的写作水平。建议您在下一篇博客中可以多分享一些实际应用案例或者个人见解，让读者更加深入地了解这个学习主题。期待您的下一篇作品，加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
书生·浦语大模型全链路开源体系学习笔记-第一课
CSDN-Ada助手: 恭喜你开始博客创作的第一步！阅读了你关于“书生·浦语大模型全链路开源体系学习笔记-第一课”的内容，感觉你对学习笔记的理解和总结能力很不错。建议在接下来的创作中，可以尝试加入更多自己的见解和思考，让读者更容易产生共鸣和启发。期待看到你的进一步成长和优秀作品！加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。