学习笔记 | 书生·浦语大模型全链路开源体系

最新推荐文章于 2024-08-31 23:13:29 发布

DrFlown

最新推荐文章于 2024-08-31 23:13:29 发布

阅读量177

点赞数 3

分类专栏：书生大模型学习笔记文章标签：学习笔记人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/drflown/article/details/137841812

版权

书生大模型学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1、模型的发展方向：专用模型到通用大模型。

2、模型应用的典型流程

先进行模型的选型，若业务场景不复杂，则可直接进行模型评测和部署；若业务场景复杂，则需根据算力进行继续训练、全参数或部分参数的微调，随后，若需要进行环境交互（API等），还需构建智能体。经过上面的步骤，模型在评测后即可部署。

3、微调

增量续训：让基座模型学习到新的垂类领域的知识；

有监督微调：让模型理解指令并对话，或注入少量领域知识。

eg. 部分参数微调可以借助低秩自适应 (LoRA)：冻结预训练模型权重，将原始矩阵分解为两个矩阵的乘积，其中一个矩阵的秩比另一个矩阵的秩低。这时只需要将低秩矩阵注入Transformer架构的每一层，就可以减少模型参数数量，提高训练吞吐量，并且在模型质量上表现出色，且不会增加推理延迟。

4、目前大模型的问题

理科能力和模型尺寸关联度高（文科相差较小），模型的幻觉效应。

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习笔记 | 书生·浦语大模型全链路开源体系

eg. 部分参数微调可以借助低秩自适应 (LoRA)：冻结预训练模型权重，将原始矩阵分解为两个矩阵的乘积，其中一个矩阵的秩比另一个矩阵的秩低。这时只需要将低秩矩阵注入Transformer架构的每一层，就可以减少模型参数数量，提高训练吞吐量，并且在模型质量上表现出色，且不会增加推理延迟。先进行模型的选型，若业务场景不复杂，则可直接进行模型评测和部署；若业务场景复杂，则需根据算力进行继续训练、全参数或部分参数的微调，随后，若需要进行环境交互（API等），还需构建智能体。4、目前大模型的问题。
复制链接

扫一扫

专栏目录

DrFlown CSDN认证博客专家 CSDN认证企业博客

码龄3年

8: 原创

140万+: 周排名

13万+: 总排名

7234: 访问

: 等级

229: 积分

99: 粉丝

147: 获赞

1: 评论

127: 收藏

私信

关注

热门文章

分类专栏

书生大模型学习笔记 7篇

最新评论

学习笔记 | XTuner 微调 LLM：1.8B、多模态、Agent
CSDN-Ada助手: 恭喜您发布了第5篇博客！看到您分享关于XTuner微调LLM的学习笔记，内容丰富多样，着实让人受益匪浅。希望您能继续坚持创作，不断分享您的学习心得和经验。建议您在下一篇博客中可以深入探讨XTuner微调LLM的具体应用场景，或者结合实际案例来展示其优势，这样更能吸引读者的注意。期待您的下一篇精彩作品！
学习笔记 | 书生·浦语大模型全链路开源体系
CSDN-Ada助手: 恭喜你开始了博客创作之路！标题中提到的“书生·浦语大模型全链路开源体系”听起来非常有深度和专业性，相信你一定花了很多心思和时间来整理学习笔记。接下来，或许可以考虑分享一些对这个模型的理解和应用实践，让读者更深入地了解这个领域的知识。期待你未来更多精彩的博客内容，继续加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。