第二期书生浦语大模型训练营第五次笔记

chao_666666

已于 2024-04-16 12:56:04 修改

阅读量881

点赞数 33

文章标签：人工智能深度学习

于 2024-04-16 12:55:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chao_666666/article/details/137818008

版权

模型部署

模型部署对于任何大模型来说是非常关键的一步。一旦模型经过训练并达到预期的性能指标,就需要将其部署到实际的生产环境中,为最终用户提供服务。但是在部署过程中,大型模型会面临一些独特的挑战。

面临的挑战

大模型在部署方面有一个难题，就是大模型的“大”，导致在很多设备环境很难部署，包括：

1.计算量巨大
2.内存开销大
3.访存瓶颈

这些问题使得在许多设备和环境中部署大型模型变得非常困难,甚至根本无法实现。因此,如何有效地解决这些挑战,成为了大模型部署中必须解决的关键问题。

部署问题的解决方案

为了应对上述挑战,研究人员和工程师提出了多种解决方案,包括知识蒸馏、模型剪枝和量化等技术。

知识蒸馏的思路是利用大型教师模型来指导小型学生模型的训练,使学生模型能够学习到教师模型的知识,从而在保持较好性能的同时大幅减小模型的规模。

模型剪枝则是通过剔除模型中不重要的参数和计算,来缩小模型的尺寸。

量化技术则是将原始的32位或16位浮点数参数压缩为8位或更低位宽的定点数表示,从而降低模型的内存占用和计算量。

量化模型LMDeploy

最关键的就是高效的推理能力。具体来说,包括以下几个方面:

高效的推理技术,如Continuous Batch、Blocked K/V Cache等,能够极大提高推理的速度和吞吐量。
内存优化,如通过IntermediateFileCache(LMDeploy)技术,大幅减少内存占用,支持在低配GPU(16GB/24GB)上高效部署大模型。
支持多种量化类型,如支持Attention的量化,以平衡推理速度和精度。
良好的工程能力,如端到端的部署流程、高效的并行计算等,提高了部署效率。

最后可以看到LMDeploy在性能的表现上非常优秀，速度提升明显。

部署LMDeploy并对话

配置LMDeploy运行环境

安装好环境，并成功激活

使用transformer运行大模型

使用LMDeploy模型量化(lite)

KV8量化和W4A16量化。KV8量化是指将逐 Token（Decoding）生成过程中的上下文 K 和 V 中间结果进行 INT8 量化（计算时再反量化），以降低生成过程中的显存占用。W4A16 量化，将 FP16 的模型权重量化为 INT4，Kernel 计算时，访存量直接降为 FP16 模型的 1/4，大幅降低了访存成本。Weight Only 是指仅量化权重，数值计算依然采用 FP16（需要将 INT4 权重反量化）。

使用KV8量化

设置--cache-max-entry-count参数，控制KV缓存占用剩余显存的最大比例

上下进行对比，第一个设置为0.8，第二个设置为0.5，发现有明显的显存占用降低

使用W4A16量化

进行量化工作，保存新的HF模型。

KV Cache比例再次调为0.4，进行对话

可以发现推理生成的速度很快

LMDeploy服务(serve)

1 启动API服务器

2 命令行客户端连接API服务器

3 网页客户端连接API服务器

关注

33
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
第二期书生浦语大模型训练营第五次笔记

KV8量化是指将逐 Token（Decoding）生成过程中的上下文 K 和 V 中间结果进行 INT8 量化（计算时再反量化），以降低生成过程中的显存占用。W4A16 量化，将 FP16 的模型权重量化为 INT4，Kernel 计算时，访存量直接降为 FP16 模型的 1/4，大幅降低了访存成本。的思路是利用大型教师模型来指导小型学生模型的训练,使学生模型能够学习到教师模型的知识,从而在保持较好性能的同时大幅减小模型的规模。则是通过剔除模型中不重要的参数和计算,来缩小模型的尺寸。
复制链接

扫一扫

chao_666666 CSDN认证博客专家 CSDN认证企业博客

码龄2年

24: 原创

117万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

619: 积分

376: 粉丝

356: 获赞

11: 评论

231: 收藏

私信

关注

热门文章

分类专栏

最新评论

第二期书生浦语大模型训练营第五次作业
CSDN-Ada助手: 恭喜您完成了第二期书生浦语大模型训练营第五次作业！持续创作是非常重要的，您的努力和坚持让人钦佩。接下来，我建议您可以尝试结合自己的观点和经验，进行更深入的分析和探讨，或者尝试挑战一些新的题材和风格，让您的创作更加多样化和丰富。期待您更多的精彩作品！祝您创作愉快！
第二期书生浦语大模型训练营第五次笔记
CSDN-Ada助手: 恭喜您第18篇博客，标题为“第二期书生浦语大模型训练营第五次笔记”！您的持续创作精神令人钦佩。接下来，建议您在下一篇博客中可以分享一些关于模型训练营的心得体会，或者是对于模型训练的一些技巧和经验分享，相信读者会更加期待您的内容。期待您更多精彩的创作！
第二期书生浦语大模型训练营第二次作业
CSDN-Ada助手: 恭喜您完成了第二次作业，继续保持对书生浦语大模型训练营的热情与专注，相信您一定会有更多精彩的作品呈现给大家。希望您在接下来的创作中能够更加深入地挖掘主题，展现更多独特的见解和观点，期待您的作品能够给读者带来更多启发和思考。加油！
人工智能之特殊矩阵（1）
CSDN-Ada助手: 恭喜您发布了第6篇博客，“人工智能之特殊矩阵（1）”！您对人工智能领域的深入探讨让读者受益匪浅。希望您能继续保持创作的热情和耐心，探索更多有趣的话题，或许可以考虑深入研究不同类型的矩阵在人工智能中的应用，期待您的下一篇作品！愿您在创作的道路上不断进步，谢谢您的分享！
人工智能矩阵之对称阵
CSDN-Ada助手: 恭喜您第10篇博客文章！对称阵是人工智能矩阵中一个重要的概念，您的文章内容详实、清晰，让读者受益匪浅。接下来，或许可以考虑探讨一下对称阵在机器学习领域的应用，或者深入研究对称阵的特征值与特征向量等相关内容。期待您的下一篇文章，继续为我们带来更多精彩的知识分享！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。