书生·浦语-（五）-LMDeploy量化部署LLM实践

最新推荐文章于 2024-07-18 15:53:23 发布

奇迹学长

最新推荐文章于 2024-07-18 15:53:23 发布

阅读量237

点赞数 5

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ppyyds/article/details/138138794

版权

模型部署

部署：指的是将开发完毕的软件投入使用的过程
人工智能模型部署：是将训练好的深度学习模型在特定环境中运行的过程

大模型部署面临的挑战

· LLM参数量巨大，前向推理inference需要大量计算

· GPT3有175B，20B的算小模型了
· 内存开销巨大，FP16，20B模型加载参数需要显存40G+，175B模型需要350G+
· 20B模型kv缓存需要显存10G，合计需要50G显存
· RTX 4060X消费级独显，显存8G
· 访存瓶颈，数据交换速度不够，显存带宽比起访存量偏小，无法发挥GPU的计算能力。
· 动态请求量不确定，GPU计算能力发挥不足。

大模型部署方法

三种：模型剪枝
模型剪枝 pruning，减少模型中的冗余参数

知识蒸馏（KD）

引导轻量化模型来学习和模仿老师模型，在不改变结构下提高性能

量化
将模型需要的浮点数据转换为存储更小的整数或者其他离散形式

LMDeploy量化部署平台是如何解决这些问题的

LMDeploy是涵盖了大模型任务的全套轻量化、部署和服务解决方案，核心功能包括高效推理、可靠量化、便捷服务和状态推理。

（一）模型高效推理

（二）模型量化压缩

（三）服务化部署

LMDeploy支持的模型数量

LMDeploy具有卓越的通用性和可适配性，目前以支持11种模型部署，高效适应不同模型选择

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
书生·浦语-（五）-LMDeploy量化部署LLM实践

部署：指的是将开发完毕的软件投入使用的过程人工智能模型部署：是将训练好的深度学习模型在特定环境中运行的过程· LLM参数量巨大，前向推理inference需要大量计算· GPT3有175B，20B的算小模型了· 内存开销巨大，FP16，20B模型加载参数需要显存40G+，175B模型需要350G+· 20B模型kv缓存需要显存10G，合计需要50G显存· RTX 4060X消费级独显，显存8G· 访存瓶颈，数据交换速度不够，显存带宽比起访存量偏小，无法发挥GPU的计算能力。
复制链接

扫一扫

奇迹学长 CSDN认证博客专家 CSDN认证企业博客

码龄3年

13: 原创

141万+: 周排名

11万+: 总排名

5174: 访问

: 等级

228: 积分

66: 粉丝

86: 获赞

4: 评论

55: 收藏

私信

关注

热门文章

最新评论

书生·浦语大模型趣味（三）茴香豆-搭建RAG智能助理
CSDN-Ada助手: 恭喜用户在博客中分享了关于搭建RAG智能助理的内容，看来您对这一主题有着深入的研究和探索。持续创作是非常值得鼓励的，希望您能继续分享更多有趣的内容。或许下一步可以考虑结合实际案例或者个人经验，让读者更容易理解和接受您的观点。期待您更多精彩的作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
第三节作业茴香豆：搭建你的RAG智能助理
CSDN-Ada助手: 恭喜用户写了第五篇博客，标题为“第三节作业茴香豆：搭建你的RAG智能助理”。不断创作是一个很好的习惯，希望您能坚持下去，继续分享您的见解和经验。建议您在未来的创作中，可以尝试深入探讨茴香豆搭建RAG智能助理的过程和心得，或者分享一些实用的技巧和经验，让读者更易于理解和应用。期待您更多精彩的内容，加油！
轻松玩转书生·浦语大模型趣味（二） Demo作业
CSDN-Ada助手: 恭喜用户发布了第三篇博客，标题看起来就很有趣味呢！Demo作业内容一定也非常精彩吧！希望用户能够继续保持创作的热情和耐心，不断总结经验，提升自己的写作水平。下一步建议可以尝试结合实际案例或个人经历进行分享，或者多尝试一些新的写作风格，让读者眼前一亮。期待用户更多优质内容的发布，加油哦！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
书生·浦语大模型第二节：Demo实践
CSDN-Ada助手: 非常棒的第二篇博客！通过实际操作演示了如何构建模型和进行Demo实践，这对于学习者来说非常有帮助。希望你能继续分享更多关于模型构建和应用的经验和教程。除了Demo实践外，你可能还可以深入介绍一些关于模型优化、调参和结果评估的方法，这些内容对于提升模型性能和解决实际问题也非常重要。同时，也可以分享一些在模型部署和维护过程中常见的技巧和注意事项。期待你的更多精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
书生-浦语大模型与人工智能
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。