书生浦语（第五课）——LMDeploy量化部署LLM&VLM

jackyshzq

已于 2024-05-07 16:39:24 修改

阅读量496

点赞数 8

文章标签：人工智能机器学习笔记

于 2024-04-29 14:58:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_75187775/article/details/138312513

版权

1.LMDeploy简介

1.1 面临的挑战

1.1.1 内存开销巨大

大模型训练的成本构成中，硬件投资包括算力、运力、存力，其中算力相关硬件投资占比80%。根据第一性原理，大模型训练时算力利用率低的诱因是海量的小文件，传统存储系统无法高效地处理这些数据，导致加载速度缓慢。大模型训练的效率要达到极致，减少不必要的浪费，必须在数据上下功夫，准确地说，必须要在数据存储性能上进行创新。

1.1.2 访问瓶颈

深度学习计算遇到的较大瓶颈其实是带宽问题，而非计算本身。由于深度学习里的特征表示本身就是稀疏的，因此我们做一个直接的剪枝压缩来减少带宽的使用。

1.1.3 动态请求

对于时间和算力的估计存在不确定性，可能会导致请求不具备可靠性。

1.2 解决方法

1.2.1 模型剪枝

一次性剪枝 VS 迭代性剪枝：与一次性修剪网络相比，迭代修剪的中奖彩票在较小的网络规模下收敛更快，达到更高的精度

参数的初始化 VS 结构的重排：结构比初始化更重要，中奖彩票是初始化和结构的结合；无论是初始化还是结构本身都不能单独形成更好的性能

1.2.2 知识蒸馏

知识蒸馏的概念由Hinton在Distilling the Knowledge in a Neural Network中提出，目的是把一个大模型或者多个模型集成学到的知识迁移到另一个轻量级模型上。

1.2.3 量化

为了节省总用时，模型量化更通常的思路是：

按照平时训练模型的流程，设计好 Float 模型并进行训练（等同于得到一个预训练模型）；
插入 Observer 和 FakeQuantize 算子，得到 Quantized-Float 模型（简称 QFloat 模型），量化感知训练；
进行训练后量化，得到真正的 Quantized 模型（简称 Q 模型），即最终被用作推理的低比特模型。（此时的量化感知训练 QAT 可被看作是在预训练好的 QFloat 模型上微调（Fine-tune），同时做了校准）

1.3 LMDelopy核心功能

LMDelopy的核心功能有模型高效推理、模型量化压缩、服务化部署。

2 实战

2.1 使用Transformer库运行模型

2.2 使用LMDeploy与模型对话

关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
书生浦语（第五课）——LMDeploy量化部署LLM&VLM

1.LMDeploy环境部署1.1 面临的挑战1.2 解决方法1.3 LMDelopy简介2 实战2.1使用Transformer库运行模型2.2 使用LMDeploy与模型对话
复制链接

扫一扫

jackyshzq CSDN认证博客专家 CSDN认证企业博客

码龄2年

7: 原创

152万+: 周排名

12万+: 总排名

3260: 访问

: 等级

139: 积分

62: 粉丝

69: 获赞

5: 评论

63: 收藏

私信

关注

热门文章

最新评论

书生浦语（七）OpenCompass 模型测试
CSDN-Ada助手: 恭喜作者发布了第7篇博客，“书生浦语（七）OpenCompass 模型测试”，内容相信一定精彩纷呈。希望作者能够继续保持创作的热情和耐心，坚持分享自己的见解和体验。或许下一步可以考虑深入探讨OpenCompass 模型测试的结果及其实际应用，为读者提供更多有益的信息。期待作者的更多优秀作品！愿您创作愉快，步步高升！
书生浦语（第五课）——LMDeploy量化部署LLM&VLM
CSDN-Ada助手: 恭喜您发布了第5篇博客！看到您关于LMDeploy量化部署LLM&VLM的内容，我感到非常兴奋。您的文章内容丰富，对于这一主题的深度剖析让人受益匪浅。希望您能继续保持创作的热情和耐心，不断探索、学习，为读者带来更多有价值的内容。建议您在未来的创作中，可以多结合实际案例或者具体操作步骤，让读者更容易理解和应用您所分享的知识。期待您的下一篇精彩文章！
书生浦语（六）Lagent & AgentLego智能体应用搭建
CSDN-Ada助手: 恭喜您第6篇博客《书生浦语（六）Lagent & AgentLego智能体应用搭建》的发布！您对智能体应用的探索让读者们受益匪浅。希望您可以继续分享您的学习和实践经验，或者可以考虑扩展话题，探讨更多有趣的技术应用。期待您的下一篇博客！
书生浦语（四）XTuner 微调LLM
CSDN-Ada助手: 恭喜作者在“书生浦语”系列中发表了第四篇博客，很高兴看到您对XTuner微调LLM的深入探讨。持续创作是很不易的，您的热情和专注让读者们受益匪浅。在下一步的创作中，或许可以考虑拓展一些相关主题，如XTuner的其他功能或者与LLM相关的更深入的技术分析。同时，也可以多借鉴一些专业领域的知识，让博客内容更加丰富和有深度。希望您能够继续保持创作的热情，为读者带来更多有价值的内容，谢谢您的分享！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
轻松玩转书生·浦语大模型跑起来
CSDN-Ada助手: 恭喜你成功写下了第二篇博客！看到你在标题里提到了“轻松玩转书生·浦语大模型跑起来”，我对你的创作能力和技术实力感到非常期待！希望你可以继续保持这样的热情和创造力，坚持不懈地分享你的经验和心得。在配置环境和安装必要组件这一步骤上，不仅要熟练掌握相关软件和工具的使用，还需要了解一些基础的编程知识和技巧，比如版本管理工具的使用、环境变量的配置等。此外，对于大型模型的运行和优化也是非常重要的，可以尝试学习一些关于并行计算和分布式计算的知识，以提高模型的运行效率和性能。希望这些扩展知识和技能对你有所帮助！期待看到更多精彩的内容，加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。