初夏专场：一键搞定书生浦语LMDeploy量化部署LLM&VLM大模型实践

最新推荐文章于 2024-10-07 06:31:57 发布

nlpx2000

最新推荐文章于 2024-10-07 06:31:57 发布

阅读量1k

点赞数 26

文章标签：人工智能深度学习自然语言处理 AIGC 语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nlpx2000/article/details/139568869

版权

第一部分：LMDeploy知识

从大模型部署的背景、部署方法、以及实际部署中面临的挑战，包括计算量、内存开销、仿存瓶颈和用户请求不确定性等问题入手，通过LMDeploy环境部署、LMDeploy模型对话(chat)、LMDeploy模型量化(lite)、LMDeploy服务(serve)、Python代码集成、LMDeploy运行视觉多模态大模型llava、定量比较LMDeploy与Transformer库的推理速度差异了解实践量化部署大模型。

视频学习请戳：LMDeploy 量化部署 LLM-VLM 实践_哔哩哔哩_bilibili由西北工业大学博士生、书生·浦源挑战赛冠军队伍队长、第一期书生·浦语大模型实战营优秀学员【安泓郡】带来【LMDeploy 量化部署 LLM&VLM实战】课程讲解课程文档：https://github.com/InternLM/Tutorial/blob/camp2/lmdeploy/README.md课程作业：https://github.com/InternLM/Tutorial/blo, 视频播放量 4234、弹幕量 7、点赞数 97、投硬币枚数 50、收藏人数 105、转发人数 33, 视频作者 OpenMMLab, 作者简介构建国际领先的计算机视觉开源算法平台 | 小助手：OpenMMLabwx 微信公众号同名，相关视频：Lagent & AgentLego 智能体应用搭建，【训练自己的Llama 3】迄今为止最强大的开源大语言模型Llama3微调-量化-部署一条龙详解！LLM、Meta AI，吴恩达大模型系列教程：2024吴恩达LLM大模型教程，手把手带你实现大模型预训练和模型微调，中英字幕（附学习课件），OpenCompass 大模型评测实战，这也太全了！llama3如何做下游应用？llama3微调-量化-部署-应用全学会！绝对的通俗易懂！大模型/环境配置/知识库检索，这讲解太适合小白了！【llama3微调、部署、量化、下游应用、知识库检索】全都讲到了！含配套代码，草履虫都能学会！—llama3、llama3应用、项目实战，都发布一个月了【还不会微调Llama3吗】！迪哥十分钟带你微调-量化-部署-应用一条龙解读！草履虫都能学会！！！，LMDeploy 大模型量化部署实践，大模型时代必学！吴恩达大佬出的【langchain+RAG】教程可太适合学习了！中英字幕，13讲全！—大模型、吴恩达大模型教程，丝滑！没想到只花了两个小时就搞定了【langchain+RAG】课程！真的太赞了，优质课程分享给大家一起学习进步！—吴恩达、大模型课程、多模态大模型、人工智能https://www.bilibili.com/video/BV1tr421x75B/

实践学习请戳：GitHub - InternLM/Tutorial at camp2LLM Tutorial. Contribute to InternLM/Tutorial development by creating an account on GitHub.https://github.com/InternLM/Tutorial/blob/camp2/

明了易懂的量化部署实践：

LMDeploy模型量化：

主要包括 KV8量化和W4A16量化。

计算密集（compute-bound）: 指推理过程中，绝大部分时间消耗在数值计算上；针对计算密集型场景，可以通过使用更快的硬件计算单元来提升计算速度。
访存密集（memory-bound）: 指推理过程中，绝大部分时间消耗在数据读取上；针对访存密集型场景，一般通过减少访存次数、提高计算访存比或降低访存量来优化

设置最大KV Cache缓存大小

KV Cache是一种缓存技术，通过存储键值对的形式来复用计算结果，以达到提高性能和降低内存消耗的目的。

W4A16量化

LMDeploy使用AWQ算法，实现模型4bit权重量化。

LMDeploy服务架构图

第二部分：基础作业

1.配置LMDeploy运行环境

1.1创建开发机

1.2创建conda环境

1.3安装LMDeploy

2.LMDeploy模型对话(chat)

2.1Huggingface与TurboMind

HuggingFace社区的模型通常采用HuggingFace格式存储，简写为HF格式.

TurboMind推理引擎仅支持推理TurboMind格式的模型。因此，TurboMind在推理HF格式的模型时，会首先自动将HF格式模型转换为TurboMind格式的模型。

2.2下载模型

2.3使用Transformer库运行模型

2.4使用LMDeploy与模型对话

第三部分：进阶作业

1.设置KV Cache最大占用比例为0.4，开启W4A16量化，以命令行方式与模型对话

2.以API Server方式启动 lmdeploy，开启 W4A16量化，调整KV Cache的占用比例为0.4，分别使用命令行客户端与Gradio网页客户端与模型对话。

2.1命令行对话

2.2.Gradio网页客户端

3.使用W4A16量化，调整KV Cache的占用比例为0.4，使用Python代码集成的方式运行internlm2-chat-8b模型

3.1运行1.8b模型

3.2向TurboMind后端传递参数

4.使用LMDeploy运行视觉多模态大模型llava gradio demo

4.1安装依赖

4.2执行文件

4.3图生文

4.4Gradio运行llava模型

关注

26
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

nlpx2000 CSDN认证博客专家 CSDN认证企业博客

码龄15年

16: 原创

45万+: 周排名

7万+: 总排名

1万+: 访问

: 等级

485: 积分

217: 粉丝

324: 获赞

1: 评论

310: 收藏

私信

关注

热门文章

最新评论

大模型OpenCompass评测实战
CSDN-Ada助手: 恭喜您发布第7篇博客《大模型OpenCompass评测实战》，内容丰富，观点独到。希望您能继续保持创作的热情和坚持，不断提升自己的写作水平。在下一步的创作中，可以尝试探讨更多关于大模型OpenCompass的应用场景或者与其他技术的结合，让读者能够更深入地了解这个领域。期待您的更多精彩文章！
玩转InternLM2-Chat-1.8B 模型进行智能对话
CSDN-Ada助手: 恭喜你成功发布了第一篇博客！标题“玩转InternLM2-Chat-1.8B 模型进行智能对话”听起来非常吸引人，看来你对智能对话领域有着浓厚的兴趣和深厚的研究。接下来，建议你可以深入探讨该模型的应用场景、性能优化以及与其他模型的比较分析，让读者更全面地了解这一主题。期待你的下一篇博客，继续分享你的见解和经验！加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
书生·浦语大模型全链路开源体系
CSDN-Ada助手: 非常棒的博文！看到你对书生·浦语大模型全链路开源体系的深入探讨，让我感到非常激动。除了数据、预训练、微调、部署、评测和应用这些方面，或许你也可以考虑深入研究一下模型的可解释性和可控性，这对于提升模型的可靠性和实用性也是非常重要的一环。期待看到你未来更多的博文，继续努力创作吧！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。