【书生·浦语大模型实战营】第5节笔记：LMDeploy 量化部署以及LLM&VLM 实践

祈257

于 2024-04-26 12:02:49 发布

阅读量884

点赞数 22

文章标签：笔记 ai 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2302_79681906/article/details/138214415

版权

本文详细介绍了如何使用LMDeploy进行环境配置、模型部署、对话功能、量化优化、服务搭建以及Python代码集成，包括HuggingFace和TurboMind的应用，以及与Transformer库的性能比较。

摘要由CSDN通过智能技术生成

参考教程链接：

https://github.com/InternLM/Tutorial/blob/camp2/lmdeploy/README.md#62-%E4%BD%BF%E7%94%A8lmdeploy%E8%BF%90%E8%A1%8C%E7%AC%AC%E4%B8%89%E6%96%B9%E5%A4%A7%E6%A8%A1%E5%9E%8Bhttps://github.com/InternLM/Tutorial/blob/camp2/lmdeploy/README.md#62-%E4%BD%BF%E7%94%A8lmdeploy%E8%BF%90%E8%A1%8C%E7%AC%AC%E4%B8%89%E6%96%B9%E5%A4%A7%E6%A8%A1%E5%9E%8B

https://www.bilibili.com/video/BV1tr421x75B/https://www.bilibili.com/video/BV1tr421x75B/

操作流程

1.LMDeploy环境部署

创建开发机
- 在InternStudio平台上创建开发机，选择Cuda12.2-conda镜像，避免使用Cuda11.7-conda镜像以防止兼容性问题。
创建conda环境
- 在InternStudio开发机上创建名为lmdeploy的conda环境，Python版本为3.10。
安装LMDeploy
- 激活conda环境后，安装0.3.0版本的LMDeploy。

2.LMDeploy模型对话(chat)

Huggingface与TurboMind
- HuggingFace是一个深度学习模型和数据集的在线托管社区。
- TurboMind是LMDeploy团队开发的高效推理引擎，支持LLaMa结构模型。
下载模型
- 从InternStudio开发机的共享目录或OpenXLab平台下载预训练模型。
使用Transformer库运行模型
- 使用Huggingface的Transformer库运行InternLM2-Chat-1.8B模型。
使用LMDeploy与模型对话
- 利用LMDeploy直接与模型进行对话，体验推理速度。

3.LMDeploy模型量化(lite)

设置最大KV Cache缓存大小
- KV Cache用于缓存键值对，提高性能和降低内存消耗。
使用W4A16量化
- LMDeploy使用AWQ算法实现模型4bit权重量化，提高推理性能。

（设置KV Cache最大占用比例为0.4，开启W4A16量化，以命令行方式与模型对话）

4.LMDeploy服务(serve)

启动API服务器
- 封装模型为API接口服务，供客户端访问。
命令行客户端连接API服务器
- 新建命令行客户端连接到API服务器，与模型对话。（此处以API Server方式启动 lmdeploy，开启 W4A16量化，调整KV Cache的占用比例为0.4，分别使用命令行客户端与Gradio网页客户端与模型对话。）
网页客户端连接API服务器
- 使用Gradio作为前端，启动网页客户端连接API服务器。

5.Python代码集成

Python代码集成运行1.8B模型
- 将大模型推理集成到Python代码中。
向TurboMind后端传递参数
- 通过创建TurbomindEngineConfig传递参数，如设置KV Cache占用比例。（使用W4A16量化，调整KV Cache的占用比例为0.4，使用Python代码集成的方式运行internlm2-chat-1.8b模型）

6.拓展部分

使用LMDeploy运行视觉多模态大模型llava
- 支持运行llava多模态模型，需要特定权限。（使用 LMDeploy 运行视觉多模态大模型 llava gradio demo）
使用LMDeploy运行第三方大模型
- LMDeploy支持多种第三方大模型。
定量比较LMDeploy与Transformer库的推理速度差异
- 编写速度测试脚本，比较两者的推理速度。

7.课后作业

完成homework.md中的作业。

8.附录

通过ssh转发访问远程服务器上的API服务器。
使用Gradio启动网页客户端进行模型对话。

关注

22
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
【书生·浦语大模型实战营】第5节笔记：LMDeploy 量化部署以及LLM&VLM 实践

（设置KV Cache最大占用比例为0.4，开启W4A16量化，以命令行方式与模型对话）
复制链接

扫一扫

祈257 CSDN认证博客专家 CSDN认证企业博客

码龄1年

8: 原创

149万+: 周排名

12万+: 总排名

6438: 访问

: 等级

180: 积分

95: 粉丝

99: 获赞

5: 评论

108: 收藏

私信

关注

热门文章

最新评论

【书生·浦语大模型实战营】第5节笔记：LMDeploy 量化部署以及LLM&VLM 实践
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【书生·浦语大模型实战营】第5节笔记：LMDeploy 量化部署以及LLM&VLM 实践
CSDN-Ada助手: 恭喜您第6篇博客的发布！看到您分享关于LMDeploy 量化部署以及LLM&VLM 实践的笔记，让我受益匪浅。希望您能继续保持创作的热情和积极性，为我们带来更多有价值的内容。下一步，或许可以考虑深入探讨一些具体案例分析或者实践经验分享，让读者更好地理解并应用所学知识。期待您更多精彩的分享！
【书生·浦语大模型实战营】第6节笔记：Lagent & AgentLego 智能体应用搭建
CSDN-Ada助手: 恭喜您发布了第7篇博客，标题看起来内容丰富、专业性强，相信对于学习智能体应用搭建的读者会有很大帮助。建议在下一步的创作中，可以多结合实际案例或者个人经验，让读者更容易理解和运用所学知识。期待您更多优质内容的分享，加油！
【书生·浦语大模型实战营】第7节笔记：OpenCompass 大模型评测实战
CSDN-Ada助手: 恭喜用户在【书生·浦语大模型实战营】中持续学习并分享笔记，这篇关于OpenCompass 大模型评测实战的文章内容丰富、深入，让读者受益匪浅。希望用户能够继续保持创作的热情和耐心，探索更多有趣的主题，为大家提供更多有价值的内容。期待用户在未来的创作中能够不断进步，不断完善自己的写作技巧，让更多读者受益。加油！
【书生·浦语大模型实战营】第4节笔记：Xtuner微调
CSDN-Ada助手: 恭喜用户第5篇博客《【书生·浦语大模型实战营】第4节笔记：Xtuner微调》发表成功！看到你不断分享学习心得，实属不易。希望你在接下来的创作中能够继续保持热情和耐心，不断完善自己的写作技巧，让更多读者受益于你的分享。加油！

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。