InternLm实战营 LMDeploy 量化部署 LLM-VLM 实践

最新推荐文章于 2024-07-21 12:40:56 发布

TianxiaZhu824

最新推荐文章于 2024-07-21 12:40:56 发布

阅读量1.9k

点赞数 36

文章标签：人工智能笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TianxiaZhu824/article/details/137765147

版权

LMDeploy简介

LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发，是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。这个强大的工具箱提供以下核心功能1 ：

高效推理引擎 TurboMind：基于 FasterTransformer，我们实现了高效推理引擎 TurboMind，支持 InternLM、LLaMA、vicuna等模型在 NVIDIA GPU 上的推理。
交互推理方式：通过缓存多轮对话过程中 attention 的 k/v，记住对话历史，从而避免重复处理历史会话。
多 GPU 部署和量化：我们提供了全面的模型部署和量化支持，已在不同规模上完成验证。
persistent batch 推理：进一步优化模型执行效率。

LMDeploy实战体验

官方发布了非常详细的教程，链接如下。

Tutorial/lmdeploy/README.md at camp2 · InternLM/Tutorial · GitHub

LMDeploy模型对话(chat)

主要包含两个步骤（详细操作可见教程）

配置 LMDeploy 运行环境
以命令行方式与 InternLM2-Chat-1.8B 模型对话

使用Transformer库运行模型

可以感受到其推理速度较慢。

使用LMDeploy与模型对话

相较于原生Transformer，LMDeploy的推理速度明显加快了。

可以通过编写速度测试脚本来定量比较Transformer库推理Internlm2-chat-1.8b的速度，该部分在教程中有详细介绍。

结果大致如图：

LMDeploy模型量化(lite)

总的来说，量化是一种以参数或计算中间结果精度下降换空间节省（以及同时带来的性能提升）的策略。

设置最大KV Cache缓存大小

KV Cache是一种缓存技术，通过存储键值对的形式来复用计算结果，以达到提高性能和降低内存消耗的目的。在大规模训练和推理中，KV Cache可以显著减少重复计算量，从而提升模型的推理速度。理想情况下，KV Cache全部存储于显存，以加快访存速度。当显存空间不足时，也可以将KV Cache放在内存，通过缓存管理器控制将当前需要使用的数据放入显存。

模型在运行时，占用的显存可大致分为三部分：模型参数本身占用的显存、KV Cache占用的显存，以及中间运算结果占用的显存。LMDeploy的KV Cache管理器可以通过设置--cache-max-entry-count参数，控制KV缓存占用剩余显存的最大比例。默认的比例为0.8。

按照教程进行相应的设置，可以看到显存占用明显降低。

使用W4A16量化

LMDeploy使用AWQ算法，实现模型4bit权重量化。推理引擎TurboMind提供了非常高效的4bit推理cuda kernel，性能是FP16的2.4倍以上。它支持以下NVIDIA显卡：

图灵架构（sm75）：20系列、T4
安培架构（sm80,sm86）：30系列、A10、A16、A30、A100
Ada Lovelace架构（sm90）：40 系列

相应操作后，可以看到，显存占用变为2472MB，明显降低。

LMDeploy服务(serve)

首先按照教程启动API服务器。

命令行客户端连接API服务器

当前的架构如下：

网页客户端连接API服务器

当前的架构如下图所示：

LMdeploy的Python代码集成

上述操作是在命令行中进行的，在开发项目时，有时我们需要将大模型推理集成到Python代码里面。

向TurboMind后端传递参数

在第3章，我们通过向lmdeploy传递附加参数，实现模型的量化推理，及设置KV Cache最大占用比例。在Python代码中，可以通过创建TurbomindEngineConfig，向lmdeploy传递参数。

使用LMDeploy运行视觉多模态大模型llava

关注

36
点赞
踩
46

收藏

觉得还不错? 一键收藏
0
评论
InternLm实战营 LMDeploy 量化部署 LLM-VLM 实践

LMDeploy 由和团队联合开发，是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。这个强大的工具箱提供以下核心功能。
复制链接

扫一扫

TianxiaZhu824 CSDN认证博客专家 CSDN认证企业博客

码龄2年

19: 原创

39万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

458: 积分

227: 粉丝

266: 获赞

4: 评论

289: 收藏

私信

关注

热门文章

最新评论

隐私计算实训营第二期第11讲组件介绍与自定义开发
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619109434。
隐私计算实训营第二期第10讲PPML入门/基于SPU机器学习建模实践
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
隐私计算实训营第二期第9讲SML入门/基于SPU迁移机器学习算法实践
普通网友: 文章结构严谨有条,层次分明,读起来一点也不费劲，让人受益匪浅。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
隐私计算实训营第2期第3讲——隐语架构概览
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
InterLm实战营 XTuner 微调LLM
CSDN-Ada助手: 恭喜用户在第5篇博客中分享了关于InterLm实战营 XTuner 微调LLM的内容，看来您对这方面的知识有着深入的了解和实践经验。希望您能继续保持创作的热情和耐心，不断分享您的心得体会。或许下一步可以尝试结合实际案例或者深入探讨相关技术原理，让读者能够更深入地理解和应用这些知识。期待您更多优质内容的发布，加油！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。