MDeploy 量化部署进阶实践

最新推荐文章于 2024-10-28 15:42:24 发布

qq_42427964

最新推荐文章于 2024-10-28 15:42:24 发布

阅读量301

点赞数 4

文章标签：缓存 python numpy pip

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42427964/article/details/142032434

版权

在这里插入图片描述

任务一

LMDeploy验证启动模型文件

在这里插入图片描述

在这里插入图片描述

设置最大kv cache缓存大小

在这里插入图片描述

设置在线 kv cache int4/int8 量化

在这里插入图片描述

用 W4A16 模型量化和部署1.8B模型

可以看到文件夹里面的1.8b模型从原来的3.6G->1.5G 少了2.1G
在这里插入图片描述

部署1.8b模型显存为20.6G:
在这里插入图片描述

检查部署 1.8b W4A16后显存为为20.9GB：
lmdeploy chat /root/models/internlm2_5-1_8b-chat-w4a16-4bit/ --model-format awq
在这里插入图片描述

为什么用W4A16后显存反而增加了？？
原来的1.8b模型显存计算：1810^92byte( = 3.6GB) +( 24-3.6)*0.8 + 1 = 20.9GB
经过W4A16后把权重变为int4类型所以3.6GB/4(16位->4位:3.6/4) 所以显存为3.6/4 + (24 - 3.6/4)*0.8 + 1 = 20.38GB
可以看到对于小模型用W4A16量化不能显著减小显存

W4A16 + KV cache量化结合

3.6/4 + (24-3.6/4)*0.4 + 1=11.14GB
在这里插入图片描述

InternVL2-26B

量化减小显存

因为26B部署太慢了每次还没部署完就释放了
所以改为经过int4量化+ cache变为0.4后的1_8B模型部署

部署

显存为11.3GB
以命令行形式连接API服务器
经过端口映射后，打开23333网页后关闭
然后用新建终端，以Gradio网页形式连接API服务器

打开Gradio网页然后对话

任务二

在这里插入图片描述

在这里插入图片描述
Function call
关于Function call，即函数调用功能，它允许开发者在调用模型时，详细说明函数的作用，并使模型能够智能地根据用户的提问来输入参数并执行函数。完成调用后，模型会将函数的输出结果作为回答用户问题的依据。
在这里插入图片描述
** 为什么会报错 typeerror呢

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。