MDeploy 量化部署进阶实践

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

任务一

LMDeploy验证启动模型文件

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

设置最大kv cache缓存大小

在这里插入图片描述

设置在线 kv cache int4/int8 量化

在这里插入图片描述

用 W4A16 模型量化和部署1.8B模型

可以看到文件夹里面的1.8b模型从原来的3.6G->1.5G 少了2.1G
在这里插入图片描述

部署1.8b模型显存为20.6G:
在这里插入图片描述

检查部署 1.8b W4A16后显存为 为20.9GB:
lmdeploy chat /root/models/internlm2_5-1_8b-chat-w4a16-4bit/ --model-format awq
在这里插入图片描述
在这里插入图片描述

为什么用W4A16后显存反而增加了??
原来的1.8b模型显存计算:1810^92byte( = 3.6GB) +( 24-3.6)*0.8 + 1 = 20.9GB
经过W4A16后 把权重变为int4类型 所以3.6GB/4(16位->4位:3.6/4) 所以显存为3.6/4 + (24 - 3.6/4)*0.8 + 1 = 20.38GB
可以看到对于小模型 用W4A16量化不能显著减小显存

W4A16 + KV cache量化结合

3.6/4 + (24-3.6/4)*0.4 + 1=11.14GB
在这里插入图片描述

InternVL2-26B

量化 减小显存

因为26B部署太慢了 每次还没部署完就释放了
所以改为经过int4量化+ cache变为0.4后的1_8B模型部署

  1. 部署
    在这里插入图片描述
    显存为11.3GB
    以命令行形式连接API服务器
    经过端口映射后,打开23333网页后关闭
    然后用新建终端, 以Gradio网页形式连接API服务器
    在这里插入图片描述
    打开Gradio网页然后对话
    在这里插入图片描述

任务二

在这里插入图片描述

在这里插入图片描述
Function call
关于Function call,即函数调用功能,它允许开发者在调用模型时,详细说明函数的作用,并使模型能够智能地根据用户的提问来输入参数并执行函数。完成调用后,模型会将函数的输出结果作为回答用户问题的依据。
在这里插入图片描述
** 为什么会报错 typeerror呢

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值