第5节LMDeploy 大模型量化部署实践:作业

量化

我们这里使用第4节的个人助手进行量化,我先找到其路径在这里插入图片描述

KV Cache 量化

复制一些文件

cp /root/share/temp/datasets/c4/calib_dataloader.py  .local/lib/python3.10/site-packages/lmdep
loy/lite/utils/

cp -r /root/share/temp/datasets/c4/ /root/.cache/huggingface/datasets/

在这里插入图片描述
接下来改写一下这个py文件在这里插入图片描述

然后计算minmax

lmdeploy lite calibrate \
  --model  /root/personal_assistant/work_dirs/hf_merge \
  --calib_dataset "c4" \
  --calib_samples 128 \
  --calib_seqlen 2048 \
  --work_dir ./quant_output

在这里插入图片描述
之后先转换模型

lmdeploy convert internlm-chat-7b  /root/personal_assistant/work_dirs/hf_merge/

在这里插入图片描述
然后把那个文件夹复制过来
在这里插入图片描述

然后获取参数

# 通过 minmax 获取量化参数
lmdeploy lite kv_qparams \
  --work_dir ./quant_output  \
  --turbomind_dir workspace/triton_models/weights/ \
  --kv_sym False \
  --num_tp 1

在这里插入图片描述
最后修改配置
在这里插入图片描述

W4A16 量化

第一步同上,第二步

# 量化权重模型
lmdeploy lite auto_awq \
  --model  /root/personal_assistant/work_dirs/hf_merge/ \
  --w_bits 4 \
  --w_group_size 128 \
  --work_dir ./quant_output 

在这里插入图片描述
第三步

lmdeploy convert  internlm-chat-7b ./quant_output \
    --model-format awq \
    --group-size 128 \
    --dst_path ./workspace_quant

在这里插入图片描述

部署

运行chat命令

lmdeploy chat turbomind ./workspace

在这里插入图片描述
下面进行对话啦
在这里插入图片描述
哈哈,成功了

最后我们生成一个300字的故事
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值