第5节LMDeploy作业

基础作业:

选择使用API server的方式写300字的小故事:

1.转发端口后使用GET /v1/models查看id

2 在POST /v1/chat/completions中填写id

3.执行后返回结果:

 

进阶作业: 

1.对于上节课作业xtuner微调后的小助手模型进行量化:W4A16

 

2对InternLM-chat-7b量化

(1)KVcache量化

教程中使用c4数据集量化有些读取数据上的异常,使用ptb数据集

lmdeploy lite calibrate   --model  /root/share/temp/model_repos/internlm-chat-7b/   --calib_dataset "ptb"   --calib_samples 128   --calib_seqlen 2048   --work_dir ./quant_output
# 通过 minmax 获取量化参数
lmdeploy lite kv_qparams \
  --work_dir ./quant_output  \
  --turbomind_dir workspace/triton_models/weights/ \
  --kv_sym False \
  --num_tp 1

 将quant_policy设置为4打开KV int8开关

启动推理

可以看到占到的显存为:14758MB

 

(2)W4A16量化 

占到的显存仅仅为:5824MB,比KVcache小的多

  • 10
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值