LMDeploy W4A16+KV量化 、Function Call

教程:https://github.com/InternLM/Tutorial/blob/camp3/docs/L2/LMDeploy/readme.md

internlm2.5 7b

记录一下量化前的显存

量化前显存23G

W4A16量化

W4A16的意思是:权重(weight)量化为4位整数(int4),激活(Activate)保持在16位浮点数(例如FP16或BF16)。

量化使用的是AWQ算法,所以命令会看到awq

lmdeploy lite auto_awq \
   /root/models/internlm2_5-7b-chat \
  --calib-dataset 'ptb' \
  --calib-samples 128 \
  --calib-seqlen 2048 \
  --w-bits 4 \
  --w-group-size 128 \
  --batch-size 1 \
  --search-scale False \
  --work-dir /root/models/internlm2_5-7b-chat-w4a16-4bit

跑了大概六七个小时

原模型15G

量化后4.9G

载入量化模型,

量化后的显存占用21G

大模型提问回答

+KV量化

lmdeploy serve api_server \
    /root/models/internlm2_5-7b-chat-w4a16-4bit/ \
    --model-format awq \
    --quant-policy 4 \
    --cache-max-entry-count 0.4\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

显存减少至13.5G

API+Python调用

同前一步,API已OK

运行python

Function Call

重新部署7B的模型API

运行加  乘的python

  • 11
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值