书生大模型学习笔记9 - LMDeploy 量化部署

InternLM 2.5 20b量化前部署

lmdeploy serve api_server \
    /root/learning/InternLM/XTuner/merged_20b \
    --model-format hf \
    --quant-policy 0 \
    --cache-max-entry-count 0.01\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

lmdeploy serve api_server:这个命令用于启动API服务器。
/root/learning/InternLM/XTuner/merged_20b:这是模型的路径。
–model-format hf:这个参数指定了模型的格式。hf代表“Hugging Face”格式。
–quant-policy 0:这个参数指定了量化策略。
–cache-max-entry-count 0.01: 这个参数控制kv缓存占用剩余显存的最大比例。默认的比例为0.8
–server-name 0.0.0.0:这个参数指定了服务器的名称。在这里,0.0.0.0是一个特殊的IP地址,它表示所有网络接口。
–server-port 23333:这个参数指定了服务器的端口号。在这里,23333是服务器将监听的端口号。
–tp 1:这个参数表示并行数量(GPU数量)。

显存占用
在这里插入图片描述

W4A16 模型量化

HF_DATASETS_TRUST_REMOTE_CODE=True
lmdeploy lite auto_awq \
   /root/learning/InternLM/XTuner/merged_20b \
  --calib-dataset 'ptb' \
  --calib-samples 128 \
  --calib-seqlen 2048 \
  --w-bits 4 \
  --w-group-size 128 \
  --batch-size 1 \
  --search-scale False \
  --work-dir /root/learning/InternLM/XTuner/merged_20b-w4a16-4bit

lmdeploy lite auto_awq: lite这是LMDeploy的命令,用于启动量化过程,而auto_awq代表自动权重量化(auto-weight-quantization)。
/root/learning/InternLM/XTuner/merged_20b: 模型文件的路径。
–calib-dataset ‘ptb’: 这个参数指定了一个校准数据集,这里使用的是’ptb’(Penn Treebank,一个常用的语言模型数据集)。
–calib-samples 128: 这指定了用于校准的样本数量—128个样本
–calib-seqlen 2048: 这指定了校准过程中使用的序列长度—1024
–w-bits 4: 这表示权重(weights)的位数将被量化为4位。
/root/learning/InternLM/XTuner/merged_20b-w4a16-4bit: 这是工作目录的路径,用于存储量化后的模型和中间结果。

量化模型部署

lmdeploy serve api_server \
    /root/learning/InternLM/XTuner/merged_20b-w4a16-4bit \
    --model-format awq \
    --quant-policy 4 \
    --cache-max-entry-count 0.01\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

显存占用
在这里插入图片描述

streamlit web

streamlit run /root/learning/HayLM/app.py

在这里插入图片描述

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值