书生大模型学习笔记9 - LMDeploy 量化部署

jaysonhu

已于 2024-08-19 12:08:30 修改

阅读量288

点赞数 3

分类专栏： LLM 文章标签：学习笔记

于 2024-08-19 11:49:54 首次发布

本文链接：https://blog.csdn.net/jaysonhu/article/details/141305723

版权

LLM 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

LMDeploy 量化部署

InternLM 2.5 20b量化前部署
W4A16 模型量化
量化模型部署
streamlit web

InternLM 2.5 20b量化前部署

lmdeploy serve api_server \
    /root/learning/InternLM/XTuner/merged_20b \
    --model-format hf \
    --quant-policy 0 \
    --cache-max-entry-count 0.01\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

lmdeploy serve api_server：这个命令用于启动API服务器。
/root/learning/InternLM/XTuner/merged_20b：这是模型的路径。
–model-format hf：这个参数指定了模型的格式。hf代表“Hugging Face”格式。
–quant-policy 0：这个参数指定了量化策略。
–cache-max-entry-count 0.01: 这个参数控制kv缓存占用剩余显存的最大比例。默认的比例为0.8
–server-name 0.0.0.0：这个参数指定了服务器的名称。在这里，0.0.0.0是一个特殊的IP地址，它表示所有网络接口。
–server-port 23333：这个参数指定了服务器的端口号。在这里，23333是服务器将监听的端口号。
–tp 1：这个参数表示并行数量（GPU数量）。

显存占用
在这里插入图片描述

W4A16 模型量化

HF_DATASETS_TRUST_REMOTE_CODE=True
lmdeploy lite auto_awq \
   /root/learning/InternLM/XTuner/merged_20b \
  --calib-dataset 'ptb' \
  --calib-samples 128 \
  --calib-seqlen 2048 \
  --w-bits 4 \
  --w-group-size 128 \
  --batch-size 1 \
  --search-scale False \
  --work-dir /root/learning/InternLM/XTuner/merged_20b-w4a16-4bit

lmdeploy lite auto_awq: lite这是LMDeploy的命令，用于启动量化过程，而auto_awq代表自动权重量化（auto-weight-quantization）。
/root/learning/InternLM/XTuner/merged_20b: 模型文件的路径。
–calib-dataset ‘ptb’: 这个参数指定了一个校准数据集，这里使用的是’ptb’（Penn Treebank，一个常用的语言模型数据集）。
–calib-samples 128: 这指定了用于校准的样本数量—128个样本
–calib-seqlen 2048: 这指定了校准过程中使用的序列长度—1024
–w-bits 4: 这表示权重（weights）的位数将被量化为4位。
/root/learning/InternLM/XTuner/merged_20b-w4a16-4bit: 这是工作目录的路径，用于存储量化后的模型和中间结果。

量化模型部署

lmdeploy serve api_server \
    /root/learning/InternLM/XTuner/merged_20b-w4a16-4bit \
    --model-format awq \
    --quant-policy 4 \
    --cache-max-entry-count 0.01\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

显存占用
在这里插入图片描述

streamlit web

streamlit run /root/learning/HayLM/app.py

在这里插入图片描述

jaysonhu

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
书生大模型学习笔记9 - LMDeploy 量化部署

lmdeploy lite auto_awq: lite这是LMDeploy的命令，用于启动量化过程，而auto_awq代表自动权重量化（auto-weight-quantization）。/root/learning/InternLM/XTuner/merged_20b-w4a16-4bit: 这是工作目录的路径，用于存储量化后的模型和中间结果。–calib-dataset ‘ptb’: 这个参数指定了一个校准数据集，这里使用的是’ptb’（Penn Treebank，一个常用的语言模型数据集）。
复制链接

扫一扫