书生大模型-进阶关-第二关

reeeecount

于 2024-10-07 15:54:45 发布

阅读量904

点赞数 17

分类专栏：书生大模型文章标签：人工智能算法 python chatgpt 语言模型

本文链接：https://blog.csdn.net/reeeecount/article/details/142740509

版权

书生大模型专栏收录该内容

12 篇文章 0 订阅

订阅专栏

书生大模型-进阶关-第二关

使用结合W4A16量化与kv cache量化的internlm2_5-1_8b-chat模型封装本地API并与大模型进行一次对话，作业截图需包括显存占用情况与大模型回复，参考4.1 API开发(优秀学员必做)，请注意2.2.3节与4.1节应使用作业版本命令。

设置最大kv cache缓存大小

kv cache是一种缓存技术，通过存储键值对的形式来复用计算结果，以达到提高性能和降低内存消耗的目的。在大规模训练和推理中，kv cache可以显著减少重复计算量，从而提升模型的推理速度。理想情况下，kv cache全部存储于显存，以加快访存速度。

模型在运行时，占用的显存可大致分为三部分：模型参数本身占用的显存、kv cache占用的显存，以及中间运算结果占用的显存。LMDeploy的kv cache管理器可以通过设置–cache-max-entry-count参数，控制kv缓存占用剩余显存的最大比例。默认的比例为0.8。

首先我们先来回顾一下InternLM2.5正常运行时占用显存。

占用了23GB，那么试一试执行以下命令，再来观看占用显存情况。

lmdeploy chat /root/models/internlm2_5-7b-chat --cache-max-entry-count 0.4
稍待片刻，观测显存占用情况，可以看到减少了约4GB的显存。

让我们计算一下4GB显存的减少缘何而来，

对于修改kv cache默认占用之前，即如1.3 LMDeploy验证启动模型文件所示直接启动模型的显存占用情况(23GB)：

1、在 BF16 精度下，7B模型权重占用14GB：70×10^9 parameters×2 Bytes/parameter=14GB

2、kv cache占用8GB：剩余显存24-14=10GB，kv cache默认占用80%，即10*0.8=8GB

3、其他项1GB

是故23GB=权重占用14GB+kv cache占用8GB+其它项1GB

对于修改kv cache占用之后的显存占用情况(19GB)：

1、与上述声明一致，在 BF16 精度下，7B模型权重占用14GB

2、kv cache占用4GB：剩余显存24-14=10GB，kv cache修改为占用40%，即10*0.4=4GB

3、其他项1GB

是故19GB=权重占用14GB+kv cache占用4GB+其它项1GB

而此刻减少的4GB显存占用就是从10GB0.8-10GB0.4=4GB，这里计算得来。

设置在线 kv cache int4/int8 量化

自 v0.4.0 起，LMDeploy 支持在线 kv cache int4/int8 量化，量化方式为 per-head per-token 的非对称量化。此外，通过 LMDeploy 应用 kv 量化非常简单，只需要设定 quant_policy 和cache-max-entry-count参数。目前，LMDeploy 规定 quant_policy=4 表示 kv int4 量化，quant_policy=8 表示 kv int8 量化。

我们通过2.1 LMDeploy API部署InternLM2.5的实践为例，输入以下指令，启动API服务器。

lmdeploy serve api_server
/root/models/internlm2_5-7b-chat
–model-format hf
–quant-policy 4
–cache-max-entry-count 0.4
–server-name 0.0.0.0
–server-port 23333
–tp 1

W4A16 模型量化和部署

准确说，模型量化是一种优化技术，旨在减少机器学习模型的大小并提高其推理速度。量化通过将模型的权重和激活从高精度（如16位浮点数）转换为低精度（如8位整数、4位整数、甚至二值网络）来实现。

那么标题中的W4A16又是什么意思呢？

W4：这通常表示权重量化为4位整数（int4）。这意味着模型中的权重参数将从它们原始的浮点表示（例如FP32、BF16或FP16，Internlm2.5精度为BF16）转换为4位的整数表示。这样做可以显著减少模型的大小。
A16：这表示激活（或输入/输出）仍然保持在16位浮点数（例如FP16或BF16）。激活是在神经网络中传播的数据，通常在每层运算之后产生。
因此，W4A16的量化配置意味着：

权重被量化为4位整数。
激活保持为16位浮点数。
让我们回到LMDeploy，在最新的版本中，LMDeploy使用的是AWQ算法，能够实现模型的4bit权重量化。输入以下指令，执行量化工作。(不建议运行，在InternStudio上运行需要8小时)

lmdeploy lite auto_awq
/root/models/internlm2_5-7b-chat
–calib-dataset ‘ptb’
–calib-samples 128
–calib-seqlen 2048
–w-bits 4
–w-group-size 128
–batch-size 1
–search-scale False
–work-dir /root/models/internlm2_5-7b-chat-w4a16-4bit
完成作业时请使用1.8B模型进行量化：(建议运行以下命令)

lmdeploy lite auto_awq
/root/models/internlm2_5-1_8b-chat
–calib-dataset ‘ptb’
–calib-samples 128
–calib-seqlen 2048
–w-bits 4
–w-group-size 128
–batch-size 1
–search-scale False
–work-dir /root/models/internlm2_5-1_8b-chat-w4a16-4bit
命令解释：

lmdeploy lite auto_awq: lite这是LMDeploy的命令，用于启动量化过程，而auto_awq代表自动权重量化（auto-weight-quantization）。
/root/models/internlm2_5-7b-chat: 模型文件的路径。
–calib-dataset ‘ptb’: 这个参数指定了一个校准数据集，这里使用的是’ptb’（Penn Treebank，一个常用的语言模型数据集）。
–calib-samples 128: 这指定了用于校准的样本数量—128个样本
–calib-seqlen 2048: 这指定了校准过程中使用的序列长度—2048
–w-bits 4: 这表示权重（weights）的位数将被量化为4位。
–work-dir /root/models/internlm2_5-7b-chat-w4a16-4bit: 这是工作目录的路径，用于存储量化后的模型和中间结果。

在这里插入图片描述

lmdeploy chat /root/models/internlm2_5-1_8b-chat-w4a16-4bit/ --model-format awq

在这里插入图片描述

W4A16 量化+ KV cache+KV cache 量化

lmdeploy serve api_server \
    /root/models/internlm2_5-1_8b-chat-w4a16-4bit/ \
    --model-format awq \
    --quant-policy 4 \
    --cache-max-entry-count 0.4\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1