LMDeploy量化部署&VLM实践

最新推荐文章于 2024-06-28 09:30:52 发布

咸鱼翻身吧

最新推荐文章于 2024-06-28 09:30:52 发布

阅读量754

点赞数 13

文章标签：人工智能

本文链接：https://blog.csdn.net/2401_83218582/article/details/137834864

版权

【课程视频】：https://www.bilibili.com/video/BV1tr421x75B/

【课程文档】：https://github.com/InternLM/Tutorial/blob/camp2/lmdeploy/README.md

1.大模型部署背景：

2.大模型部署面临的挑战：

计算量巨大，内存开销巨大，访存瓶颈，动态请求

3.大模型部署的方法：

（1)模型剪枝

（2）知识蒸馏

（3）模型量化

通过量化可以使访存量降低，从而减低数据传输所需要的时间，提高了计算效率，减少了推理时间

4.LMDeploy简介

LMDeploy核心功能：

（1）模型高效推理参考命令：IMdeploy chat -h

(2)模型量化压缩参考命令：IMdeploy lite -h

(3)服务化部署参考命令：IMdeploy serve -h

LMDeploy推理视觉多模态大模型：

5.实践部分：

（1）LMDeploy环境部署

创建conda环境：

studio-conda -t lmdeploy -o pytorch-2.1.2

安装LMDeploy:

激活刚刚创建的虚拟环境。

conda activate lmdeploy

安装0.3.0版本的lmdeploy。

pip install lmdeploy[all]==0.3.0

等待安装结束就OK了！

LMDeploy模型对话（chat)

(1)下载模型

ls /root/share/new_models/Shanghai_AI_Laboratory/

显示如下，每一个文件夹都对应一个预训练模型。

以InternLM2-Chat-1.8B模型为例，从官方仓库下载模型。

InternStudio开发机上下载模型（推荐）

执行如下指令由开发机的共享目录软链接或拷贝模型：

ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b /root/
# cp -r /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b /root/

执行完如上指令后，可以运行“ls”命令。可以看到，当前目录下已经多了一个internlm2-chat-1_8b文件夹，即下载好的预训练模型。

使用Transformer库运行模型

使用LMDeploy与模型对话

首先激活创建好的conda环境：

conda activate lmdeploy

使用LMDeploy与模型进行对话的通用命令格式为：

lmdeploy chat [HF格式模型路径/TurboMind格式模型路径]

例如，您可以执行如下命令运行下载的1.8B模型：

lmdeploy chat /root/internlm2-chat-1_8b

LMDeploy模型量化(lite)

主要包括 KV8量化和W4A16量化。总的来说，量化是一种以参数或计算中间结果精度下降换空间节省（以及同时带来的性能提升）的策略。

调整--cache-max-entry-count参数的效果。首先保持不加该参数（默认0.8），运行1.8B模型。

lmdeploy chat /root/internlm2-chat-1_8b

与模型对话，查看右上角资源监视器中的显存占用情况。

此时显存占用为7856MB。下面，改变--cache-max-entry-count参数，设为0.5。

lmdeploy chat /root/internlm2-chat-1_8b --cache-max-entry-count 0.5

与模型对话，再次查看右上角资源监视器中的显存占用情况。

看到显存占用明显降低，变为6608M。

把--cache-max-entry-count参数设置为0.01，约等于禁止KV Cache占用显存。

lmdeploy chat /root/internlm2-chat-1_8b --cache-max-entry-count 0.01

然后与模型对话，可以看到，此时显存占用仅为4560MB，代价是会降低模型推理速度。

使用W4A16量化

运行前，首先安装一个依赖库。

pip install einops==0.7.0

仅需执行一条命令，就可以完成模型量化工作。

lmdeploy lite auto_awq \
   /root/internlm2-chat-1_8b \
  --calib-dataset 'ptb' \
  --calib-samples 128 \
  --calib-seqlen 1024 \
  --w-bits 4 \
  --w-group-size 128 \
  --work-dir /root/internlm2-chat-1_8b-4bit

运行时间较长，请耐心等待。量化工作结束后，新的HF模型被保存到internlm2-chat-1_8b-4bit目录。下面使用Chat功能运行W4A16量化后的模型。

lmdeploy chat /root/internlm2-chat-1_8b-4bit --model-format awq

为了更加明显体会到W4A16的作用，我们将KV Cache比例再次调为0.01，查看显存占用情况。

lmdeploy chat /root/internlm2-chat-1_8b-4bit --model-format awq --cache-max-entry-count 0.01

可以看到，显存占用变为2472MB，明显降低。

咸鱼翻身吧

关注

13
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
LMDeploy量化部署&VLM实践

LMDeploy核心功能：（1）模型高效推理参考命令：IMdeploy chat -h(2)模型量化压缩参考命令：IMdeploy lite -h(3)服务化部署参考命令：IMdeploy serve -hLMDeploy推理视觉多模态大模型：5.实践部分：（1）LMDeploy环境部署创建conda环境：安装LMDeploy:激活刚刚创建的虚拟环境。安装0.3.0版本的lmdeploy。等待安装结束就OK了！LMDeploy模型对话（chat)
复制链接

扫一扫