【课程视频】:https://www.bilibili.com/video/BV1tr421x75B/
【课程文档】:https://github.com/InternLM/Tutorial/blob/camp2/lmdeploy/README.md
1.大模型部署背景:
2.大模型部署面临的挑战:
计算量巨大,内存开销巨大,访存瓶颈,动态请求
3.大模型部署的方法:
(1)模型剪枝
(2)知识蒸馏
(3)模型量化
通过量化可以使访存量降低,从而减低数据传输所需要的时间,提高了计算效率,减少了推理时间
4.LMDeploy简介
LMDeploy核心功能:
(1)模型高效推理 参考命令:IMdeploy chat -h
(2)模型量化压缩 参考命令:IMdeploy lite -h
(3)服务化部署 参考命令:IMdeploy serve -h
LMDeploy推理视觉多模态大模型:
5.实践部分:
(1)LMDeploy环境部署
创建conda环境:
studio-conda -t lmdeploy -o pytorch-2.1.2
安装LMDeploy:
激活刚刚创建的虚拟环境。
conda activate lmdeploy
安装0.3.0版本的lmdeploy。
pip install lmdeploy[all]==0.3.0
等待安装结束就OK了!
LMDeploy模型对话(chat)
(1)下载模型
ls /root/share/new_models/Shanghai_AI_Laboratory/
显示如下,每一个文件夹都对应一个预训练模型。
以InternLM2-Chat-1.8B模型为例,从官方仓库下载模型。
InternStudio开发机上下载模型(推荐)
执行如下指令由开发机的共享目录软链接或拷贝模型:
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b /root/ # cp -r /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b /root/
执行完如上指令后,可以运行“ls”命令。可以看到,当前目录下已经多了一个internlm2-chat-1_8b
文件夹,即下载好的预训练模型。
使用Transformer库运行模型
使用LMDeploy与模型对话
首先激活创建好的conda环境:
conda activate lmdeploy
使用LMDeploy与模型进行对话的通用命令格式为:
lmdeploy chat [HF格式模型路径/TurboMind格式模型路径]
例如,您可以执行如下命令运行下载的1.8B模型:
lmdeploy chat /root/internlm2-chat-1_8b
LMDeploy模型量化(lite)
主要包括 KV8量化和W4A16量化。总的来说,量化是一种以参数或计算中间结果精度下降换空间节省(以及同时带来的性能提升)的策略。
调整--cache-max-entry-count
参数的效果。首先保持不加该参数(默认0.8),运行1.8B模型。
lmdeploy chat /root/internlm2-chat-1_8b
与模型对话,查看右上角资源监视器中的显存占用情况。
此时显存占用为7856MB。下面,改变--cache-max-entry-count
参数,设为0.5。
lmdeploy chat /root/internlm2-chat-1_8b --cache-max-entry-count 0.5
与模型对话,再次查看右上角资源监视器中的显存占用情况。
看到显存占用明显降低,变为6608M。
把--cache-max-entry-count
参数设置为0.01,约等于禁止KV Cache占用显存。
lmdeploy chat /root/internlm2-chat-1_8b --cache-max-entry-count 0.01
然后与模型对话,可以看到,此时显存占用仅为4560MB,代价是会降低模型推理速度。
使用W4A16量化
运行前,首先安装一个依赖库。
pip install einops==0.7.0
仅需执行一条命令,就可以完成模型量化工作。
lmdeploy lite auto_awq \ /root/internlm2-chat-1_8b \ --calib-dataset 'ptb' \ --calib-samples 128 \ --calib-seqlen 1024 \ --w-bits 4 \ --w-group-size 128 \ --work-dir /root/internlm2-chat-1_8b-4bit
运行时间较长,请耐心等待。量化工作结束后,新的HF模型被保存到internlm2-chat-1_8b-4bit
目录。下面使用Chat功能运行W4A16量化后的模型。
lmdeploy chat /root/internlm2-chat-1_8b-4bit --model-format awq
为了更加明显体会到W4A16的作用,我们将KV Cache比例再次调为0.01,查看显存占用情况。
lmdeploy chat /root/internlm2-chat-1_8b-4bit --model-format awq --cache-max-entry-count 0.01
可以看到,显存占用变为2472MB,明显降低。