视频链接:LMDeploy 量化部署 LLM-VLM 实践_哔哩哔哩_bilibili
基础作业(结营必做)
完成以下任务,并将实现过程记录截图:
- 配置 LMDeploy 运行环境
- 以命令行方式与 InternLM2-Chat-1.8B 模型对话
进阶作业
完成以下任务,并将实现过程记录截图:
- 设置KV Cache最大占用比例为0.4,开启W4A16量化,以命令行方式与模型对话。(优秀学员必做)
- 以API Server方式启动 lmdeploy,开启 W4A16量化,调整KV Cache的占用比例为0.4,分别使用命令行客户端与Gradio网页客户端与模型对话。(优秀学员必做)
- 使用W4A16量化,调整KV Cache的占用比例为0.4,使用Python代码集成的方式运行internlm2-chat-1.8b模型。(优秀学员必做)
- 使用 LMDeploy 运行视觉多模态大模型 llava gradio demo。(优秀学员必做)
- 将 LMDeploy Web Demo 部署到 OpenXLab 。
笔记:
一、大模型部署背景
1、模型部署的概念
模型部署就是将已经训练好的深度学习模型在特定环境中运行的过程。这些特定环境会根据实际业务场景进行选择,例如部署到服务器端或者移动/边缘端。如果部署到服务器端,还涉及到是CPU部署或是单GPU/TPU/NPU部署,如果是集群/多卡部署,还要考虑如何分布式推理大模型等方面的内容。如果部署到手机/边缘端,需要考虑端侧的计算能力是否足够,由于大模型参数量、计算量都非常巨大,如何在资源有限的环境中加载、推理大模型,都是实际部署大模型需要考虑的问题。
2、大模型部署面临的挑战
计算量巨大
内存开销巨大
访存存在瓶颈,并且请求不确定,是动态的
二、大模型部署方法
1、模型剪枝,分为结构化剪枝和非结构化剪枝
2、知识蒸馏(KD)
3、模型量化
三、LMDeploy简介
1、核心功能
包括模型高效推理、模型量化压缩、服务化部署三个方面。
2、LMDeploy性能
3、LMDeploy支持视觉多模态大模型推理
4、LMDeploy支持多种模型,如下表
四、动手实践
作业:
1、创建cuda-12.2镜像的开发机,10%的A100
2、进入开发机,执行studio-conda -t lmdeploy -o pytorch-2.1.2
3、安装LMDeploy
切换到lmdeploy env,并执行pip install lmdeploy[all]==0.3.0
4、LMDeploy模型对话(chat),首先下载模型
5、使用Transformer库运行模型
速度比较慢,有数分钟
6、使用LMDeploy与模型对话
lmdeploy chat /root/internlm2-chat-1_8b
速度比较快
7、LMDeploy模型量化(lite)
首先设置最大KV Cache缓存大小
为了方便对比,先不调整--cache-max-entry-count
参数,默认比例0.8,
lmdeploy chat /root/internlm2-chat-1_8b
接着改变--cache-max-entry-count
参数,设为0.5,显存降为6608MB
接下来把--cache-max-entry-count
参数设置为0.01,约等于禁止KV Cache占用显存。
然后与模型对话,可以看到,此时显存占用仅为4560MB,基本等同于1.8B的模型参数占用,代价是会降低模型推理速度。
8、使用W4A16量化
为了更加明显体会到W4A16的作用,将KV Cache比例再次调为0.01,查看显存占用情况。
经过量化,可以看出显存占用明显降低很多(显存 2472MB),从而可以在一些消费级显卡上跑相关模型。
9、LMDeploy服务(serve)
首先启动API服务器,之后新建一个Terminal,通过命令行客户端连接API服务器
也可以通过网页客户端连接API服务器,使用Gradio作为前端,启动网页客户端。
接着做端口转发,之后访问网页
10、Python代码集成
11、向TurboMind后端传递参数,以设置KV Cache占用比例为例
12、使用LMDeploy运行视觉多模态大模型llava
首先安装llava依赖库,安装完成后,升配开发机到30% A100
接着通过Gradio来运行llava模型