视频教程链接:LMDeploy 量化部署 LLM-VLM 实践_哔哩哔哩_bilibili
github教程链接:https://github.com/InternLM/Tutorial/blob/camp2/lmdeploy/README.md
- 课程笔记
课程视频分为四部分:
1、大模型部署的背景、部署方法、IMDEI量化部署和大圆模型实践,以及实际部署中面临的挑战,包括计算量、内存开销、仿存瓶颈和用户请求不确定性等问题。
2、三种减少模型参数的方法:非结构化、结构化和知识蒸馏。
可以通过减少模型参数来提高计算效率
知识蒸馏方法来降低训练难度
模型量化可以提高计算效率,并减少模型参数所需的内存空间
3、LMdeploy核心功能
4、LMDeploy 量化部署 LLM-VLM 实践
二、作业部分
课程作业链接:https://github.com/InternLM/Tutorial/blob/camp2/lmdeploy/homework.md
1、基础作业:
完成以下任务,并将实现过程记录截图:
配置 LMDeploy 运行环境
以命令行方式与 InternLM2-Chat-1.8B 模型对话
2、进阶作业
①设置KV Cache最大占用比例为0.4,开启W4A16量化,以命令行方式与模型对话。
开启W4A16量化
设置KV Cache最大占用比例为0.4
- 以命令行方式与模型对话。
②以API Server方式启动 lmdeploy,开启 W4A16量化,调整KV Cache的占用比例为0.4,分别使用命令行客户端与Gradio网页客户端与模型对话。
通过以下命令启动API服务器,推理internlm2-chat-1_8b
模型:
lmdeploy serve api_server \
/root/internlm2-chat-1_8b-4bit \
--model-format awq \
--cache-max-entry-count 0.4 \
--quant-policy 0 \
--server-name 0.0.0.0 \
--server-port 23333 \
--tp 1
首先通过VS Code新建一个终端,用命令行客户端去连接API服务器。
新建一个VSCode终端,激活conda环境,使用Gradio作为前端,启动网页客户端。
与模型进行对话:
③使用W4A16量化,调整KV Cache的占用比例为0.4,使用Python代码集成的方式运行internlm2-chat-1.8b模型。
④使用 LMDeploy 运行视觉多模态大模型 llava gradio demo
通过浏览器访问http://127.0.0.1:7860,使用模型问答