基础作业
本次作业因为没有每一步都截图,所以只附上截取的图片,(主要都是跟着教程来的,有问题的我会在内容中说明)
创建开发机
打开 Intern Studio
界面,创建开发机
选择cuda11.7,10%的A100
配置环境
进入开发机后根据文档的复制以下代码极性创建虚拟环境,名为lmdeploy
studio-conda -t lmdeploy -o pytorch-2.1.2
然后激活并进入虚拟环境
conda activate lmdeploy
安装LMDeploy
conda activate lmdeploy
pip install lmdeploy[all]==0.3.0
安装完成之后就进入下一阶段了
LMDeploy模型对话(chat)
模型:如下地址有提前准备的共享预训练模型
ls /root/share/new_models/Shanghai_AI_Laboratory/
创建软连接
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b /root/
(这是后面截的图)
(这里跳过无意外步骤)运行如下代码会得到如下结果
使用Transformer库运行模型
打开vscode界面,打开终端
运行一下命令创建pipeline_transformer.py文件
touch /root/pipeline_transformer.py
将以下代码复制粘贴进去并按ctrl+S保存
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("/root/internlm2-chat-1_8b", trust_remote_code=True)
# Set `torch_dtype=torch.float16` to load model in float16, otherwise it will be loaded as float32 and cause OOM Error.
model = AutoModelForCausalLM.from_pretrained("/root/internlm2-chat-1_8b", torch_dtype=torch.float16, trust_remote_code=True).cuda()
model = model.eval()
inp = "hello"
print("[INPUT]", inp)
response, history = model.chat(tokenizer, inp, history=[])
print("[OUTPUT]", response)
inp = "please provide three suggestions about time management"
print("[INPUT]", inp)
response, history = model.chat(tokenizer, inp, history=history)
print("[OUTPUT]", response)
运行
python /root/pipeline_transformer.py
使用LMDeploy与模型对话
执行如下命令运行下载的1.8B模型:
lmdeploy chat /root/internlm2-chat-1_8b
输入“请给我讲一个小故事吧”,然后按两下回车键
如下命令可查看有关LMDeploy的chat功能的更多参数
lmdeploy chat -h
LMDeploy模型量化(lite)
设置最大KV Cache缓存大小
首先保持不加该参数(默认0.8),运行1.8B模型
lmdeploy chat /root/internlm2-chat-1_8b
此时显存占用为7856MB。下面,改变--cache-max-entry-count
参数,设为0.5。
lmdeploy chat /root/internlm2-chat-1_8b --cache-max-entry-count 0.5
看到显存占用明显降低,变为6608M
接下来把--cache-max-entry-count
参数设置为0.01,约等于禁止KV Cache占用显存
lmdeploy chat /root/internlm2-chat-1_8b --cache-max-entry-count 0.01
此时显存占用仅为4560MB,代价是会降低模型推理速度
使用W4A16量化
首先安装一个依赖库
pip install einops==0.7.0
完成模型量化工作
lmdeploy lite auto_awq \
/root/internlm2-chat-1_8b \
--calib-dataset 'ptb' \
--calib-samples 128 \
--calib-seqlen 1024 \
--w-bits 4 \
--w-group-size 128 \
--work-dir /root/internlm2-chat-1_8b-4bit
使用Chat功能运行W4A16量化后的模型
lmdeploy chat /root/internlm2-chat-1_8b-4bit --model-format awq
将KV Cache比例再次调为0.01,查看显存占用情况
lmdeploy chat /root/internlm2-chat-1_8b-4bit --model-format awq --cache-max-entry-count 0.01
在运行到这里附近的时候,好几次遇到bug,显示缺少安装包,
就只能分别安装或者运行如下代码全部重装
pip install lmdeploy[all]==0.3.0
LMDeploy服务(serve)
通过以下命令启动API服务器,推理internlm2-chat-1_8b
模型:
lmdeploy serve api_server \
/root/internlm2-chat-1_8b \
--model-format hf \
--quant-policy 0 \
--server-name 0.0.0.0 \
--server-port 23333 \
--tp 1
本地打开一个cmd窗口输入如下命令进行访问:
ssh -CNg -L 23333:127.0.0.1:23333 root@ssh.intern-ai.org.cn -p 42970
然后打开浏览器,访问http://127.0.0.1:23333
。
命令行客户端连接API服务器
在终端里新开了一个API服务器
激活conda环境
conda activate lmdeploy
运行命令行客户端:
lmdeploy serve api_client http://localhost:23333
网页客户端连接API服务器
激活conda环境
conda activate lmdeploy
启动网页客户端
lmdeploy serve gradio http://localhost:23333 \
--server-name 0.0.0.0 \
--server-port 6006
本地新建一个cmd终端,新开一个转发端口
ssh -CNg -L 6006:127.0.0.1:6006 root@ssh.intern-ai.org.cn -p 42970
打开浏览器,访问地址http://127.0.0.1:6006
Python代码集成
Python代码集成运行1.8B模型
这里需要激活conda环境,但因为前面已经激活了,所以不用操作
新建Python源代码文件pipeline.py
。
touch /root/pipeline.py
打开pipeline.py
,填入以下内容
from lmdeploy import pipeline
pipe = pipeline('/root/internlm2-chat-1_8b')
response = pipe(['Hi, pls intro yourself', '上海是'])
print(response)
ctrl+S保存后运行代码文件:
python /root/pipeline.py
向TurboMind后端传递参数
新建python文件pipeline_kv.py
touch /root/pipeline_kv.py
打开pipeline_kv.py
,复制粘贴如下内容
from lmdeploy import pipeline, TurbomindEngineConfig
# 调低 k/v cache内存占比调整为总显存的 20%
backend_config = TurbomindEngineConfig(cache_max_entry_count=0.2)
pipe = pipeline('/root/internlm2-chat-1_8b',
backend_config=backend_config)
response = pipe(['Hi, pls intro yourself', '上海是'])
print(response)
Ctrl+S保存后运行python代码:
python /root/pipeline_kv.py
拓展部分
使用LMDeploy运行视觉多模态大模型llava
这里需要先激活环境,但是前面已经激活了,所以不用激活了
安装llava依赖库
pip install git+https://github.com/haotian-liu/LLaVA.git@4e2277a060da264c4f21b364c867cc622c945874
新建一个python文件,pipeline_llava.py
touch /root/pipeline_llava.py
打开并复制粘贴如下内容:
from lmdeploy.vl import load_image
from lmdeploy import pipeline, TurbomindEngineConfig
backend_config = TurbomindEngineConfig(session_len=8192) # 图片分辨率较高时请调高session_len
# pipe = pipeline('liuhaotian/llava-v1.6-vicuna-7b', backend_config=backend_config) 非开发机运行此命令
pipe = pipeline('/share/new_models/liuhaotian/llava-v1.6-vicuna-7b', backend_config=backend_config)
image = load_image('https://raw.githubusercontent.com/open-mmlab/mmdeploy/main/tests/data/tiger.jpeg')
response = pipe(('describe this image', image))
print(response)
ctrl+S保存后运行文件
python /root/pipeline_llava.py
但是这里显示缺少一些包,所以得再装这些包
pip install lmdeploy[all]==0.3.0
或者一个一个对应的装,再运行就正常了
我做的作业到这里就结束了,没有最后面的(
- 将 LMDeploy Web Demo 部署到 OpenXLab (OpenXLab cuda 12.2 的镜像还没有 ready,可先跳过,一周之后再来做)这一部分)
总的来说,这个作业难度不大,就是中间出现一些bug要重新装包,其他没什么