书生浦语大模型实战课第二期作业五

最新推荐文章于 2024-10-16 23:49:24 发布

ph_2021

最新推荐文章于 2024-10-16 23:49:24 发布

阅读量1.6k

点赞数 30

文章标签：人工智能

本文链接：https://blog.csdn.net/ph_2021/article/details/137745356

版权

本文详细描述了如何在InternStudio中设置CUDA环境，创建虚拟环境，安装和配置LMDeploy，以及使用Transformer模型进行对话、模型量化和优化内存使用的过程，包括Python代码集成和部署示例。

摘要由CSDN通过智能技术生成

基础作业

本次作业因为没有每一步都截图，所以只附上截取的图片，（主要都是跟着教程来的，有问题的我会在内容中说明）

创建开发机

打开 Intern Studio 界面，创建开发机

选择cuda11.7,10%的A100

配置环境

进入开发机后根据文档的复制以下代码极性创建虚拟环境，名为lmdeploy

studio-conda -t lmdeploy -o pytorch-2.1.2

然后激活并进入虚拟环境

conda activate lmdeploy

安装LMDeploy

conda activate lmdeploy

pip install lmdeploy[all]==0.3.0

安装完成之后就进入下一阶段了

LMDeploy模型对话(chat)

模型：如下地址有提前准备的共享预训练模型

ls /root/share/new_models/Shanghai_AI_Laboratory/

创建软连接

ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b /root/

（这是后面截的图）

（这里跳过无意外步骤）运行如下代码会得到如下结果

使用Transformer库运行模型

打开vscode界面，打开终端

运行一下命令创建pipeline_transformer.py文件

touch /root/pipeline_transformer.py

将以下代码复制粘贴进去并按ctrl+S保存

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("/root/internlm2-chat-1_8b", trust_remote_code=True)

# Set `torch_dtype=torch.float16` to load model in float16, otherwise it will be loaded as float32 and cause OOM Error.
model = AutoModelForCausalLM.from_pretrained("/root/internlm2-chat-1_8b", torch_dtype=torch.float16, trust_remote_code=True).cuda()
model = model.eval()

inp = "hello"
print("[INPUT]", inp)
response, history = model.chat(tokenizer, inp, history=[])
print("[OUTPUT]", response)

inp = "please provide three suggestions about time management"
print("[INPUT]", inp)
response, history = model.chat(tokenizer, inp, history=history)
print("[OUTPUT]", response)

运行

python /root/pipeline_transformer.py

使用LMDeploy与模型对话

执行如下命令运行下载的1.8B模型：

lmdeploy chat /root/internlm2-chat-1_8b

输入“请给我讲一个小故事吧”，然后按两下回车键

如下命令可查看有关LMDeploy的chat功能的更多参数

lmdeploy chat -h

LMDeploy模型量化(lite)

设置最大KV Cache缓存大小

首先保持不加该参数（默认0.8），运行1.8B模型

lmdeploy chat /root/internlm2-chat-1_8b

此时显存占用为7856MB。下面，改变--cache-max-entry-count参数，设为0.5。

lmdeploy chat /root/internlm2-chat-1_8b --cache-max-entry-count 0.5

看到显存占用明显降低，变为6608M

接下来把--cache-max-entry-count参数设置为0.01，约等于禁止KV Cache占用显存

lmdeploy chat /root/internlm2-chat-1_8b --cache-max-entry-count 0.01

此时显存占用仅为4560MB，代价是会降低模型推理速度

使用W4A16量化

首先安装一个依赖库

pip install einops==0.7.0

完成模型量化工作

lmdeploy lite auto_awq \
/root/internlm2-chat-1_8b \
--calib-dataset 'ptb' \
--calib-samples 128 \
--calib-seqlen 1024 \
--w-bits 4 \
--w-group-size 128 \
--work-dir /root/internlm2-chat-1_8b-4bit

使用Chat功能运行W4A16量化后的模型

lmdeploy chat /root/internlm2-chat-1_8b-4bit --model-format awq

将KV Cache比例再次调为0.01，查看显存占用情况

lmdeploy chat /root/internlm2-chat-1_8b-4bit --model-format awq --cache-max-entry-count 0.01

在运行到这里附近的时候，好几次遇到bug，显示缺少安装包，

就只能分别安装或者运行如下代码全部重装

pip install lmdeploy[all]==0.3.0

LMDeploy服务(serve)

通过以下命令启动API服务器，推理internlm2-chat-1_8b模型：

lmdeploy serve api_server \
/root/internlm2-chat-1_8b \
--model-format hf \
--quant-policy 0 \
--server-name 0.0.0.0 \
--server-port 23333 \
--tp 1

本地打开一个cmd窗口输入如下命令进行访问：

ssh -CNg -L 23333:127.0.0.1:23333 root@ssh.intern-ai.org.cn -p 42970

然后打开浏览器，访问http://127.0.0.1:23333。

命令行客户端连接API服务器

在终端里新开了一个API服务器

激活conda环境

conda activate lmdeploy

运行命令行客户端：

lmdeploy serve api_client http://localhost:23333

网页客户端连接API服务器

激活conda环境

conda activate lmdeploy

启动网页客户端

lmdeploy serve gradio http://localhost:23333 \
--server-name 0.0.0.0 \
--server-port 6006

本地新建一个cmd终端，新开一个转发端口

ssh -CNg -L 6006:127.0.0.1:6006 root@ssh.intern-ai.org.cn -p 42970

打开浏览器，访问地址http://127.0.0.1:6006

Python代码集成

Python代码集成运行1.8B模型

这里需要激活conda环境，但因为前面已经激活了，所以不用操作

新建Python源代码文件pipeline.py。

touch /root/pipeline.py

打开pipeline.py，填入以下内容

from lmdeploy import pipeline

pipe = pipeline('/root/internlm2-chat-1_8b')
response = pipe(['Hi, pls intro yourself', '上海是'])
print(response)

ctrl+S保存后运行代码文件：

python /root/pipeline.py

向TurboMind后端传递参数

新建python文件pipeline_kv.py

touch /root/pipeline_kv.py

打开pipeline_kv.py，复制粘贴如下内容

from lmdeploy import pipeline, TurbomindEngineConfig

# 调低 k/v cache内存占比调整为总显存的 20%
backend_config = TurbomindEngineConfig(cache_max_entry_count=0.2)

pipe = pipeline('/root/internlm2-chat-1_8b',
backend_config=backend_config)
response = pipe(['Hi, pls intro yourself', '上海是'])
print(response)

Ctrl+S保存后运行python代码：

python /root/pipeline_kv.py

拓展部分

使用LMDeploy运行视觉多模态大模型llava

这里需要先激活环境，但是前面已经激活了，所以不用激活了

安装llava依赖库

pip install git+https://github.com/haotian-liu/LLaVA.git@4e2277a060da264c4f21b364c867cc622c945874

新建一个python文件，pipeline_llava.py

touch /root/pipeline_llava.py

打开并复制粘贴如下内容：

from lmdeploy.vl import load_image
from lmdeploy import pipeline, TurbomindEngineConfig

backend_config = TurbomindEngineConfig(session_len=8192) # 图片分辨率较高时请调高session_len
# pipe = pipeline('liuhaotian/llava-v1.6-vicuna-7b', backend_config=backend_config) 非开发机运行此命令
pipe = pipeline('/share/new_models/liuhaotian/llava-v1.6-vicuna-7b', backend_config=backend_config)

image = load_image('https://raw.githubusercontent.com/open-mmlab/mmdeploy/main/tests/data/tiger.jpeg')
response = pipe(('describe this image', image))
print(response)

ctrl+S保存后运行文件

python /root/pipeline_llava.py

但是这里显示缺少一些包，所以得再装这些包

pip install lmdeploy[all]==0.3.0

或者一个一个对应的装，再运行就正常了

我做的作业到这里就结束了，没有最后面的（

将 LMDeploy Web Demo 部署到 OpenXLab （OpenXLab cuda 12.2 的镜像还没有 ready，可先跳过，一周之后再来做）这一部分）

总的来说，这个作业难度不大，就是中间出现一些bug要重新装包，其他没什么

ph_2021

关注

30
点赞
踩
36

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

书生 浦语大模型实战课第二期 作业五

基础作业

创建开发机

配置环境

安装LMDeploy

LMDeploy模型对话(chat)

使用Transformer库运行模型

使用LMDeploy与模型对话

LMDeploy模型量化(lite)

设置最大KV Cache缓存大小

使用W4A16量化

LMDeploy服务(serve)

命令行客户端连接API服务器

网页客户端连接API服务器

Python代码集成

Python代码集成运行1.8B模型

向TurboMind后端传递参数

拓展部分

使用LMDeploy运行视觉多模态大模型llava

书生浦语大模型实战课第二期作业五