书生浦语大模型实战营第五次课作业-LMDeploy部署

最新推荐文章于 2024-08-26 08:54:09 发布

睡觉爱数羊

最新推荐文章于 2024-08-26 08:54:09 发布

阅读量445

点赞数 10

分类专栏：书生浦语大模型实战营文章标签：人工智能自然语言处理深度学习

本文链接：https://blog.csdn.net/qq_40831032/article/details/135602703

版权

书生浦语大模型实战营专栏收录该内容

10 篇文章 0 订阅

订阅专栏

基础作业：

使用 LMDeploy 以本地对话、网页Gradio、API服务中的一种方式部署 InternLM-Chat-7B 模型，生成 300 字的小故事（需截图）

进阶作业（可选做）

将第四节课训练自我认知小助手模型使用 LMDeploy 量化部署到 OpenXLab 平台。
对internlm-chat-7b模型进行量化，并同时使用KV Cache量化，使用量化后的模型完成API服务的部署，分别对比模型量化前后和 KV Cache 量化前后的显存大小（将 bs设置为 1 和 max len 设置为512）。
在自己的任务数据集上任取若干条进行Benchmark测试，测试方向包括：
（1）TurboMind推理+Python代码集成
（2）在（1）的基础上采用W4A16量化
（3）在（1）的基础上开启KV Cache量化
（4）在（2）的基础上开启KV Cache量化
（5）使用Huggingface推理

1. 基础作业

1.1 环境安装

1.2 TurboMind 推理+命令行本地对话

1.3 API

1.4 Gradio

2. 进阶作业

2.1 将第四节课训练自我认知小助手模型使用 LMDeploy 量化部署到 OpenXLab 平台

2.1.1 本地测试

先在本地把之前微调的模型转换成turbomind格式

转换完成

TurboMind 推理+命令行本地对话

本地测试没有问题

2.1.2 部署到openxlab

略

2.2 对internlm-chat-7b模型进行量化

对internlm-chat-7b模型进行量化，并同时使用KV Cache量化，使用量化后的模型完成API服务的部署，分别对比模型量化前后和 KV Cache 量化前后的显存大小（将 bs设置为 1 和 max len 设置为512）

2.2.1 KV Cache量化

遇到了一点小问题，原因是安装lmdeploy时，安装到了其他路径

修改lmdepoly路径

cp /root/share/temp/datasets/c4/calib_dataloader.py  /root/.local/lib/python3.10/site-packages/lmdeploy/lite/utils/

第一步：计算 minmax

第二步：通过 minmax 获取量化参数

打开KV Cache量化，GPU占用

未打开KV Cache量化，GPU占用

差别不大，很奇怪，找了半天，没找出原因

2.2.2 W4A16量化

使用量化：

未使用量化：

可以看到使用W4A16量化后，显存明显下降

2.3 在自己的任务数据集上任取若干条进行Benchmark测试

在自己的任务数据集上任取若干条进行Benchmark测试，测试方向包括：
（1）TurboMind推理+Python代码集成
（2）在（1）的基础上采用W4A16量化
（3）在（1）的基础上开启KV Cache量化
（4）在（2）的基础上开启KV Cache量化
（5）使用Huggingface推理

睡觉爱数羊

关注

10
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
书生浦语大模型实战营第五次课作业-LMDeploy部署

对internlm-chat-7b模型进行量化，并同时使用KV Cache量化，使用量化后的模型完成API服务的部署，分别对比模型量化前后和 KV Cache 量化前后的显存大小（将 bs设置为 1 和 max len 设置为512）遇到了一点小问题，原因是安装lmdeploy时，安装到了其他路径。可以看到使用W4A16量化后，显存明显下降。第二步：通过 minmax 获取量化参数。未打开KV Cache量化，GPU占用。差别不大，很奇怪，找了半天，没找出原因。打开KV Cache量化，GPU占用。
复制链接

扫一扫

专栏目录