LMDeploy 量化部署 LLM 实践

最新推荐文章于 2024-06-15 00:08:59 发布

justjavac_

最新推荐文章于 2024-06-15 00:08:59 发布

阅读量839

点赞数 24

文章标签： python 开发语言

本文链接：https://blog.csdn.net/justjavac_/article/details/138130382

版权

本期内容：

配置 LMDeploy 运行环境
以命令行方式与 InternLM2-Chat-1.8B 模型对话

打开命令行终端，创建一个名为lmdeploy的环境：

studio-conda -t lmdeploy -o pytorch-2.1.2

下载成功

接下来，激活刚刚创建的虚拟环境。

conda activate lmdeploy

安装0.3.0版本的lmdeploy。

pip install lmdeploy[all]==0.3.0

TurboMind

TurboMind是LMDeploy团队开发的一款关于LLM推理的高效推理引擎，它的主要功能包括：LLaMa 结构模型的支持，continuous batch 推理模式和可扩展的 KV 缓存管理器。

TurboMind推理引擎仅支持推理TurboMind格式的模型。因此，TurboMind在推理HF格式的模型时，会首先自动将HF格式模型转换为TurboMind格式的模型。该过程在新版本的LMDeploy中是自动进行的，无需用户操作。

几个容易迷惑的点：

TurboMind与LMDeploy的关系：LMDeploy是涵盖了LLM 任务全套轻量化、部署和服务解决方案的集成功能包，TurboMind是LMDeploy的一个推理引擎，是一个子模块。LMDeploy也可以使用pytorch作为推理引擎。
TurboMind与TurboMind模型的关系：TurboMind是推理引擎的名字，TurboMind模型是一种模型存储格式，TurboMind引擎只能推理TurboMind格式的模型。

下载模型

ls /root/share/new_models/Shanghai_AI_Laboratory/

首先进入一个你想要存放模型的目录，本教程统一放置在Home目录。执行如下指令：

cd ~

然后执行如下指令由开发机的共享目录软链接或拷贝模型：

ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b /root/
# cp -r /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b /root/

执行完如上指令后，可以运行“ls”命令。可以看到，当前目录下已经多了一个internlm2-chat-1_8b文件夹，即下载好的预训练模型。

ls

在终端中输入如下指令，新建pipeline_transformer.py。

touch /root/pipeline_transformer.py

回车执行指令，可以看到侧边栏多出了pipeline_transformer.py文件，点击打开。后文中如果要创建其他新文件，也是采取类似的操作。

修改该文件，然后重启虚拟环境

conda activate lmdeploy

运行python代码：

python /root/pipeline_transformer.py

得到输出：

使用LMDeploy与模型对话

这一小节我们来介绍如何应用LMDeploy直接与模型进行对话。

首先激活创建好的conda环境：

conda activate lmdeploy

使用LMDeploy与模型进行对话的通用命令格式为：

lmdeploy chat [HF格式模型路径/TurboMind格式模型路径]

例如，您可以执行如下命令运行下载的1.8B模型：

lmdeploy chat /root/internlm2-chat-1_8b

justjavac_

关注

24
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
LMDeploy 量化部署 LLM 实践

打开命令行终端，创建一个名为lmdeploy的环境：下载成功接下来，激活刚刚创建的虚拟环境。安装0.3.0版本的lmdeploy。OK。
复制链接

扫一扫

LMDeploy 量化部署 LLM 实践

TurboMind

使用LMDeploy与模型对话

“相关推荐”对你有帮助么？