本期内容:
- 配置 LMDeploy 运行环境
- 以命令行方式与 InternLM2-Chat-1.8B 模型对话
打开命令行终端,创建一个名为lmdeploy
的环境:
studio-conda -t lmdeploy -o pytorch-2.1.2
下载成功
接下来,激活刚刚创建的虚拟环境。
conda activate lmdeploy
安装0.3.0版本的lmdeploy。
pip install lmdeploy[all]==0.3.0
OK
TurboMind
TurboMind是LMDeploy团队开发的一款关于LLM推理的高效推理引擎,它的主要功能包括:LLaMa 结构模型的支持,continuous batch 推理模式和可扩展的 KV 缓存管理器。
TurboMind推理引擎仅支持推理TurboMind格式的模型。因此,TurboMind在推理HF格式的模型时,会首先自动将HF格式模型转换为TurboMind格式的模型。该过程在新版本的LMDeploy中是自动进行的,无需用户操作。
几个容易迷惑的点:
- TurboMind与LMDeploy的关系:LMDeploy是涵盖了LLM 任务全套轻量化、部署和服务解决方案的集成功能包,TurboMind是LMDeploy的一个推理引擎,是一个子模块。LMDeploy也可以使用pytorch作为推理引擎。
- TurboMind与TurboMind模型的关系:TurboMind是推理引擎的名字,TurboMind模型是一种模型存储格式,TurboMind引擎只能推理TurboMind格式的模型。
下载模型
ls /root/share/new_models/Shanghai_AI_Laboratory/
首先进入一个你想要存放模型的目录,本教程统一放置在Home目录。执行如下指令:
cd ~
然后执行如下指令由开发机的共享目录软链接或拷贝模型:
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b /root/ # cp -r /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b /root/
执行完如上指令后,可以运行“ls”命令。可以看到,当前目录下已经多了一个internlm2-chat-1_8b
文件夹,即下载好的预训练模型。
ls
在终端中输入如下指令,新建pipeline_transformer.py
。
touch /root/pipeline_transformer.py
回车执行指令,可以看到侧边栏多出了pipeline_transformer.py
文件,点击打开。后文中如果要创建其他新文件,也是采取类似的操作。
修改该文件,然后重启虚拟环境
conda activate lmdeploy
运行python代码:
python /root/pipeline_transformer.py
得到输出:
使用LMDeploy与模型对话
这一小节我们来介绍如何应用LMDeploy直接与模型进行对话。
首先激活创建好的conda环境:
conda activate lmdeploy
使用LMDeploy与模型进行对话的通用命令格式为:
lmdeploy chat [HF格式模型路径/TurboMind格式模型路径]
例如,您可以执行如下命令运行下载的1.8B模型:
lmdeploy chat /root/internlm2-chat-1_8b