【InternLM实战营第二期05笔记】【LMDeploy量化部署】
实战文档:Tutorial/lmdeploy/README.md at camp2 · InternLM/Tutorial (github.com)
实战视频:LMDeploy 量化部署 LLM-VLM 实践哔哩哔哩bilibili
模型部署
在人工智能领域,模型部署就是将训练好的深度学习模型在特定环境中运行的过程 服务器端:CPU部署、单GPU/TPU/NPU部署,多卡集群部署... 移动端/边缘端:移动机器人,手机...
大模型部署面临的挑战:
解决办法
LMDeploy介绍:
实战
创建开发机
打开InternStudio平台,创建开发机。
填写开发机名称;选择镜像Cuda12.2-conda
;选择10% A100*1
GPU;点击“立即创建”。注意请不要选择Cuda11.7-conda
的镜像,新版本的lmdeploy会出现兼容性问题。排队等待一小段时间,点击“进入开发机”。点击左上角图标,切换为终端(Terminal)模式。
创建conda环境
由于环境依赖项存在torch,下载过程可能比较缓慢。InternStudio上提供了快速创建conda环境的方法。打开命令行终端,创建一个名为lmdeploy
的环境:
studio-conda -t lmdeploy -o pytorch-2.1.2
安装LMDeploy
接下来,激活刚刚创建的虚拟环境。
conda activate lmdeploy
安装0.3.0版本的lmdeploy。
pip install lmdeploy[all]==0.3.0
等待安装结束就OK了!
使用LMDeploy与模型对话
首先激活创建好的conda环境:
conda activate lmdeploy
使用LMDeploy与模型进行对话的通用命令格式为:
lmdeploy chat [HF格式模型路径/TurboMind格式模型路径]
例如,您可以执行如下命令运行下载的1.8B模型:
lmdeploy chat /root/internlm2-chat-1_8b
下面我们就可以与InternLM2-Chat-1.8B大模型对话了。比如输入“请给我讲一个小故事吧”,然后按两下回车键。
速度会比原生使用transformer调用快很多
输入“exit”并按两下回车,可以退出对话。
拓展内容:有关LMDeploy的chat功能的更多参数可通过-h命令查看。
lmdeploy chat -h