一.配置lmdeploy运行环境
由于环境依赖项存在torch,下载过程可能比较缓慢。InternStudio上提供了快速创建conda环境的方法。打开命令行终端,创建一个名为lmdeploy
的环境:接下来,激活刚刚创建的虚拟环境。安装0.3.0版本的lmdeploy。(如图所示)
二.下载internlm-chat-1.8b模型
从InternStudio开发机上下载模型,首先进入一个你想要存放模型的目录,本教程统一放置在Home目录。执行如下指令:cd~;然后执行指令由开发机的共享目录软链接或拷贝模型执行完指令后,可以运行“ls”命令。可以看到,当前目录下已经多了一个internlm2-chat-1_8b
文件夹,即下载好的预训练模型。
三.以命令行方式与模型对话
1.使用Transformer库运行模型
2.使用LMDeploy与模型对话
3.设置最大KV Cache缓存大小
a.7856MB
首先保持不加该参数(默认0.8),运行1.8B模型此时显存占用为7856MB。
b.6608MB
c.4560MB
4.使用W4A16量化
a.量化之前
b.量化之后
5.LMDeploy服务(serve)
a.启动API服务器
b.命令行客户端连接API服务器
c.网页客户端连接API服务器
6.Python代码集成
a.Python代码集成运行1.8B模型
b.向TurboMind后端传递参数
四.拓展部分(30%的进阶作业)
1.使用LMDeploy运行视觉多模态大模型llava
a.pipeline推理llava-v1.6-7b
b.Gradio来运行llava模型
2.使用LMDeploy运行第三方大模型
LMDeploy不仅支持运行InternLM系列大模型,还支持其他第三方大模型。可以从Modelscope,OpenXLab下载相应的HF模型,下载好HF模型,下面的步骤就和使用LMDeploy运行InternLM2一样