0. 作业截图
命令行生成小说
TurboMind推理+API服务
ssh隧道端口转发后
1. 动手时间 —— 安装 部署 量化
可以直接启动本地的 Huggingface 模型,如下所示
lmdeploy chat turbomind /share/temp/model_repos/internlm-chat-7b/ --model-name internlm-chat-7b
离线转换
TurboMind 推理+命令行本地对话
2. 课程笔记
LMDeploy 部署实战
- 采用内自回归生成Token, 需要缓存 Attention 的 k/v ,带来巨大的内存开销
- 动态shape,请求数不固定,Token逐个生成数量不定
- LLM结构简单,大部分是 Decoder-Only
带来的挑战
LMDeploy
- 大语言模型在英伟达设备上的部署
计算密集 + 访存密集两种
AWQ算法 <> GPTQ算法(之前的sota), 前者推理速度快,量化时间短
kv-cache int8 量化
推理引擎 turboMind 做了非常多的优化
- Continuous Batch 持续批处理
- 有状态推理,需要用户每次带上对话记录
- 分块的 kv cache,支持不连续的 k/v
- 高性能的 cuda kernel (flash attention 2, w4a16, 反量化 kernel)
Continuous Batch,主要是一个持续的批处理
server端帮你存上下文,不需要用户去带
推理服务API SERVER
- 模型列表 和 openai 是一致的