【InternLM 实战营第二期】第五节 笔记
第五节 LMDeploy 量化部署 LLM-VLM 实践
参考:
视频教学:https://www.bilibili.com/video/BV1tr421x75B/
文档链接:https://github.com/InternLM/Tutorial/blob/camp2/
一、大模型部署背景
大模型部署面临的挑战:
- 计算量巨大
- 内存开销巨大
- 访存瓶颈
- 动态请求
请求量不确定;请求时间不确定;Token逐个生成,生成数量不确定。
二、大模型部署方法
- 模型剪枝
- 知识蒸馏
知识蒸馏是一种经典的模型压缩方法,核心思想是通过引导轻量化的学生模型“模仿”性性能更好、结构更复杂的教师模型,在不改变学生模型结构的情况下提高其性能。 - 量化
三、LMDeploy简介
LMDeploy核心功能
- 模型高效推理
参考命令:lmdeploychat-h
- 模型量化压缩
参考命令:lmdeploylite-h
- 服务化部署
参考命令:lmdeployserve-h