书生·浦语大模型实战营Day05 LMDeploy 量化部署
- LMDeploy 量化部署 LLM-VLM
模型部署
- 部署:将开发完毕的软件投入使用的过程
- 服务器:CPU、GPU
大模型部署面临的挑战
- 计算量巨大、参数规模大
- 内存开销巨大:K V Cache
- 访存瓶颈、动态请求
模型部署方法
模型剪枝(Pruning)
- 非结构化剪枝
- 结构化剪枝
知识蒸馏(Knoledge Distillation,KD)
- 教师-学生
量化(Quantization)
- 量化感知训练(QAT)
- 量化感知微调(QAF)
- 训练后量化(PTQ)
LMDeploy核心功能
- 模型高效推理
- 模型量化压缩
- 服务化部署
- LMDeploy性能
- 支持模型