目录
大模型部署背景
LMDeploy部署
量化
TurboMind
API server
动手实践环节
1.创建开发机
2.创建虚拟环境
3.服务部署
在线转换模型
离线转换
4.TurboMind推理
-
TurboMind+API服务
提供了一些API的接口
-
Gradio Demo演示
API server作为后端
注意这里要同时启动API server的
TurboMind推理作为后端
5.Benchmark
模型量化
模型量化以在保证精度的同时,降低空间占用以及加快推理速度。
KV Cache量化
-
第一步:计算minmax
-
第二步:通过minmax获取量化参数
-
第三步:修改配置文件,打开一些开关
-
量化效果:
-
性能有下降,也有提升
W4A16量化
-
第一步:计算minmax
-
第二步:量化权重模型
-
第三步:转换为TurboMind格式
量化效果
讲个故事: