参考自:(5)LMDeploy 大模型量化部署实践_哔哩哔哩_bilibili
1.大模型部署背景
2.LMDeploy
核心功能量化:计算密集型和
访存密集型
MIT AWQ算法(4bit读取,反量化为FP16计算)
高性能推理引擎TurboMind
3.
参考自:(5)LMDeploy 大模型量化部署实践_哔哩哔哩_bilibili
1.大模型部署背景
2.LMDeploy
核心功能量化:计算密集型和
访存密集型
MIT AWQ算法(4bit读取,反量化为FP16计算)
高性能推理引擎TurboMind
3.