LMDeploy 大模型量化部署实践 学习笔记

1 环境配置
2 服务部署
2.1 模型转换
2.1.1 在线转换
2.1.2 离线转换
2.2 TurboMind 推理+命令行本地对话
2.3 TurboMind推理+API服务
2.4 网页 Demo 演示
2.4.1 TurboMind 服务作为后端
2.4.2 TurboMind 推理作为后端
2.5 TurboMind 推理 + Python 代码集成
2.6 这么多,头秃,有没有最佳实践
2.6.1 方案实践
2.6.2 模型配置实践
3 模型量化
3.1 KV Cache 量化
3.1.1 量化步骤
3.1.2 量化效果
3.2 W4A16 量化
3.2.1 量化步骤
3.2.2 量化效果
3.3 最佳实践
参考资料
附录1:TritonServer 作为推理引擎
TritonServer环境配置
TritonServer推理+API服务
TritonServer 服务作为后端

  • 8
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值