书生·浦语-(五)-LMDeploy量化部署LLM实践

本文探讨了大模型部署面临的挑战,如计算需求、内存限制和访存瓶颈,介绍了模型剪枝、知识蒸馏和量化等方法。LMDeploy平台提供了高效推理、量化压缩和便捷服务解决方案,已支持11种模型部署,以应对这些挑战。
摘要由CSDN通过智能技术生成

模型部署

部署:指的是将开发完毕的软件投入使用的过程
人工智能模型部署:是将训练好的深度学习模型在特定环境中运行的过程

大模型部署面临的挑战

· LLM参数量巨大,前向推理inference需要大量计算


· GPT3有175B,20B的算小模型了
· 内存开销巨大,FP16,20B模型加载参数需要显存40G+,175B模型需要350G+
· 20B模型kv缓存需要显存10G,合计需要50G显存
· RTX 4060X消费级独显,显存8G
· 访存瓶颈,数据交换速度不够,显存带宽比起访存量偏小,无法发挥GPU的计算能力。
· 动态请求量不确定,GPU计算能力发挥不足。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值