书生·浦语-(五)-LMDeploy量化部署LLM实践

模型部署

部署:指的是将开发完毕的软件投入使用的过程
人工智能模型部署:是将训练好的深度学习模型在特定环境中运行的过程

大模型部署面临的挑战

· LLM参数量巨大,前向推理inference需要大量计算


· GPT3有175B,20B的算小模型了
· 内存开销巨大,FP16,20B模型加载参数需要显存40G+,175B模型需要350G+
· 20B模型kv缓存需要显存10G,合计需要50G显存
· RTX 4060X消费级独显,显存8G
· 访存瓶颈,数据交换速度不够,显存带宽比起访存量偏小,无法发挥GPU的计算能力。
· 动态请求量不确定,GPU计算能力发挥不足。

大模型部署方法

三种:模型剪枝
模型剪枝 pruning,减少模型中的冗余参数

知识蒸馏(KD)

引导轻量化模型来学习和模仿老师模型,在不改变结构下提高性能

量化
将模型需要的浮点数据转换为存储更小的整数或者其他离散形式

LMDeploy量化部署平台是如何解决这些问题的

LMDeploy是涵盖了大模型任务的全套轻量化、部署和服务解决方案,核心功能包括高效推理、可靠量化、便捷服务和状态推理。

(一)模型高效推理

(二)模型量化压缩

(三)服务化部署

LMDeploy支持的模型数量

LMDeploy具有卓越的通用性和可适配性,目前以支持11种模型部署,高效适应不同模型选择

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值