
模型部署
部署:指的是将开发完毕的软件投入使用的过程
人工智能模型部署:是将训练好的深度学习模型在特定环境中运行的过程

大模型部署面临的挑战
· LLM参数量巨大,前向推理inference需要大量计算

· GPT3有175B,20B的算小模型了
· 内存开销巨大,FP16,20B模型加载参数需要显存40G+,175B模型需要350G+
· 20B模型kv缓存需要显存10G,合计需要50G显存
· RTX 4060X消费级独显,显存8G
· 访存瓶颈,数据交换速度不够,显存带宽比起访存量偏小,无法发挥GPU的计算能力。
· 动态请求量不确定,GPU计算能力发挥不足。


本文探讨了大模型部署面临的挑战,如计算需求、内存限制和访存瓶颈,介绍了模型剪枝、知识蒸馏和量化等方法。LMDeploy平台提供了高效推理、量化压缩和便捷服务解决方案,已支持11种模型部署,以应对这些挑战。
最低0.47元/天 解锁文章
1023

被折叠的 条评论
为什么被折叠?



