模型部署
部署:指的是将开发完毕的软件投入使用的过程
人工智能模型部署:是将训练好的深度学习模型在特定环境中运行的过程
大模型部署面临的挑战
· LLM参数量巨大,前向推理inference需要大量计算
· GPT3有175B,20B的算小模型了
· 内存开销巨大,FP16,20B模型加载参数需要显存40G+,175B模型需要350G+
· 20B模型kv缓存需要显存10G,合计需要50G显存
· RTX 4060X消费级独显,显存8G
· 访存瓶颈,数据交换速度不够,显存带宽比起访存量偏小,无法发挥GPU的计算能力。
· 动态请求量不确定,GPU计算能力发挥不足。
大模型部署方法
三种:模型剪枝
模型剪枝 pruning,减少模型中的冗余参数
知识蒸馏(KD)
引导轻量化模型来学习和模仿老师模型,在不改变结构下提高性能
量化
将模型需要的浮点数据转换为存储更小的整数或者其他离散形式
LMDeploy量化部署平台是如何解决这些问题的
LMDeploy是涵盖了大模型任务的全套轻量化、部署和服务解决方案,核心功能包括高效推理、可靠量化、便捷服务和状态推理。
(一)模型高效推理
(二)模型量化压缩
(三)服务化部署
LMDeploy支持的模型数量
LMDeploy具有卓越的通用性和可适配性,目前以支持11种模型部署,高效适应不同模型选择