LMDeploy量化部署LLM&VLM实战(笔记)

本文探讨了深度学习模型部署的关键步骤,包括服务器端和移动端部署的挑战,如计算量、内存瓶颈和动态请求。此外,介绍了模型剪枝、知识蒸馏和量化等技术来提升模型效率。LMDeploy作为一套完整的解决方案,提供高效推理、量化压缩和便捷服务等功能,并展示了其卓越的性能表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.模型部署

定义
在软件工程中,部署通常指的是将开发完毕的软件投入使用的过程。
在人工智能领域,横型部署是实现深度学习算法潜地应用的关天键步骤,简单来说,横型部署就是将训练好的深度学习横型在特定环境中运行的过程。
场景:

服务器端:CPU部署,单GPU/TPU/NPU部署,多卡/集群部署.
移动端/边缘端:移动机器人,手机…….

2.大模型部署面临的挑战

计算量巨大;访存瓶颈;动态请求

3.模型剪枝

剪枝指移除横型中不必要或多余的组件,比如参数,以使模型更加高效。通过对模型中贡献有限的元余参数进行剪枝,在保证性能最低下降的同时,可以减小存储需求、提高计算效率。分为结构化剪枝和非结构化剪枝。

4.知识蒸馏

知识蒸馏是一种经典的模型压缩方法,核心思想是通过能。引导轻量化的学生模型“模仿”性能更好、结构更复杂的教师模型,在不改变学生模型结构的情况下提高其性能。

5.量化

量化技术将传统的表示方法中的浮点数转换为整数或其他离散形式,以减轻深度学习模型的存储和计算负担。

6.LMDeploy

6.1简介

LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。核心功能包括高效推理、可靠量化、便捷服务和有状态推理。

6.2核心功能

模型高效推理;模型量化压缩;服务化部署。

6.3性能表现

LMDeploy TurboMind 引擎拥有卓越的推理能力,在各种规模的模型上,每秒处理的请求数是 vLLM的1.36~1.85 倍。在静态推理能力方面,TurboMind 4bit 模型推理速度(out token/s)远高于FP16/BF16推理。在小batch时,提高到2.4倍。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值