LMDeploy 大模型量化部署实践

最新推荐文章于 2024-08-08 14:55:13 发布

桑_榆

最新推荐文章于 2024-08-08 14:55:13 发布

阅读量786

点赞数 16

分类专栏： MMLab实战训练营文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shengweiit/article/details/135565624

版权

MMLab实战训练营专栏收录该内容

20 篇文章 5 订阅

订阅专栏

本文详细探讨了大模型部署的背景，涉及模型定义、产品形态和计算设备，强调了大模型的特点如内存消耗和挑战。LMDeploy作为解决方案，提供了模型轻量化、量化、推理引擎TurboMind和推理服务API-Server，以及安装、部署和量化案例。

摘要由CSDN通过智能技术生成

LMDeploy 大模型量化部署实践

大模型部署背景
LMDeploy简介
案例(安装、部署、量化)

大模型部署背景

模型部署

定义

将训练好的模型在特定软硬件环境中启动的过程，使模型能够接受输入并返回预测结果
为了满足性能和效率的要求，尝尝需要对模型进行优化，例如模型压缩和硬件加速

产品形态

云端、边缘计算端、移动端

计算设备

CPU、GPU、NPU、TPU等

大模型特点

内存消耗巨大庞大的参数量 7B模型仅权重就需要14+G内存
采用自回归生成token 需要缓存Attention的k/v带来巨大的内存开销
动态shape 请求数不固定 token逐个生成，且数量不定
相对视觉模型 LLM结构简单

大模型挑战

设备如何应对巨大的存储问题？底存储设备如何部署？
推理如何加速token的生成速度如何解决动态shape 让推理可以不间断如何有效管理和利用内存
服务如何提升系统整体吞吐量。对于个体用户如何降低相应时间

大模型部署方案

技术点
方案

LMDeploy简介

LMDeploy 是LLM在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务。
项目地址：https://github.com/InternLM/lmdeploy
在这里插入图片描述

推理性能

静态推理性能固定batch
动态推理性能真是对话

核心功能-量化

在这里插入图片描述
为什么做weight only的量化？

计算密集：推理的绝大部分时间消耗在数值计算上，针对计算密集场景，可以通过使用更快的硬件计算单元来提升计算速度，比如量化为W8A8使用Int8 Tensor Core来加速计算
访问密集：推理时，绝大部分时间消耗在数据读取上，针对访问密集场景，一般是通过提高计算访存比来提升性能。

核心功能-推理引擎TurboMind

在这里插入图片描述

核心功能推理服务 api-server

在这里插入图片描述

案例(安装、部署、量化)

参考教程：
https://github.com/InternLM/tutorial/blob/main/lmdeploy/lmdeploy.md

关注

16
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。