LMDeploy 大模型量化部署实践

最新推荐文章于 2024-02-26 12:55:46 发布

狗狗熊学AI

最新推荐文章于 2024-02-26 12:55:46 发布

阅读量1.5k

点赞数

分类专栏：书生·浦语大模型训练营笔记文章标签：人工智能

本文链接：https://blog.csdn.net/m0_55764641/article/details/135720626

版权

7 篇文章 0 订阅

订阅专栏

大模型部署背景

定义
- 将训练好的模型在特定软硬件环境中启动的过程,使模型能够接收输入并返回预测结果。
- 为了满足性能和效率的需求,常常需要对模型进行优化，例如模型压缩和硬件加速。
产品形态
云端、边缘计算端、移动端。
计算设备
CPU、GPU、NPU、TPU等。

内存开销巨大
- 庞大的参数量。7B 模型仅权重就需要 14+G 内存
- 采用自回归生成 token，需要缓存 Attention 的 k/v带来巨大的内存开销
动态shape
请求数不固定
Token 逐个生成，且数量不定
相对视觉模型，LLM结构简单
Transformers 结构，大部分是 decoder-only

LMDeploy 是 LLM 在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务。
在这里插入图片描述
核心功能-量化
两个基本概念

计算密集(compute-bound)：推理的绝大部分时间消耗在数值计算上；针对计算密集场景,可以通过使用更快的硬件计算单元来提升计算速度，比如量化为 W8A8 使用 INT8 Tensor Core 来加速计算。
访存密售(memory-bound)：推理时，绝大部分时间消耗在数据读取上；针对访存密集型场景，一般是通过提高计算访存比来提升性能。

LLM 是典型的访存密集型任务常见的 LLM 模型是 Decoder Only 架构。推理时大部分时间消耗在逐
Token 生成阶段（Decoding 阶段），是典型的访存密集型场景。
Weight Only 的量化

为什么做：一举多得
1. 4bit Weight Only 量化，将 FP16 的模型权重量化为INT4，访存量直接降为 FP16模型的 1/4，大幅降低了访存成本，提高了 Decoding 的速度。
2. 加速的同时还节省了显存，同样的设备能够支持更大的模型以及更长的对话长度。
如何做：
1. LMDeploy 使用 MIT HAN LAB 开源的 AWQ 算法，量化为 4bit 模型推理时，先把 4bit 权重，反量化回 FP16（在 Kernel 内部进行，从Global Memory读取时仍是4bit) ,依旧使用的是FP16计算。
2. 相较于社区使用比较多的 GPTQ 算法 AWQ 的推理速度更快，量化的时间更短。

核心功能-推理引擎TurboMind
在这里插入图片描述
核心功能-推理服务api sever