LMDeploy 的量化和部署

最新推荐文章于 2025-05-07 09:58:42 发布

yestolife123

最新推荐文章于 2025-05-07 09:58:42 发布

阅读量581

点赞数 8

文章标签：人工智能

本文链接：https://blog.csdn.net/Andytl/article/details/135578001

版权

LMDeploy 的量化和部署

文档：https://github.com/InternLM/tutorial/blob/vansin-patch-4/lmdeploy/lmdeploy.md
视频：https://www.bilibili.com/video/BV1iW4y1A77P

一、模型量化

大模型参数量很大，运行起来非常消耗显存和内存，模型的参数和计算过程中的kv是浮点数，如果在保证一定精度的下存储为低精度的浮点数或者整数，就可以减少调取参数的时间。主要有两种量化方法，KV Cache 量化和 **4bit Weight Only 量化（W4A16）

KV Cache 量化是指将逐 Token（Decoding）生成过程中的上下文 K 和 V 中间结果进行 INT8 量化（计算时再反量化），以降低生成过程中的显存占用。

4bit Weight 量化，将 FP16 的模型权重量化为 INT4，Kernel 计算时，访存量直接降为 FP16 模型的 1/4，大幅降低了访存成本。Weight Only 是指仅量化权重，数值计算依然采用 FP16（需要将 INT4 权重反量化）。