量化技术（Quantization）：如何让你的模型更快、更省显存？一篇带你了解！

最新推荐文章于 2025-04-07 22:12:52 发布

still_learning

最新推荐文章于 2025-04-07 22:12:52 发布

阅读量1k

点赞数 15

文章标签： pytorch python 人工智能深度学习

本文链接：https://blog.csdn.net/gg864461719/article/details/146191963

版权

量化技术（Quantization）：如何让你的模型更快、更省显存？

在深度学习推理中，计算资源和显存往往是影响性能的关键因素。尤其是大模型，显存占用高，推理速度慢，导致在消费级 GPU 上难以运行。量化（Quantization） 就是一种常用的优化技术，它通过降低权重的存储精度来减少内存占用，并加速推理。本文将深入探讨量化的基本概念、适用场景、代码示例，以及在不同框架中可能遇到的参数命名方式。

为什么需要量化？

量化的核心目标是用更少的位数来存储模型权重，从而降低显存占用并提升推理速度。其主要优势包括：

减少模型大小
- 8-bit（INT8）量化：模型大小约为原来的 50%
- 4-bit（NF4）量化：模型大小约为原来的 25%
加速推理
- 许多硬件（如 NVIDIA TensorRT、Apple Core ML）对低精度计算进行了优化，运行速度可能更快。
支持更大模型
- 在有限显存环境下（如 8GB/16GB 的 GPU），量化可以帮助加载更大规模的模型，如 13B、30B 甚至 65B 的 LLM。

量化的工作原理

传统的深度学习模型通常使用 FP16（半精度浮点数） 或 BF16（BFloat16） 来存储权重。而量化则采用更低位数（如 8 位或 4 位）来存储数据，显著减少内存占用。计算时，模型会动态转换回更高精度进行运算，以尽可能降低精度损失。

常见量化方式

量化方式	每个权重占用	内存压缩比	适用场景
FP16 / BF16	16-bit	1x	默认精度，适用于高端显卡
INT8	8-bit	0.5x	适合大多数推理任务，精度损失较小
NF4（Normal Float 4）	4-bit	0.25x	适合极限显存优化，但可能影响精度

代码示例：如何在推理中使用量化？

在大多数框架中，你可以通过 quantization 参数来启用量化。以下是几个常见的使用示例：

在 PyTorch 中使用量化

from transformers import AutoModel

# 加载量化模型
model = AutoModel.from_pretrained("model_name", quantization='int8')  # 使用 INT8 量化

# 或者
model = AutoModel.from_pretrained("model_name", quantization='nf4')  # 使用 NF4 量化

在 TensorRT 上启用量化

import tensorrt as trt
builder = trt.Builder(TRT_LOGGER)
config = builder.create_builder_config()
config.set_flag(trt.BuilderFlag.INT8)  # 启用 INT8 量化

在 Hugging Face Transformers 中使用 4-bit 量化

from transformers import AutoModelForCausalLM, BitsAndBytesConfig

bnb_config = BitsAndBytesConfig(load_in_4bit=True)
model = AutoModelForCausalLM.from_pretrained("model_name", quantization_config=bnb_config)

你应该注意的几点

在使用量化时，有几个关键点需要注意：

精度 vs. 速度 vs. 显存占用
- 如果你的 GPU 显存充足（如 24GB+），可以直接使用 FP16 / BF16。
- 如果显存有限，INT8 是最常见的选择，因为它能很好地平衡精度与速度。
- NF4 适用于极端情况（如在 8GB 显存上运行 13B+ LLM），但可能会降低推理质量。
某些层应跳过量化
- 例如 proj_out、norm_out 这些层，可能需要保留更高精度。
- 在 Hugging Face 库中，可以使用 llm_int8_skip_modules 来控制跳过量化的层。
计算精度控制
- 在 4-bit 量化中，可以使用 bnb_4bit_compute_dtype=torch.bfloat16 让计算过程保持更高精度，减少损失。

结论

量化是提升推理效率的关键技术之一，它能有效降低内存占用、加速计算，并让大模型在消费级显卡上运行变得可能。在实际应用中，可以根据 显存情况 和 任务需求 选择合适的量化方案。

一个例子

一般来说，以10B模型为例，

模型规模	显存需求（FP16/BF16）	显存需求（INT8）	显存需求（NF4）	推荐量化方式
10B	~20GB	~10GB	~5GB	INT8（16GB显存）或 NF4（8GB显存）

解析：

10B参数模型
- FP16/BF16：需要约 20GB 显存，适用于高端 GPU（如 24GB 显存）。
- INT8：需要约 10GB 显存，适用于 16GB 显存的 GPU。
- NF4：需要约 5GB 显存，适用于 8GB 显存的 GPU，但可能会有精度损失。