【大模型开发】Quantization（量化）技术与案例代码分析

最新推荐文章于 2025-05-07 09:58:42 发布

云博士的AI课堂

最新推荐文章于 2025-05-07 09:58:42 发布

阅读量767

点赞数 22

分类专栏：哈佛博后带你玩转机器学习大模型技术开发与实践深度学习文章标签：大模型量化 Quantization 量化大模型开发人工智能大模型优化机器学习

本文链接：https://blog.csdn.net/l35633/article/details/146168854

版权

哈佛博后带你玩转机器学习同时被 3 个专栏收录

249 篇文章

订阅专栏

大模型技术开发与实践

244 篇文章

订阅专栏

深度学习

188 篇文章

订阅专栏

以下内容将从量化（Quantization） 的核心概念、常用方法、在大模型上的应用场景，以及具体可运行的示例代码四个方面进行剖析，帮助你理解并动手实践大模型的量化技术，以便在推理推断（Inference）或部署时节省计算和存储成本。

一、什么是量化（Quantization）

量化（Quantization）是将模型参数（或激活值）从高精度（如 FP32 浮点格式）映射到低精度（如 INT8 或 INT4）以减小模型尺寸、降低计算资源需求的一种重要技术。它在推理场景常用来加速计算、减少显存/内存占用。

对于大模型（如 GPT、BERT、LLAMA 等上亿到上千亿参数量级的模型），量化意义更为突出：

显著减少权重存储体积：例如从 FP32 到 INT8，可使模型权重大小缩小 4 倍。
提升推理吞吐：部分硬件（如 GPU TensorCore、CPU VNNI 指令等）对低精度运算有更高效的指令支持。
降低部署成本：减少内存/GPU 显存消耗，降低分布式部署规模与能耗。

二、常用的量化方法

1. 后量化（Post-Training Quantization, PTQ）

该方法不需在训练时引入量化逻辑，而是在训练完成后，对模型进行离线量化。常见流程是：

使用少量校准数据（calibration data）在模型的激活分布上统计 min-max 或更复杂的统计信息；
根据统计信息选择量化参数（缩放因子 scale、零点 zero_point）；
将模型的权重、激活进行映射（如 FP32 → INT8）。

优点：

无需重新训练模型，部署简单。
缺点：
精度可能下降较多，尤其在激活分布复杂或极值较多时。

2. 量化感知训练（Quantization Aware Training, QAT）

在模型训练的过程中，显式地模拟量化误差，让模型学会适应量化后的数值分布。

在正向传播时插入“Fake Quantization”节点，将 FP32 中间结果映射到量化格式并再映射回 FP32；
反向传播时梯度在这之上进行，模型逐渐学会抵抗量化带来的数值抖动；
最终训练好的模型可以直接转换为低精度部署。

优点：

精度更高，尤其是 8-bit 或 4-bit 时，精度损失较小。
缺点：
训练过程更复杂，需要可用训练数据，并且训练时间增加。

3. 动态量化（Dynamic Quantization）

在推理阶段，对于权重使用低精度存储，而对于激活值在运行时动态计算量化参数（通常按层来做），再进行低精度计算。

优点：不需要完整的校准步骤，也不需要重训；推理端自动计算激活的量化参数。
缺点：量化精度不一定最优，对激活分布特别敏感。

在 PyTorch 中，torch.quantization.quantize_dynamic 就是一种快速给线性层做动态量化的接口。

4. 其它增强方法

混合精度 + 量化：例如部分层用 FP16，部分层用 INT8。
逐通道量化 vs 逐张量量化：逐通道量化指为每个通道/列使用单独的 scale/zero_point，进一步提高精度。
群组量化 / 块量化（特别是 4-bit 量化时）：将若干参数分块共享量化参数，减少信息损失。
对称量化 vs 非对称量化。

三、大模型量化的应用场景与注意事项

推理加速：在 CPU 端或 GPU 端进行 8-bit / 4-bit 量化可减少计算量，提高吞吐；在部分硬件（如英伟达 GPU、英特尔 CPU）能明显获益。
压缩存储：超大模型（如数十亿 ~ 千亿参数）的存储成本高，通过量化可减小模型尺寸。
边缘部署：在移动端或嵌入式设备中，使用 INT8（乃至更低）可以极大减小内存占用和功耗。

注意事项：

大模型的激活分布复杂，简单的 min-max 量化效果可能欠佳，需要更复杂的量化策略或校准数据。
量化后精度损失要有心理预期；若对精度要求极高，可能需量化感知训练（QAT）。
部分 Transformer 模块（如 LayerNorm、Softmax）不易直接量化，需要特殊处理或保留在 FP16/FP32。

四、可运行示例：使用 PyTorch 动态量化 GPT-2

下面我们以一个小规模 GPT-2 模型（如 gpt2）为例，在 PyTorch 中使用动态量化演示从 FP32 -> INT8 的过程，减少模型权重占用并观测推理性能的变化。此示例适用于 CPU 端（CPU 动态量化），GPU 上的 8-bit 通常需要其他库（如 bitsandbytes、TensorRT 等）辅助。

环境准备

Python 3.7+
pip install torch transformers (确保与硬件/系统兼容)

4.1 导入依赖并加载 GPT2 FP32 模型

import torch
import time
from transformers import GPT2LMHeadModel, GPT2TokenizerFast

# 加载 GPT2 模型和分词器
model_name = "gpt2"  # 也可选 gpt2-medium, gpt2-large 等
tokenizer = GPT2TokenizerFast.from_pretrained(model_name)
model_fp32 = GPT2LMHeadModel.from_pretrained(model_name)
model_fp32.eval()  # 推理模式

# 简单测试
input_text = "Hello, I'm a language model"
inputs = tokenizer.encode(input_text, return_tensors="pt")

with torch.no_grad():
    start_time = time.time()
    output_fp32 = model_fp32(inputs)
    end_time = time.time()

print("FP32 推理时间: {:.4f} s".format(end_time - start_time))
print("输出 logits 大小:", output_fp32.logits.shape)

上述代码将下载并加载一个 GPT-2 Base 大小的模型（约 117M 参数，约 500 MB 左右的 FP32 权重大小）。然后对一小段文本做简单推理，并计时。

4.2 动态量化（CPU）

# 仅对 Linear 层进行动态量化
# dtype=torch.qint8 指定 8-bit
model_int8 = torch.quantization.quantize_dynamic(
    model_fp32, 
    {torch.nn.Linear}, 
    dtype=torch.qint8
)

# 测试模型大小
# 注意：此方式只是测 Python 进程内存占用，不是最准确。
# 如果想看序列化后大小，可把模型保存后再看文件大小。
def get_size_of_model(model):
    torch.save(model.state_dict(), "temp.p")
    size_mb = round(os.path.getsize("temp.p")/(1024*1024), 2)
    os.remove('temp.p')
    return size_mb

import os
size_fp32 = get_size_of_model(model_fp32)
size_int8 = get_size_of_model(model_int8)

print("FP32 模型大小: {} MB".format(size_fp32))
print("INT8 模型大小: {} MB".format(size_int8))

这里我们使用 PyTorch 的 quantize_dynamic API 对模型中的所有 Linear 层自动插入量化逻辑，转换成 INT8 存储和运算。对于 GPT-2 这种大量全连接层（线性层）的 Transformer 结构，大部分权重可以被量化为 8-bit。

注意：在 CPU 上动态量化通常只对 Linear、LSTM 之类有效果，而像 LayerNorm、Softmax 等操作默认保持 FP32。

4.3 INT8 模型推理测试

# 再次进行推理，比较推理耗时
with torch.no_grad():
    start_time = time.time()
    output_int8 = model_int8(inputs)
    end_time = time.time()

print("INT8 推理时间: {:.4f} s".format(end_time - start_time))
print("输出 logits 大小:", output_int8.logits.shape)

# 简单比较输出相似度
logits_diff = torch.abs(output_fp32.logits - output_int8.logits)
print("FP32 与 INT8 logits 平均差异:", logits_diff.mean().item())

推理耗时：可能会因为硬件（CPU 类型、指令集支持）不同而有提速或相似甚至略变慢（在部分老旧 CPU 上 INT8 速度提升并不明显；在支持 VNNI/BF16 等新指令集的 CPU 上会有提升）。
模型精度：可以用差异来简单度量。若差异过大，说明量化损失较大；一般来说 GPT-2 在小样本测试时差异不会非常大，但也要看下游任务的评测指标。

五、更进一步：大模型的 8-bit / 4-bit GPU 量化示例

如果需要在GPU上部署 8-bit 或 4-bit 大模型（如 LLaMA2、BERT-Large、BLOOM 等），可以借助 bitsandbytes 或 GPTQ 等工具，或者使用 Transformers 集成的 8-bit/4-bit 加载功能。以下以 bitsandbytes 的 8-bit 为例简单演示：

pip install transformers accelerate bitsandbytes

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "meta-llama/Llama-2-7b-chat-hf"  # 仅做示例，需有相应的访问权限

tokenizer = AutoTokenizer.from_pretrained(model_name)

# 加载 8-bit 量化模型
model_8bit = AutoModelForCausalLM.from_pretrained(
    model_name, 
    load_in_8bit=True,            # 8-bit quantization
    device_map="auto"             # 根据可用 GPU 自动分配
)

# 进行推理
input_text = "How do I cook pasta?"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")

with torch.no_grad():
    outputs = model_8bit.generate(**inputs, max_new_tokens=50)

print("Generated:", tokenizer.decode(outputs[0], skip_special_tokens=True))

load_in_8bit=True 将权重加载为 8-bit（使用 bitsandbytes 的 bnb.nn.Int8Params）。
也可尝试 load_in_4bit=True（4-bit 量化）以进一步压缩，不过对硬件有更多要求（需要 GPU 算力架构支持，例如 Ampere 架构或以上），量化误差也更大。

六、总结

量化（Quantization） 是将 FP32 等高精度权重和激活映射到低精度（INT8/INT4 等）的过程，用于减少存储和加速推理。
常见量化策略包括后量化 (PTQ)、量化感知训练 (QAT)、动态量化等，每种方法对精度、易用性和硬件要求影响不同。
在大模型（GPT、BERT、LLAMA 等）中，量化技术尤为关键，可显著减少内存/显存占用，加快推理速度。
PyTorch 自带的动态量化可快速在 CPU 上进行 8-bit 部署；对于 GPU 或更激进的 4-bit 量化，通常需借助bitsandbytes、GPTQ、TensorRT 等工具。
量化后需要根据下游任务测试精度损失，若精度下降过大，可能需要更精细的量化方法或引入QAT 来弥补。