大模型量化

最新推荐文章于 2025-02-22 21:08:16 发布

asd8705

最新推荐文章于 2025-02-22 21:08:16 发布

阅读量5.1k

点赞数 22

文章标签：人工智能量化大模型

本文链接：https://blog.csdn.net/asd8705/article/details/145323466

版权

大模型量化是通过降低模型参数的精度来减少模型存储需求和计算复杂度的技术，同时尽量保持模型的性能。以下是目前常用的大模型量化手段：

1. 训练后量化（Post-Training Quantization, PTQ）

训练后量化是在模型训练完成后对权重和激活值进行量化的方法。它不需要重新训练模型，仅需少量校准数据来确定量化参数。PTQ分为以下两种：

动态量化（Dynamic Quantization）：仅量化权重，激活值在推理时动态量化。这种方法适用于权重参数量较大的模型（如LSTM、Transformer），优点是简单高效。
静态量化（Static Quantization）：权重和激活值均在推理前进行量化，需要校准数据来统计激活值的分布范围。

2. 量化感知训练（Quantization-Aware Training, QAT）

量化感知训练是在模型训练过程中加入伪量化算子，模拟量化操作。这种方法允许模型在训练阶段适应量化带来的精度损失，从而在量化后保持更高的性能。QAT适用于对模型精度要求较高的场景。

3. 量化感知微调（Quantization-Aware Fine-tuning, QAF）

量化感知微调是在模型微调阶段加入量化操作，确保模型在量化后仍能保持良好的性能。这种方法结合了量化和微调的优势，适用于需要在压缩和性能之间取得平衡的场景。

4. 权重和激活量化

权重量化：将模型的浮点数权重转换为低位宽的整数（如INT8），通过确定量化参数（如量化间隔和零点）来保持模型精度。
激活量化：对激活函数的输出进行量化，通常更复杂，因为激活值的动态范围较宽。

5. 特殊量化技术

BitNet：通过使用三元权重（-1, 0, 1）避免乘法操作，仅需进行加法计算，显著加速计算效率。
GPTQ：一种针对Transformer架构的量化方法，通过优化量化参数来减少精度损失。
LLM.int8：一种针对大模型的8-bit量化技术，通过向量量化和异常值分解来降低内存占用和计算开销。

6. 量化粒度

量化可以按不同的粒度进行，例如：

逐层量化：每层独立量化，适合权重分布差异较大的模型。
逐通道量化：对权重的每个通道分别量化，适用于卷积层。
全局量化：使用统一的量化参数对整个模型进行量化。

7. 量化工具和框架

PyTorch：提供了动态量化和静态量化工具，支持多种量化配置。
TensorRT：NVIDIA的深度学习推理优化器，支持INT8量化。
OpenVINO：Intel的推理优化工具，支持多种量化策略。

总结

大模型量化技术通过减少模型参数的精度，显著降低了模型的存储和计算需求，同时尽量保持模型性能。不同的量化方法（如PTQ、QAT、QAF）和量化粒度（如逐层、逐通道）可以根据具体需求选择，以实现模型的高效部署。

AWQ（Activation-aware Weight Quantization）和AutoAWQ是基于激活感知的权重量化技术，主要用于在不显著损失精度的情况下，将大型语言模型（LLM）的权重压缩到低比特（如4位），以加速推理并减少内存占用。以下是它们的原理和关键特点：

AWQ原理

激活感知量化
AWQ的核心在于通过分析激活值的分布来优化权重量化。它认为激活值的分布比权重本身的分布更能反映模型的关键信息。通过为每个权重子矩阵计算一个缩放因子（scale tensor），AWQ可以调整权重的量化范围，从而降低量化误差。
分组量化
权重被分组为多个子矩阵，每个子矩阵独立进行量化。这种分组策略充分利用了激活值的局部性，进一步提高了量化精度。
在线反量化
AWQ采用无重新排序的在线反量化方法，直接在量化后的权重上进行反量化，避免了额外的计算开销和内存占用。
保护显著权重
AWQ通过保留一小部分显著权重（如1%）不进行量化，从而在不进行任何训练的情况下弥补量化损失。

AWQ的Python实现

import torch
from torch import nn

@torch.no_grad()
def apply_clip(module, clip_list):
    for name, max_val in clip_list:
        layer: nn.Linear = get_op_by_name(module, name)
        layer.to(get_best_device())
        max_val = max_val.to(layer.weight.device)
        org_shape = layer.weight.shape
        layer.weight.data = layer.weight.data.reshape(*max_val.shape[:2], -1)
        layer.weight.data = torch.clamp(layer.weight.data, -max_val, max_val)
        layer.weight.data = layer.weight.data.reshape(org_shape)
        layer.cpu()

def pseudo_quantize_tensor(weight, w_bit=4):
    # 简化的量化函数
    scale = torch.max(torch.abs(weight)) / ((1 << (w_bit - 1)) - 1)
    zeros = torch.zeros_like(scale)
    quantized_weight = torch.round(weight / scale).to(torch.int8)
    return quantized_weight, scale, zeros

@torch.no_grad()
def apply_quant(module, named_linears, w_bit=4):
    for name, linear_layer in named_linears.items():
        linear_layer = linear_layer.to(get_best_device()).half()
        linear_layer.weight.data, scales, zeros = pseudo_quantize_tensor(linear_layer.weight.data, w_bit)
        q_linear_module = WQLinear.from_linear(
            linear=linear_layer,
            w_bit=w_bit,
            group_size=128,
            init_only=False,
            scales=scales,
            zeros=zeros,
        )
        set_op_by_name(module, name, q_linear_module)
        clear_memory()

# 示例：获取模块中的线性层
def get_op_by_name(module, name):
    for n, m in module.named_modules():
        if n == name:
            return m
    raise ValueError(f"Module {name} not found")

# 示例：设置模块中的线性层
def set_op_by_name(module, name, new_module):
    for n, m in module.named_modules():
        if n == name:
            parent = module
            parts = name.split('.')
            for part in parts[:-1]:
                parent = getattr(parent, part)
            setattr(parent, parts[-1], new_module)
            return
    raise ValueError(f"Module {name} not found")

# 清理内存
def clear_memory():
    torch.cuda.empty_cache()

AutoAWQ（Automatic Activation-aware Weight Quantization）是一种针对大型语言模型（LLM）的自动化权重量化工具，基于激活感知权重量化（AWQ）算法实现。其核心原理和工作流程如下：

核心原理

激活感知量化：AWQ算法通过分析激活值的分布来确定权重的量化参数，而不是直接对权重进行量化。这种方法可以更好地保留模型的关键信息，减少量化误差。
分组量化：将权重分组为多个子矩阵，每个子矩阵独立进行量化，充分利用激活值的局部性。
在线反量化：采用无重新排序的在线反量化方法，直接在量化后的权重上进行反量化，避免了额外的计算开销和内存占用。

工作流程

模型分析：分析模型的权重分布和激活值的统计信息，如均值、方差、最大值和最小值。
量化策略生成：根据分析结果，自动生成最优的量化策略，包括量化位宽、量化范围等。
量化执行：根据生成的策略，将模型的权重从浮点格式量化到4位整数格式。
校准与优化：通过校准步骤优化量化参数，进一步减少量化带来的精度损失。
验证与评估：对量化后的模型进行验证，确保其性能在可接受范围内。

特点与优势

自动化：无需手动配置，自动选择最佳量化策略。
高效性：相比FP16，推理速度提升3倍，内存占用减少3倍。
灵活性：支持多种量化配置选项，用户可根据需求调整。
兼容性：支持多种主流深度学习框架和模型，如PyTorch、TensorFlow、LLaMA、Vicuna等。

AutoAWQ通过其高效的量化技术，显著降低了模型的存储和计算成本，同时保持了较高的精度，特别适用于大规模语言模型的部署和推理。

llama.cpp

llama.cpp 是一个开源的 C++ 库，用于实现 LLaMA 等大语言模型的高效推理和部署。它支持多种量化手段，以减少模型的内存占用并提升推理速度。以下是 llama.cpp 中常用的量化方法和技术：

1. 权重量化

llama.cpp 的量化主要是权重量化，即将模型的浮点权重转换为低位整数（如 4 位、8 位等）。在推理过程中，这些量化权重会被反量化用于计算。

2. 多种量化类型

llama.cpp 支持多种量化类型，用户可以根据需求选择不同的量化方案。常见的量化类型包括：

Q2_K：2 位量化。
Q3_K_S、Q3_K_M、Q3_K_L：3 位量化，不同变种适用于不同的精度需求。
Q4_K_S、Q4_K_M：4 位量化，是常用的量化方案。
Q5_K_S、Q5_K_M：5 位量化。
Q6_K：6 位量化。
Q8_0：8 位量化。
F16：16 位浮点量化。

3. 量化工具

llama.cpp 提供了一个名为 quantize 的工具，用于对模型进行量化。使用该工具时，用户可以指定输入模型文件、输出模型文件和量化类型。例如：

bash复制

./quantize ./models/model-f16.gguf ./models/model-Q4_K_M.gguf Q4_K_M

上述命令将一个 16 位浮点模型量化为 4 位的 Q4_K_M 模型。

4. 混合量化

llama.cpp 支持在单一模型中混合使用不同的量化类型。例如，可以对嵌入权重使用一种量化类型，而对其他权重使用另一种量化类型。这种灵活性允许用户通过微调量化策略来优化模型的性能。

5. 自定义量化参数

如果默认的量化方案无法满足需求，用户可以引入自定义的量化尺度，例如通过 AWQ（Activation-aware Weight Quantization）计算的量化参数，或者使用校准数据生成“重要性矩阵”（importance matrix）来优化量化过程。

6. 量化后的性能评估

量化后的模型可以通过基准测试工具（如 batched-bench）进行性能评估。这些工具可以测量模型的推理速度、内存占用以及生成质量（如困惑度）。

总结

llama.cpp 提供了灵活且高效的量化手段，支持多种量化类型和自定义参数，能够显著减少模型的内存占用并提升推理速度。用户可以根据硬件资源和精度需求选择合适的量化方案。

在 llama.cpp 中，Q4_K_S 和 Q4_K_M 是两种不同的量化策略，主要区别在于它们对不同张量的量化方式以及对模型性能和推理速度的影响。以下是两者的具体区别：

1. 量化策略

Q4_K_S：
- 全张量量化：所有张量均使用 4 位量化。
- 简单量化：不区分不同张量的重要性，统一使用 4 位量化。
Q4_K_M：
- 混合量化：对部分关键张量（如 attention.wv 和 feed_forward.w2）使用更高精度的 6 位量化，其余张量使用 4 位量化。
- 优化策略：通过提升关键张量的量化精度，减少模型性能损失。

2. 性能和推理速度

Q4_K_S：
- 性能：由于所有张量均使用 4 位量化，模型的精度损失可能相对较大。
- 推理速度：推理速度较快，因为统一的量化方式减少了计算复杂度。
Q4_K_M：
- 性能：通过混合量化策略，模型的精度损失较小，通常在低精度量化中表现更好。
- 推理速度：推理速度可能略低于 Q4_K_S，因为混合量化增加了计算复杂度。

3. 适用场景

Q4_K_S：
- 适用于对推理速度要求较高，但可以接受一定精度损失的场景。
- 适合资源受限的环境，如边缘设备。
Q4_K_M：
- 适用于需要在精度和推理速度之间取得平衡的场景。
- 适合对模型性能要求较高的应用。

总结

Q4_K_S 是一种简单高效的量化方式，适合对速度要求较高的场景。
Q4_K_M 是一种优化的混合量化方式，适合对精度要求较高的场景。

在 llama.cpp 中，Q3_K_S、Q3_K_M 和 Q3_K_L 是三种不同的 3 位量化策略，主要用于在模型大小和推理性能之间取得平衡。以下是它们的区别：

1. 量化方式

Q3_K_S：使用 3 位量化，对所有张量采用相同的量化精度。
Q3_K_M：使用 3 位量化，但对关键张量（如 attention.wv、attention.wo 和 feed_forward.w2）采用更高精度的 4 位量化。
Q3_K_L：使用 3 位量化，对关键张量采用更高精度的 5 位量化。