模型的参数和量化_模型的参数量化-CSDN博客

本文链接：https://blog.csdn.net/civiljiao/article/details/147042847

随着深度学习模型规模不断扩大，大型模型（如GPT、BERT等）的参数数量已经达到几十亿甚至上百亿级别。模型参数不仅代表了模型的学习容量，同时也直接决定了模型在训练和推理过程中对计算资源（特别是显存）的需求。本文将详细解析大模型参数量化的原理、方法。

一、模型参数的显存

大模型的参数规模通常用“B”表示，如7B表示70亿个参数，70B表示700亿个参数。参数数量越大，模型能够捕捉的模式和知识就越复杂，但同时也带来更高的显存需求。在深度学习中，参数通常以浮点数格式存储，不同的浮点数表示法对显存的占用有显著影响。常用的数据类型包括：

FP32：单精度浮点数，占32位，每个参数占用4字节；
FP16：半精度浮点数，占16位，每个参数占用2字节；
INT8：8位整数，占用1字节。

通常，显存的计算不仅要考虑模型参数本身，还需要存储激活值、梯度和优化器状态等。假设显存需求是模型参数存储量的2到3倍。例如，对于一个70B参数的模型，若使用FP32存储，参数本身占用显存为：

显存=70×10^9×4 bytes=280 GB

若训练时显存需求为参数存储量的3倍，则实际需要约840 GB的显存。而采用FP16则可以将显存需求降低至大约一半，即140 GB左右，再进一步采用INT8量化，则大幅降低至70 GB左右。

二、量化技术

量化技术是一种通过降低模型参数精度来减少存储需求和计算负荷的优化方法，其核心思想是将模型中的高精度浮点数（例如FP32）转换为低精度数值（例如FP16、INT8、甚至INT4）。量化不仅能够加速推理过程，还可以降低功耗，适用于资源受限的部署场景。

2.1 量化核心原理

量化主要分为三种类型：

训练后量化（PTQ）：在模型训练完成后，将模型参数从高精度浮点数转换为低精度数值。PTQ包括动态量化和静态量化。动态量化在推理时根据激活值范围动态计算，适合Transformer等架构；静态量化则需要预先校准激活值范围，通常精度更高但需要额外的校准数据。
量化感知训练（QAT）：在训练过程中插入伪量化节点，模拟量化带来的精度损失，从而使模型在训练时即能适应低精度计算，常用于对精度要求较高的场景，如医疗诊断等。
混合精度量化：结合低精度和高精度的优势，例如将权重使用INT8表示，而激活使用FP16表示，以在降低显存占用的同时保持较高的模型精度。

代表性方法包括GPTQ（主要用于GPU高吞吐推理）、AWQ（适合长文本生成场景）以及GGUF（针对CPU友好的量化方法），不同方法在压缩率和精度损失上有所差异。

2.2 量化效果对比

通过量化可以实现不同程度的压缩，如GPTQ方法可将模型压缩4倍，精度损失低于5%，而AWQ和GGUF方法在压缩率更高的同时可能会有8-20%的精度损失。开发者可以根据实际应用场景选择适合的量化方法：对于对精度要求极高的任务，可以选用动态量化或QAT；而在资源受限、推理速度要求较高的场景下，则可采用INT8或INT4量化方法。