一文读懂模型的蒸馏与量化：小模型也能有大智慧！

IT程序媛-桃子

于 2025-04-12 16:41:16 发布

阅读量726

点赞数 27

分类专栏： ai 文章标签：深度学习人工智能机器学习 ai

本文链接：https://blog.csdn.net/HuaweiLab_Peach/article/details/147161516

版权

ai 专栏收录该内容

2 篇文章

订阅专栏

在大模型（LLM）横扫AI行业的今天，我们不可避免地面对两个问题：

模型太大，部署成本高？
模型推理太慢，无法落地边缘设备？

为了解决这些问题，“模型蒸馏”和“模型量化”成为两项非常关键的技术。本篇文章将以通俗易懂的方式，为你分享这两个技术的核心原理与实际落地方式。

🔬 一、什么是模型蒸馏？

1.1 模型蒸馏的直观理解

蒸馏是一种“知识迁移”方法：让一个性能强劲的“学霸大模型”把自己的“解题思路”传授给“学弟小模型”，从而使小模型拥有更接近大模型的表现。

换句话说：

Teacher（教师模型）：GPT-4、BERT-Large 等大模型
Student（学生模型）：TinyBERT、MobileBERT 等小模型

1.2 核心思路：不是告诉你答案，而是告诉你“怎么想”！

普通训练：告诉你“这张图是猫”（硬标签）蒸馏训练：告诉你“这张图像猫的概率是 80%，像狗的概率是 15%…”（软标签）

通过学习教师模型的“思考过程”（输出分布），学生模型能够更好地泛化和理解任务。

1.3 蒸馏训练流程

训练教师模型：先训好一个准确的大模型
生成软标签：用大模型对样本做预测，得到 softmax 概率分布
学生模型训练：用 KL 散度+交叉熵损失函数同时训练小模型
微调调优：进一步在目标任务上微调学生模型

1.4 PyTorch 示例代码片段

import torch
import torch.nn as nn
import torch.optim as optim

# teacher_model 已训练完成
temperature = 5
alpha = 0.7
criterion_hard = nn.CrossEntropyLoss()
criterion_soft = nn.KLDivLoss(reduction='batchmean')

for inputs, labels in dataloader:
    with torch.no_grad():
        teacher_logits = teacher_model(inputs)

    student_logits = student_model(inputs)
    loss_hard = criterion_hard(student_logits, labels)

    soft_teacher = torch.softmax(teacher_logits / temperature, dim=-1)
    soft_student = torch.log_softmax(student_logits / temperature, dim=-1)
    loss_soft = criterion_soft(soft_student, soft_teacher) * (temperature ** 2)

    total_loss = alpha * loss_soft + (1 - alpha) * loss_hard
    optimizer.zero_grad()
    total_loss.backward()
    optimizer.step()

🧪 二、什么是模型量化？

2.1 直观理解

模型量化的本质是“降低模型中参数的精度”：

从 32 位浮点数 → 变为 8 位整型（甚至更低）

好处是什么？模型“更小、更快、更省电”。

想象这样一件事：

原始模型记录：55.3kg、61.7kg、48.9kg 量化后记录：55kg、62kg、49kg

误差在 ±0.5kg 范围内，依然可以判断“胖瘦”。

2.2 量化的三大优势

📆 模型体积小：比如 500MB → 125MB
⚡ 推理速度快：INT8 推理速度通常是 FP32 的 2-4 倍
🌜 功耗低、可上手机端：节能 40%~60%

2.3 量化的实现步骤

确定范围：找出参数的最大值、最小值
映射区间：将浮点数映射到整型区间（如 0~255）
存储与还原：将整数保存为模型参数，推理时进行反向还原

2.4 常见量化方式

✅ 1. 后训练量化（Post-Training Quantization）

适合已训练好模型，5分钟完成。

model.eval()
model.qconfig = torch.quantization.default_qconfig
quantized_model = torch.quantization.prepare(model)
for data, _ in calibration_data:
    quantized_model(data.to('cpu'))
quantized_model = torch.quantization.convert(quantized_model)

优点：无需重新训练缺点：精度可能下降明显

✅ 2. QAT 量化感知训练（Quantization-Aware Training）

从训练阶段就开始插入“伪量化节点”，兼顾精度。

model.qconfig = torch.ao.quantization.get_default_qat_qconfig('fbgemm')
model = torch.ao.quantization.prepare_qat(model)
# 继续训练...
model = torch.ao.quantization.convert(model)

优点：更高精度，适合对结果敏感的场景缺点：训练时间更长

✅ 3. 混合精度量化（Mixed Precision）

比如重要模块（人脸识别部分）用 FP16，其他模块用 INT8，从而在不牺牲太多精度的前提下获得更好的性能与压缩比。

📊 总结对比：蒸馏 vs 量化

	模型蒸馏	模型量化
核心目的	降低模型复杂度	降低模型精度存储
效果	小模型表现更好	模型变小，推理更快
精度影响	可控，甚至提升	有轻微下降
应用场景	小模型训练、边缘部署	部署加速、手机端运行