大模型瘦身三剑客：蒸馏、量化、剪枝，如何让AI更轻快？—

本文链接：https://blog.csdn.net/guohuang/article/details/145479837

大模型就像一辆豪华跑车：性能强悍，但油耗高、停车难。

核心思想：让“小学生”模型（Student）模仿“大学教授”模型（Teacher）的智慧。

关键技巧：
- 软标签：老师不直接给答案（如“猫”），而是说“80%像猫，15%像豹，5%像狗”——传递知识细节。
- 温度缩放：加热（温度↑）让概率分布更平滑，冷却（温度↓）恢复为硬标签。
效果：模型体积↓50%，速度↑2倍，精度损失<1%（如DistilBERT）。
经典组合：BERT → TinyBERT，GPT → DistilGPT。

核心思想：将模型参数从“高清图”（FP32）压缩为“表情包”（INT8）。

两种姿势：
- 训练后量化（PTQ）：直接压缩训练好的模型（快，但可能掉精度）。
- 量化感知训练（QAT）：训练时模拟量化误差，让模型提前适应（精度更高）。
效果：模型体积↓75%，推理速度↑3倍（如TensorRT量化ResNet）。
硬件福利：GPU/手机芯片对低精度计算有专门加速指令！

核心思想：去掉模型中“不重要的头发”（冗余参数），只留关键部分。

技术	核心目标	优点	适用场景
蒸馏	传递知识	小模型也能高智商	对话、翻译等复杂任务
量化	降低数值精度	体积小、速度快	移动端、边缘设备部署
剪枝	移除冗余参数	计算量大幅减少	实时系统（如自动驾驶）