模型压缩与优化策略全解（蒸馏 / 剪枝 / 量化 / TensorRT）

Yoan AI Lab

于 2025-05-09 15:26:14 发布

阅读量905

点赞数 25

文章标签：剪枝算法机器学习

本文链接：https://blog.csdn.net/qq_36633599/article/details/147828724

版权

本文全面解析大模型优化技术，包括模型压缩（蒸馏、剪枝、量化）与推理加速（TensorRT）、输出控制（解码策略），结合类比说明 + 实战流程，适合部署工程师与模型训练者参考。

类比：不改房子的结构，换一种开门方式，比如顺序更优、温度更舒适。

定义：控制文本生成的风格、随机性与多样性，不改变模型结构，仅是推理阶段的参数调节。

output = model.generate(
    input_ids,
    do_sample=True,
    top_k=50,
    top_p=0.95,
    temperature=0.7
)

✅ 无需重新训练 / 不改模型结构 / 无需修改权重文件

类比：砖块不变，但将施工方式（推理执行图）重新打磨和拼装，提升效率。

torch.onnx.export(model, dummy_input, "model.onnx")

trtexec --onnx=model.onnx --saveEngine=model.trt

✅ 无需改结构 / 无需重新训练 / 仅影响部署文件（ONNX / TensorRT engine）

类比：让“小学生”模仿“大学生”，构建更小的模型结构，显著压缩模型体积。

训练一个小模型（student），模仿大模型（teacher）的输出（logits/attention），而不是单纯靠标签。

# 计算 student 和 teacher 的输出 KL 散度
loss = nn.KLDivLoss()(logits_student, logits_teacher)

类比：在不动房型结构的情况下，拆掉一些无用的墙体或电线，减轻负担但不改格局。

通过 L1/L2 权重裁剪、重要性评分等方法，去除模型中“影响小”的连接。

from torch.nn.utils import prune
prune.l1_unstructured(layer, name='weight', amount=0.3)

✅ 无需改模型结构（仍是 GPT2-12 层）
✅ 建议剪后微调
✅ 适合边缘部署 / 显存优化 / latency 优化

类比：把砖头换成泡沫，重量变轻但结构不变。

quant_model = torch.quantization.quantize_dynamic(
    model, {nn.Linear}, dtype=torch.qint8
)

✅ 静态/感知量化建议重新训练
✅ 部署格式常用 ONNX + INT8 engine
❌ 不改模型结构（仅精度变化）

技术	是否需训练	是否改结构	修改范围	优势
解码策略优化	否	否	无	提升生成效果，多样性可控
TensorRT	否	否	ONNX / engine 文件	推理速度提升，部署简便
蒸馏	是	是	权重 + 配置 + 架构	大幅减小模型体积，精度相对保持
剪枝	是	否	仅权重（.bin）	显存占用减少，推理更快
量化	否/是	否	推理模型结构/权重	推理速度加快，模型更小，适合部署