大模型之大模型压缩（量化、剪枝、蒸馏、低秩分解），推理（vllm）

最新推荐文章于 2025-04-12 11:39:36 发布

大模型八哥

最新推荐文章于 2025-04-12 11:39:36 发布

阅读量2.1k

点赞数 36

文章标签：剪枝算法机器学习人工智能 agi ai 大模型

本文链接：https://blog.csdn.net/2401_86435672/article/details/142737928

版权

目录

前言

一、模型量化（quantization）

1. 量化概念

2. 模型量化优点

3. 什么情况下应该/不应该使用模型量化

4. 落地挑战

5. 量化方法

5.1 量化训练(Quant Aware Training, QAT)

原理

[伪量化节点（fake quant）](https://blog.csdn.net/qq_51175703/article/details/138320834?spm=1001.2014.3001.5502#伪量化节点（fake quant）)

5.2 动态离线量化(Post Training Quantization Dynamic, PTQ Dynamic)

5.3 静态离线量化(Post Training Quantization static, PTQ Static)

原理

KL散度校准举例

二、参数剪枝（pruning）

1. 剪枝概念

2. 剪枝算法分类

2.1 Unstructured Pruning(非结构化剪枝 )

2.2 Structured Pruning(结构化剪枝)

3. 剪枝算法流程

3.1 训练一个模型 ->对模型进行剪枝 -> 对剪枝后模型进行微调

3.2 在模型训练过程中进行剪枝 -> 对剪枝后模型进行微调

3.3 进行剪枝 -> 从头训练剪枝后模型

4. L1-norm剪枝算法

4.1 概念

4.2 算法步骤

三、知识蒸馏（knowledge distillation）

1. 概览

2. 知识类型

2.1 Resp