AI模型太大怎么办？模型压缩四大方法了解一下

紫雾凌寒

已于 2025-03-24 22:13:23 修改

阅读量1.1k

点赞数 18

分类专栏： AI 炼金厂 # 自然语言处理（NPL） # 深度学习文章标签：深度学习自然语言处理模型压缩量化剪枝知识蒸馏低秩分解

于 2025-03-23 09:59:27 首次发布

本文为博主紫雾凌寒(https://bthvi-leiqi.blog.csdn.net/)所写，未经同意不得转载

本文链接：https://blog.csdn.net/u013132758/article/details/146451797

版权

AI 炼金厂同时被 3 个专栏收录

87 篇文章

订阅专栏

深度学习

50 篇文章

订阅专栏

自然语言处理（NPL）

32 篇文章

订阅专栏

一、模型压缩，为何如此重要？

在当今的人工智能领域，深度学习模型的规模和复杂性不断攀升。以 GPT-3 为例，它拥有高达 1750亿个参数，如此庞大的模型虽然展现出了强大的能力，但也带来了一系列问题。模型压缩，就是在不损害其有效性的情况下最小化机器学习模型大小的行为。它的重要性主要体现在以下几个方面：

减少存储空间：随着模型规模的持续膨胀，其占用的存储空间也与日俱增。以图像识别领域的 ResNet-152 模型为例，原始的模型参数存储需要占据大量的磁盘空间。通过模型压缩技术，如 参数剪枝，能够去除模型中不重要的连接或参数，从而显著减少模型的参数量，进而减小模型的体积，节省宝贵的存储空间。
降低计算成本：大型模型在进行推理和训练时，需要消耗海量的计算资源。像自然语言处理中的 BERT 模型，在推理过程中，由于其复杂的结构和大量的参数，需要高性能的计算设备和较长的计算时间。而模型压缩可以通过 量化技术，将模型的参数从高精度的数值表示转换为低精度的数值表示，减少计算量，提高计算效率，降低计算成本，使得模型能够在资源有限的设备上运行。
便于部署和应用：小体积的模型更容易部署到资源受限的设备上，如移动设备、嵌入式设备等。在智能安防领域，需要在摄像头等边缘设备上实时运行目标检测模型，如果模型体积过大，将无法满足设备的存储和计算要求。通过模型压缩，能够将模型部署到这些边缘设备上，实现实时的监控和预警，从而扩大了模型的应用范围，让人工智能技术能够更好地融入人们的日常生活。

二、模型压缩的核心方法

（一）量化：用更少比特存储模型权重

量化是一种模型压缩技术，其核心思想是将原本使用浮点数表示的模型参数转换为整数表示，以此来减少模型的存储空间需求并加速计算过程。在深度学习模型中，通常使用 32位浮点数（float32） 来表示权重和激活值，但这占用了较多的存储空间。而量化通过改变权重或激活的精度表示，将其转换为低精度表示，如 8位整数（int8），每个权重值占用的空间从 32 位减少到 8 位，不仅减少了模型的大小，也降低了计算所需的带宽和计算资源。

量化可根据不同的标准进行分类。根据映射函数是否是线性，可分为线性量化和非线性量化，目前线性量化应用更为广泛。在线性量化中，又根据参数 $Z$ （偏移量）是否为零分为对称量化和非对称量化。对称量化将输入浮点数据映射到 $[- 128, 127]$ 的范围内，非对称量化则将输入数据映射到 $[0, 255]$ 的范围内。根据量化的粒度，即共享量化参数的范围，还可分为逐层量化、逐组量化和逐通道量化。

以 PyTorch 框架为例，下面是一个简单的量化代码示例，展示了如何使用 torch.quantization 模块对模型进行量化：

import torch
import torch.nn as nn
import torch.quantization

# 定义一个简单的模型
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.fc1 = nn.Linear(784, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = x.view(-1, 784)
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x


# 初始化模型和数据
model = SimpleModel()
data = torch.randn(1, 1, 28, 28)

# 准备量化
model.qconfig = torch.quantization.get_default_qconfig('fbgemm')
torch.quantization.prepare(model, inplace=True)

# 模拟训练
for _ in range(5):
    output = model(data)
    loss = nn.functional.cross_entropy(output, torch.tensor([0]))
    loss.backward()

# 转换为量化模型
torch.quantization.convert(model, inplace=True)

# 进行推理
quantized_output = model(data)
print(quantized_output)

在这个示例中:

首先定义了一个简单的包含两个全连接层的模型。
然后，通过 torch.quantization.get_default_qconfig('fbgemm') 获取默认的量化配置，这里使用的是适用于 x86 平台的 fbgemm 后端。
接着，调用 torch.quantization.prepare(model, inplace=True) 准备量化，在这个阶段，模型中的一些层会被替换为支持量化的层。
之后，模拟了 5 次训练过程。
最后，通过 torch.quantization.convert(model, inplace=True) 将模型转换为量化模型，此时模型的权重和激活值将被量化，从而实现模型压缩和加速。

量化和剪枝

（二）剪枝：去除模型冗余部分

剪枝是通过移除神经网络中不必要或不太重要的权重、神经元或整个层，来减少模型参数数量，降低计算复杂度的一种模型压缩技术。在深度学习网络模型中，从卷积层到全连接层存在着大量冗余的参数，许多神经元的激活值趋近于 0，仅仅只有少部分（5 - 10%）权值参与着主要的计算，将这些冗余部分去除后，模型依然可以表现出相似的表达能力。

剪枝可以分为非结构化剪枝和结构化剪枝。非结构化剪枝是在单个权重级别上进行剪枝，去除模型中不重要的个别权重，例如将小于某个阈值的权重设为 0。结构化剪枝则是在更高的结构级别上进行剪枝，如剪掉整个神经元、卷积核、通道或层。

下面是一个使用 PyTorch 进行非结构化剪枝的代码示例：

import torch
import torch.nn.utils.prune as prune
import torch.nn as nn


# 定义一个简单的线性层
linear = nn.Linear(5, 3)

# 打印剪枝前的权重
print("Original weights:")
print(linear.weight)

# 按L1范数进行非结构化剪枝，剪掉50%的权重
prune.l1_unstructured(linear, name='weight', amount=0.5)

# 打印剪枝后的权重
print("Pruned weights:")
print(linear.weight)

# 打印掩码，掩码中值为0的位置表示被剪枝的权重
print("Weight mask:")
print(linear.weight_mask)

在这个示例中:

首先定义了一个线性层。
然后，使用prune.l1_unstructured 函数按 L1 范数对线性层的权重进行非结构化剪枝，amount=0.5 表示剪掉 50% 的权重。
剪枝后，打印出剪枝后的权重和权重掩码，权重掩码中值为 0 的位置表示对应的权重被剪枝。

（三）知识蒸馏：小模型向大模型学习

知识蒸馏是一种用于模型压缩和优化的技术，其核心思想是从一个复杂的较大的模型（教师模型）中提取知识，将这些知识转移到一个精简的小模型（学生模型）中。教师模型通常是参数量大、训练充分的复杂模型，其输出不仅包含预测结果，还隐含类别间的相似性信息；学生模型则是结构精简、参数较少的小型模型，通过匹配教师模型的 软目标（Soft Targets） 实现能力迁移。

下面是一个简单的知识蒸馏代码示例，使用 PyTorch 实现：

import torch
import torch.nn as nn
import torch.optim as optim


# 定义教师模型
class TeacherModel(nn.Module):
    def __init__(self):
        super(TeacherModel, self).__init__()
        self.fc1 = nn.Linear(784, 256)
        self.fc2 = nn.Linear(256, 128)
        self.fc3 = nn.Linear(128, 10)

    def forward(self, x):
        x = x.view(-1, 784)
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = self.fc3(x)
        return x


# 定义学生模型
class StudentModel(nn.Module):
    def __init__(self):
        super(StudentModel, self).__init__()
        self.fc1 = nn.Linear(784, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = x.view(-1, 784)
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x


# 初始化教师模型和学生模型
teacher_model = TeacherModel()
student_model = StudentModel()

# 定义损失函数和优化器
criterion = nn.KLDivLoss(reduction='batchmean')
optimizer = optim.Adam(student_model.parameters(), lr=0.001)

# 模拟数据
data = torch.randn(16, 1, 28, 28)
labels = torch.randint(0, 10, (16,))

# 教师模型预测
teacher_model.eval()
with torch.no_grad():
    teacher_outputs = teacher_model(data)

# 学生模型训练
student_model.train()
for epoch in range(10):
    student_outputs = student_model(data)
    loss = criterion(torch.log_softmax(student_outputs, dim=1),
                     torch.softmax(teacher_outputs / 2, dim=1))
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    print(f'Epoch {epoch + 1}, Loss: {loss.item():.4f}')

在这个示例中，首先定义了教师模型和学生模型，教师模型具有更多的层和参数。然后，定义了用于知识蒸馏的损失函数 KLDivLoss，它用于衡量学生模型输出的对数概率分布与教师模型输出的概率分布之间的差异。在训练过程中，先让教师模型进行预测，得到教师模型的输出。接着，学生模型进行训练，通过最小化损失函数，使学生模型的输出尽可能接近教师模型的输出，从而实现知识蒸馏。

知识蒸馏

（四）低秩分解：分解矩阵减少参数

低秩分解是通过将模型中具体执行计算的矩阵分解为低秩的子矩阵，从而减少模型参数的数量和计算复杂度。假设一个矩阵 $W$ 的秩较高，难以直接处理，将其表示为两个低秩矩阵 $A$ 和 $B$ 的乘积，即 $\approx A \times B$ ，其中 $A$ 和 $B$ 的秩远小于 $W$ 。

以 Transformer 模型中的注意力机制为例，其中的权重矩阵可以进行低秩分解。假设原始的权重矩阵 $\in \mathbb{R}^{m \times n}$ ，将其分解为 $\in \mathbb{R}^{m \times r}$ 和 $\in \mathbb{R}^{r \times n}$ ，且 $\ll \min(m, n)$ 。

在这里插入图片描述

三、模型压缩的应用领域

模型压缩技术突破了深度学习模型在存储和计算上的限制，广泛应用于多个领域。以下是其在关键场景中的应用概述。

（一）移动端应用

智能手机等移动设备资源有限，但用户对实时性要求高。模型压缩通过量化将参数从 32 位浮点数转为 8 位整数，显著减小体积和计算量。例如，MobileNet 在图像识别中实现秒级响应，提升用户体验并降低功耗。

（二）物联网设备

物联网设备（如智能摄像头）计算能力和存储空间受限。压缩后的模型通过剪枝减少参数量，可实时运行人体检测等任务。例如，智能家居摄像头能高效监控并延长电池寿命。

（三）在线模型服务系统

推荐和搜索系统需处理海量数据并保证低延迟。通过 低秩分解，模型参数量可减少 70%，提升响应速度。例如，电商平台能更快生成推荐结果，降低服务器成本。

（四）大模型压缩

大语言模型（如 GPT-3）参数量巨大。通过 知识蒸馏，可将知识迁移至小型模型，参数量减至 40%，适用于边缘设备，扩展应用范围。

（五）自动驾驶

自动驾驶对实时性要求极高。通过量化和剪枝，模型能在车载设备上快速运行目标检测任务，确保安全。例如，YOLOv5 压缩后满足毫秒级推理需求。

（六）工业智能化

工业边缘设备需运行预测性维护模型。通过 低秩分解，压缩模型可部署到传感器上，实时检测缺陷，提升生产效率。

四、模型压缩面临的挑战

尽管模型压缩技术有显著进展，但实际应用仍面临诸多挑战。

在精度与性能平衡上，模型压缩会造成精度损失，如何在减小模型大小和计算复杂度时最大程度维持模型准确性与泛化能力是关键挑战。如在图像分类中，量化、剪枝后的模型会出现识别错误或理解能力下降问题，找到两者最佳平衡点是研究重要课题。
模型压缩效果稳定性也是问题，不同数据集和模型结构对压缩效果影响显著。在自然语言处理里，针对 RNN 的压缩方法不适用于 Transformer 架构模型，且在不同语料库上性能波动大，需针对不同情况调整优化。
模型压缩算法复杂性高，很多算法需大量计算资源和时间。大规模深度学习模型压缩时，剪枝算法涉及大量矩阵运算，知识蒸馏训练教师和学生模型也消耗巨大，这增加成本并限制其在特定场景应用，优化改进算法是技术发展关键。