【深度学习·命运-67】量化剪枝-CSDN博客

本文链接：https://blog.csdn.net/m0_69378371/article/details/144407521

量化（Quantization） 和 剪枝（Pruning） 是两种常用的深度学习模型压缩和加速技术。它们旨在通过减少模型的计算复杂度和内存占用，从而提高模型在资源受限设备（如移动设备、嵌入式系统等）上的部署效率。两者有不同的工作原理和优势，但通常可以结合使用以达到更好的压缩效果。

量化是将浮点数表示的模型参数和激活值（通常是32位浮点数）转换为低精度表示（如8位整数）的过程。通过量化，可以显著减少模型的存储需求，并加速推理过程，特别是在硬件支持低精度计算的情况下，如在许多现代处理器和硬件加速器（如TPU、GPU等）上，低精度计算可以大幅提高效率。

权重量化：将模型的权重（通常是浮点数）转换为低精度的整数表示（如8位整数）。例如，将32位浮点数的权重值量化到8位或16位整数。
激活量化：将每次计算过程中产生的激活值也进行量化。激活值的量化通常会导致模型性能的轻微下降，但可以显著提高推理速度和降低内存消耗。
对称量化与非对称量化：
- 对称量化：量化时使用相同的量化范围，通常是通过将所有权重映射到一个对称的区间内（例如，-127到127）。
- 非对称量化：使用不同的量化范围，例如，在正负数之间分别使用不同的区间。
动态量化：在推理时动态地进行量化，例如只在推理阶段将模型转换为低精度表示，而训练阶段使用浮点数。
量化感知训练（QAT, Quantization-Aware Training）：在训练过程中，考虑量化的影响，模拟低精度计算，以便使模型更好地适应量化后的精度损失。QAT 方法比静态量化方法能更好地保持模型精度。

剪枝是一种通过移除神经网络中的不重要参数（如权重、神经元、层等）来减少模型规模和计算量的技术。剪枝的目标是提高模型的效率，减少冗余计算，同时尽量保持模型的性能。

权重剪枝（Weight Pruning）：
- 通过评估每个权重的重要性，移除那些重要性低的权重（如较小的绝对值的权重）。
- 通常通过训练后对权重进行排序，选择小于某个阈值的权重进行剪枝。剩余的权重可以重新训练，恢复一些性能。
神经元剪枝（Neuron Pruning）：
- 不仅剪除单个权重，还可以剪除整个神经元或通道。剪去不重要的神经元或层，从而减少计算量。
- 可以通过评估神经元激活的稀疏性、梯度信息或其他指标来确定哪些神经元可以剪枝。
层剪枝（Layer Pruning）：
- 在某些情况下，可以剪去整个神经网络中的某些层，减少模型的深度或宽度。
结构化剪枝：
- 结构化剪枝是指按层、通道或卷积核等结构进行剪枝，使得剪枝后模型更适合硬件加速和推理。
非结构化剪枝：
- 非结构化剪枝是指随机剪枝模型中的个别权重，这种剪枝方式不会改变网络的结构，而是对个别连接进行操作。
动态剪枝与静态剪枝：
- 动态剪枝：在模型推理时动态地进行剪枝，根据输入数据的不同情况进行适应性剪枝。
- 静态剪枝：在训练完成后，通过分析整个网络模型来剪枝，并在推理过程中使用固定的剪枝结构。