深度学习模型压缩与加速：深度压缩技术-CSDN博客

本文链接：https://blog.csdn.net/m0_73916791/article/details/135087962

深度学习模型压缩与加速：深度压缩技术

引言

深度学习已广泛应用于移动应用和实时检测任务，例如在自动驾驶车辆中的行人检测。在这些应用中，对于推理速度和模型大小有着极高的要求。深度压缩（Deep Compression）技术旨在减小深度学习模型的大小并加速模型推理，特别适用于对延迟敏感的应用场景。下面我们将详细介绍深度压缩技术及其在实际硬件上的性能。

模型压缩与量化

深度压缩技术通过权重剪枝、量化等方法来减少模型参数的存储大小和计算量。以VGG-16的模型为例，通过深度压缩技术可以实现96%的权重剪枝。在AlexNet和VGG-16的全连接层中进行压缩可以看到显著的效果，因为它们占据了模型大小的大部分（超过90%）。

权重共享和量化的影响

量化是指将模型参数从32位浮点数转为较低比特宽度的整数来表示。AlexNet模型的不同量化策略下的准确率对比显示，采用8/5位量化后模型准确率没有损失，而更加硬件友好的8/4位量化导致了微小的准确率损失（0.01%）。更激进的4/2位量化则会导致约2%的准确率下降。

硬件基准测试

我们在不同的硬件平台上对深度压缩后的模型进行性能基准测试，涵盖了NVIDIA GeForce GTX Titan X、Intel Core i7 5930K（桌面级处理器）以及NVIDIA Tegra K1（移动处理器）。在GPU上使用cuBLAS和cuSPARSE库针对稠密和稀疏层实现高效计算，在CPU上使用MKL库进行同样的计算。