DEEP COMPRESSION: COMPRESSING DEEP NEURAL NETWORKSWITH PRUNINGTRAINED QUANTIZATION ANDHUFFMANCODING

土豆娃potato

已于 2022-05-11 10:46:37 修改

阅读量428

点赞数 1

CC 4.0 BY-SA版权

分类专栏：模型量化论文文章标签：量化论文

于 2022-05-11 09:05:43 首次发布

本文链接：https://blog.csdn.net/m0_49234921/article/details/124700545

模型量化论文专栏收录该内容

23 篇文章 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了深度压缩方法，针对神经网络的存储需求，通过剪枝、训练量化和霍夫曼编码实现高达49倍的压缩率，而不影响准确性。首先，网络剪枝通过删除小权重的连接减少参数数量；然后，通过量化和权重共享进一步压缩，使用k-means聚类确定共享权重，并在前向传播和反向传播中更新；最后，应用霍夫曼编码优化存储效率。实验在AlexNet和VGG-16模型上展示了压缩效果，允许模型存储在芯片的SRAM中，降低能耗，适用于移动设备的深度学习应用。

DEEP COMPRESSION: COMPRESSING DEEP NEURAL NETWORKS WITH PRUNING, TRAINED QUANTIZATION AND HUFFMAN CODING: 深度压缩：用剪枝、训练量化和霍夫曼编码压缩深度神经网络

第一篇
ABSTRACT
1 INTRODUCTION
2 NETWORK PRUNING（网络剪枝----这部分暂时不看！！！）
3 TRAINED QUANTIZATION AND WEIGHT SHARING（训练有素的量化和权重重共享）
- 3.1 WEIGHT Sharing
- 3.2 INITIALIZATION OF SHARED WEIGHTS(初始化权重)
- 3.3 FEED-FORWARD AND BACK-PROPAGATION（前向传播和反向传播）
4 HUFFMAN CODING（霍夫曼编码）
5 EXPERIMENTS
- 5.1 LENET-300-100 AND LENET-5 ON MNIST
- 5.2 Alexnet ON IMAGENET
- 5.3 VGG-16 ON IMAGENET
6 DISCUSSIONS
- 6.1 PRUNING AND QUANTIZATION WORKING TOGETHER（修剪和量化一起工作）
第二篇：COMPRESSING DEEP CONVOLUTIONAL NETWORKS using VECTOR QUANTIZATION
ABSTRACT
1 INTRODUCTION
2 RELATED WORK
3 COMPRESS DENSE CONNECTED LAYERS(压缩密集的连接层)
- 3.1 MATRIX FACTORIZATION METHODS(matrix factorization methods矩阵分解方法)
- 3.2 VECTOR QUANTIZATION METHODS（向量量化方法）
4 EXPERIMENTS
- 4.1 EXPERIMENTAL setting
- 4.2 ANALYSIS OF PRODUCT QUANTIZATION
6 DISCUSSION

第一篇

ABSTRACT

神经网络具有计算密集型和内存密集型，这使得它们很难部署在硬件资源有限的嵌入式系统上。为了解决这一限制，我们引入了“深度压缩”，这是一个三个阶段的管道：剪枝、训练量化和霍夫曼编码，它们在不影响其准确性的情况下，将神经网络的存储需求减少35×到49×。我们的方法首先通过只学习重要的连接来修剪网络。接下来，我们量化权重以强制权重共享，最后，我们应用霍夫曼编码。在前两步之后，我们重新训练网络，以微调剩余的连接和量化的质心。修剪，将连接数减少9×到13×；然后量化将代表每个连接的比特数从32个减少到5个。在ImageNet数据集上，我们的方法将AlexNet所需的存储空间减少了35×，从240MB减少到6.9MB，而不损失准确性。我们的方法将VGG-16的大小减少了49个×，从552MB减少到11.3MB，同样没有损失准确性。这允许将模型拟合到芯片上的SRAM缓存中，而不是芯片外的DRAM内存中。我们的压缩方法还促进了在应用程序大小和下载带宽有限的移动应用程序中使用复杂的神经网络。以CPU、GPU和移动GPU为基准，压缩网络有3×到4×的分层加速和3×到7×的更好的能效。