DEEP COMPRESSION: COMPRESSING DEEP NEURAL NETWORKS WITH PRUNING, TRAINED QUANTIZATION AND HUFFMAN CODING: 深度压缩:用剪枝、训练量化和霍夫曼编码压缩深度神经网络
- 第一篇
- ABSTRACT
- 1 INTRODUCTION
- 2 NETWORK PRUNING(网络剪枝----这部分暂时不看!!!)
- 3 TRAINED QUANTIZATION AND WEIGHT SHARING(训练有素的量化和权重重共享)
- 4 HUFFMAN CODING(霍夫曼编码)
- 5 EXPERIMENTS
- 6 DISCUSSIONS
- 第二篇:COMPRESSING DEEP CONVOLUTIONAL NETWORKS using VECTOR QUANTIZATION
- ABSTRACT
- 1 INTRODUCTION
- 2 RELATED WORK
- 3 COMPRESS DENSE CONNECTED LAYERS(压缩密集的连接层)
- 4 EXPERIMENTS
- 6 DISCUSSION
第一篇
ABSTRACT
神经网络具有计算密集型和内存密集型,这使得它们很难部署在硬件资源有限的嵌入式系统上。为了解决这一限制,我们引入了“深度压缩”,这是一个三个阶段的管道:剪枝、训练量化和霍夫曼编码,它们在不影响其准确性的情况下,将神经网络的存储需求减少35×到49×。我们的方法首先通过只学习重要的连接来修剪网络。接下来,我们量化权重以强制权重共享,最后,我们应用霍夫曼编码。在前两步之后,我们重新训练网络,以微调剩余的连接和量化的质心。修剪,将连接数减少9×到13×;然后量化将代表每个连接的比特数从32个减少到5个。在ImageNet数据集上,我们的方法将AlexNet所需的存储空间减少了35×,从240MB减少到6.9MB,而不损失准确性。我们的方法将VGG-16的大小减少了49个×,从552MB减少到11.3MB,同样没有损失准确性。这允许将模型拟合到芯片上的SRAM缓存中,而不是芯片外的DRAM内存中。我们的压缩方法还促进了在应用程序大小和下载带宽有限的移动应用程序中使用复杂的神经网络。以CPU、GPU和移动GPU为基