Paper:Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding
论文链接:https://arxiv.org/abs/1510.00149
ICLR 2016的best paper,通过剪枝、量化、哈夫曼编码三步混合来做模型压缩。
Introduction
整个算法流程主要为上图三部分:
1.剪枝:将部分很小的权值设为0,使权值矩阵转为一个稀疏矩阵。
2.量化:将剪枝后保留的权值进行量化,使剪枝后保留的权值共享使用的值,这样可以减小保存权值使用的空间,进一步压缩所需要的存储空间。
3.哈夫曼编码:霍夫曼编码是一种编码形式,进一步减小数据保存需要的存储空间。