这篇是韩松大神的代表作,是ICLR2016年的best paper,值得好好读一下。
其实这篇论文本质上是《Learning both Weights and Connections for Efficient Neural Networks》的极致扩展,是在这篇论文基础上继续压缩模型,建议先看下该篇论文的讲解。
Introduction
论文首先从存储大小和能量消耗的角度表明现有大模型的缺点,然后引出论文的目标:降低网络模型的存储和能量消耗使得这些模型能更好地部署到移动端。所以论文提出了Deep Compression,包括三个步骤,如下图:
首先,对网络进行剪枝并且保留剪枝前的精度;然后,对权重进行量化,使得多个连接能共享同一个权重,从而可以使用更加有效的存储方式;最后,使用霍夫曼编码(Huffman coding)压缩权重。
网络剪枝
这里的网络剪枝是完全按照《Learning both Weights and Connections for Efficient Neural Networks》这篇论文进行的,所以就不详述方法了。通过剪枝,可以分别减少AlexNet和VGG-16网络的9X和13X的参数。
剪枝后的网络是稀疏结构,所以需要特殊的存储方式,文中使用的是compressed sparse row(CSR)或compressed sparese column(CSC)方式,只需要2a+n+