【Soft Weight-Sharing for Neural Network Compression】论文笔记

最新推荐文章于 2022-02-15 13:32:28 发布

地大大刘

最新推荐文章于 2022-02-15 13:32:28 发布

阅读量1.6k

点赞数

分类专栏：参数裁剪网络压缩论文笔记

本文链接：https://blog.csdn.net/liujianlin01/article/details/80671658

版权

网络压缩同时被 3 个专栏收录

17 篇文章 4 订阅

订阅专栏

论文笔记

16 篇文章 1 订阅

订阅专栏

参数裁剪

11 篇文章 3 订阅

订阅专栏

[ICLR’17]论文链接：https://arxiv.org/pdf/1702.04008.pdf
代码链接：https://github.com/KarenUllrich/Tutorial-SoftWeightSharingForNNCompression
这篇文章读的不是太懂，有问题的地方欢迎各位大佬指正。

主要思想：

首先根据MDL(minimum description length)原则将误差函数优化为Le和Lc两个部分：Le是error cost(the misfit between model and data)，Lc是complexity cost(the cost to describe the model)。
这里写图片描述
其中p(w)是W的先验概率而p(D|w)是模型的可能性。根据香农的信源编码定理，在已知输入X和模型W的情况下，Le代表了传输目标T所需的预期信息量下限。可能性项的功能形式主要由目标分布决定。

其中N(tn; xn; w)是一个正态分布。与Le类似，Lc是模型传输的下限。更具体地说，如果发送者和接收者先前达成一致，则LC是传送参数w的预期成本。
这里写图片描述
其中H表示熵。对于较小的σ值，每个变分分解的后验概率q(wi)都与一个能达到机器精度的Dirac分布相关联，例如，具有方差σ的高斯分布。

这项工作的主要目标是找到一个合适的方案去优化后验概率q(w)和先验概率p(w)之间的交叉熵，同时考虑一个实际的编码方案。交叉熵是编码神经网络权重所需的平均比特数的下限（给定无限精度），将先验概率p(w)模型化为高斯混合。
这里写图片描述
我们通过最大似然和网络权重同时学习混合参数μj，σj，πj。这种方法会鼓励量化，因为为了优化交叉熵，权重将紧密地聚集在cluster中，同时在Le的驱动下cluster会移动到最佳位置。
但是当损失没有足够的能力来保持它们分离时，混合成分会合并，因为权重被means吸引，means被权重吸引，因此means之间也相互吸引。这种方式下，网络的量化间隔是非常重要的。
通过强制设定一个固定μ0=0位置和π0接近于1的“零”分量，找到属于这个0分量同一个的component中的权重，最后将这一个component中的权重修剪掉，就可以达到期望的修剪率与修剪效果。在这种情况下π0可能是固定的或可训练的。
这里写图片描述
在LeNet-5-Caffe上的混合模型压缩程序图。左图：学习过程中，高斯混合模型的一个变化过程，y轴是高斯分布的中心值。最初有17个component （注意：初始化时只初始化了16个component，这里多的一个就是用来确定哪些参数趋近0的component），在学习过程中，各component被吸收到其他component中，最后产生大约6个重要component。右图：初始权重与最终权重的散点图。可以看到最初的权重分布大致是一个宽广的高斯分布，而最终的权重分布紧密地分布在6个component附近，具有良好的量化属性。
使用轻量级的权重分解和因式分解Dirac去重新训练预先训练好的神经网络。将误差函数优化为：
这里写图片描述
τ= 0.005。使用Adam优化梯度下降。
在预先训练好的权重范围内均匀分配16个非固定的component。方差的初始化，应使得每个高斯在其区域中具有较好的概率质量。
再训练完成后，将每个component中的权重设置为该component的均值，即量化权重。(emmm，感觉就是将K聚类换成了GMM聚类)
太相近的component之间，如果KL散度小于一定阈值，需要合并，这是合并的规则：
这里写图片描述
最后，存储时使用的是Song Han论文中的CSR格式（不懂见https://blog.csdn.net/liujianlin01/article/details/80591990）。

算法步骤：

主要分成2个部分：网络再训练和后期处理。
这里写图片描述

注意事项：

1）这篇文章的主要操作目标是权重参数，不是卷积核，在量化和修剪完之后有很多卷积核处于全0状态，是否也可以进行修剪？
2）论文中对于CSR的存储方式进行了改进，可以用霍夫曼编码对CSR存储矩阵进行进一步的压缩，同时对于IR和IC，因为存储的是索引和差值，所以数值并不大，可以考虑量化编码的方式进行优化。

地大大刘

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【Soft Weight-Sharing for Neural Network Compression】论文笔记

论文链接：https://arxiv.org/pdf/1702.04008.pdf这篇论文提出了一种新的量化和修剪权重参数的思路，用GMM进行量化和裁剪。
复制链接

扫一扫

专栏目录