【文献阅读/翻译...】bayesian compression for deep learning深度学习中的贝叶斯压缩

最新推荐文章于 2024-05-07 11:31:54 发布

pearl30

最新推荐文章于 2024-05-07 11:31:54 发布

阅读量2.7k

点赞数 1

分类专栏： bayesian 文章标签： sparsity 深度学习 VB估计

本文链接：https://blog.csdn.net/pearl30/article/details/75136900

版权

bayesian 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Max Welling团队2017年5月发布在arXiv sta.ML。

[abstract]考虑深度学习中的压缩和计算效率问题。采用以bayesian的视角，通过先验分布引入稀疏性，进而对网络进行剪枝。（这确实是最principled的方式，真的是effective的方式吗？）文章的两个新颖之处在于，使用的层次先验最后剪枝的是节点（结构），而非单个权重（参数）；使用后验不确定性确定最优的固定点准确率来编码权重。
从压缩率来看达到最新水平，与那些专门设计的优化速度/能源效率的模型水平差不多。

[key points]为网络权重参数w设置0均值高斯先验，讨论了高斯先验的scale的两种先验分布。变分贝叶斯估计，全贝叶斯学习。目的是让网络的各层的（有效）size减小。

背景：深度神经网络模型压缩

深度学习的复杂的网络在实际应用中意味着计算、带宽的巨大消耗，以及延时。

Alexnet的卷积层占4%的参数，91%的计算量。

现有方法大多数是减少网络结构，同时减少每个权重的有效的固定点precision（？）。
减少网络结构。NN有很严重的参数冗余。网络剪枝减掉不必要的连接。用一个大网络来训练一个小网络。

从bayesian视角看，网络剪枝与减小权重的bit precision 是aligned。bayesian方法搜索最优的模型结构（先验稀疏性剪枝），同时通过 bit back argument 奖励参数的不确定性后验移除不重要的bit。

变分bayes， MDL

$N$ 个输入-输出数据点构成的数据集 $D=\{(x_1,y_1),...,(x_n,y_n)\}$ , 考虑一个参数模型 $p(D|w)=\prod_{i=1}^N p(y_i|x_i,w)$ , 参数是 $w$ 其先验分布 $p(w)$ 。
后验分布 $p(w|D)=p(D|w)p(w)/p(D)$ 是intractable，我们用一个固定形式的近似后验 $q_{\phi}(w)$ , $\phi$ 是变分参数。
数据拟合误差error cost $L^E=E_{q_\phi(w)}\left[ \log p(D|w)\right]$
模型复杂度cost $L^C=E_{q_\phi(w)}\left[ \log p(w)\right]+H(q_\phi(w))$
evidence下界ELBO/正变分自由能量 $L(\phi)=L^E+L^C$ 表示出了通讯的最小代价。

一种方法，为权重引入先验得到稀疏性。

另一种方法，

通过 $q_{\phi}(w) 噪声权重编码，利用熵H项的bits-back argument.$

无限准确权重 $H(\delta (w))=-\inf$

实践中噪声权重编码的神经网络的数据拟合误差项是intractable的，常采用蒙特卡洛积分。连续的 $q_\phi(w)$ 可以使用reparametrization技巧，不是从 $q_\phi(w)$ 中采样，而是通过噪声变量 $\epsilon$ 和变分参数 $\phi$ 的确定函数采样。 $L^E=E_{p(\epsilon)}\left[ \log p(D| f(\phi,\epsilon) )\right]$

高斯分布的比例混合，bayes压缩

scale-mixtures of normals分布族： $z\sim p(z); w\sim N(w; 0,z^2)$
$z$ 是参数 $w$ 的先验分布的scale。

将z看做随机变量，得到w的边界先验分布（积分掉z后的w的(相对于数据D来说是)先验的分布）有（相对于把z看做固定值？更）长尾，且更聚集在0点。随后w的后验分布就会偏向稀疏。

这是一种比较通用的分布族，许多能导致稀疏性的分布都是它的特例。

spike&slab分布 p(w)是伯努利分布。dropout（2012,2014）神经网络种受欢迎的正则技巧。
Laplace分布 $p(z^2)=exp(\lambda)$ 。laplace先验的后验分布的mode是Lasso估计。有被用到稀疏化神经网络（2016）。易压榨大信号，只提供点估计，没有保留不确定性，overfit，不足够compression。
不含超参数的 log-uniform先验，half-cauchy先验得到horseshoe分布，spike$slab先验的连续松弛。

对数一致先验

$p(z) \propto \frac{1}{|z|}$ , $w \sim N(0,z^2)$

得到对数一致先验/normal-Jeffreys先验 $p(w) \propto \frac{1}{|w|}$
联合分布 $p(w,z) \propto \prod_i^A \frac{1}{|z_i|}\prod_{i,j}^{A,B}N(w_{ij}|0,z_i^2)$ 一层网络，输入A维, 输出B维
变分估计 $q_{\phi}(w,z)=\prod_i^A N(z_i|\mu_{z_i},\mu_{z_i}^2\alpha_i)\prod_{i,j}^{A,B}N(w_{ij}|z_i\mu_{ij},z_i^2\sigma_{ij}^2)$ ，其中变分参数 $\phi=(\mu_{z_i},\alpha_i,\mu_{ij},\sigma_{ij}^2)$ ，第i个输入维参数组的dropout率 $\alpha_i$
….
$\hat{W}=...$