剪枝系列3：Accelerate CNN via Recursive Bayesian Pruning

最新推荐文章于 2022-01-25 16:29:32 发布

不合时宜的漫步者

最新推荐文章于 2022-01-25 16:29:32 发布

阅读量511

点赞数

分类专栏：剪枝论文

本文链接：https://blog.csdn.net/linlb15/article/details/102827634

版权

剪枝论文专栏收录该内容

5 篇文章 1 订阅

订阅专栏

Accelerate CNN via Recursive Bayesian Pruning

用概率方法来剪枝，对层间的噪声用马科夫链建模，考虑了层与层之间的联系。数据驱动。

论文方法

$x$ 和 $y$ 分别代表数据和标签。 $x^l$ 代表第 $l$ 层的输入， $W^l$ 代表第 $l$ 层的参数， $g (*)$ 代表激活函数。则
$x^{l+1}=W^l*g(x^l)$
对剪枝建模，把剪枝看成是dropout noise $\theta$ 乘以每一个channel.
$x^{l+1}=W^l*(g(x^l) .* \theta ^l)\\\theta ^l_c \sim_q \mathcal{N}(1-r_c^l,r_c^l(1-r_c^l))$
$r$ 是dropout rate。这样的话，对于冗余通道，dropout rate接近1，他们会被剪掉因为他们的noise scaling接近0

记p是sparsity-inducing prior，q是estimator。
$q(\theta^l)=\int_{}^{}p(\theta^l | \theta^{l-1})q(\theta^{l-1})d\theta^{l-1}$
如果 $\theta^{l-1}$ 接近Dirac distribution，则
$q(\theta^l)\approx \int_{}^{}p(\theta^l|\theta^{l-1})\delta(\theta^{l-1})d\theta^{l-1}=p(\theta^l|\theta^{l-1}=E[\theta^{l-1}])$
这个近似成立，当高斯噪声 $\theta^{l-1}$ 有接近0或1的dropout rate。这是直观的，因为对于一个高度紧凑的模型，重要的通道的dropout rate $\approx 0$ 而对于要被剪掉的通道， $r\approx 1$ 。我们简单选取 $\mathcal{N}(0,\epsilon^2)$ 作为p，其中 $\epsilon$ 非常小。那么KL-divergence 等于
$D_{KL}(q(\theta^l)||p(\theta^l))=\sum_{c=1}^{C}D_{KL}(q(\theta^l_c)||p(\theta^l_c))=\sum_{c=1}^{C}-\frac{1}{2}log\frac{r^l_c(1-r^l_c)}{\epsilon^2}+\frac{1-r^l_c}{2\epsilon^2}-\frac{1}{2}$
表示网络对数据的契合程度。我们把dropout noise $\theta^l_c$ 采样为：
$\theta^l_c=1-r^l_c+\sqrt{r^l_c(1-r^l_c)}\cdot \mathcal{N}(0,1)$
对于第 $l$ 层，我们要最大化的目标函数是
$\mathcal{L}=\mathcal{L}_D-D_{KL}(q(\theta^l)||p(\theta^l))\\\mathcal{L}_D=\frac{|D|}{|B|}\sum_{(x,y)\in B}logP(y|x,W,r^l)$
$B$ 是batch的意思，代表一批数据。收敛后， $r^l$ 接近0或1， $\theta^l$ 大概服从Dirac分布。

这个性质导致 $q(\theta^l)\approx p(\theta^l|\theta^{l-1}=E[\theta^{l-1}])$ 。我们可以把 $\theta^l$ 固定为其期望，然后对 $\theta^{l+1}$ 进行Baysian inference。进一步， $E[\theta^l]=1-r^l$ 已经接近0或1，我们可以让 $r_c^ls$ 为1。
$r_c^l \leftarrow1, if \quad r^l_c > T\\W^l_c \leftarrow W^l_c \odot (1-r^l_c)$
T是阈值。注意 $\theta^l$ 可以被忽略掉了。

在这里插入图片描述

注意1,8,9,11对应（1）（6）（7）第一行（8）

实验结果

略

不合时宜的漫步者

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
剪枝系列3：Accelerate CNN via Recursive Bayesian Pruning

Accelerate CNN via Recursive Bayesian Pruning用概率方法来剪枝，对层间的噪声用马科夫链建模，考虑了层与层之间的联系。数据驱动。论文方法xxx和yyy分别代表数据和标签。xlx^lxl代表第lll层的输入，WlW^lWl代表第lll层的参数，g(∗)g(*)g(∗)代表激活函数。则xl+1=Wl∗g(xl)x^{l+1}=W^l*g(x^l)x...
复制链接

扫一扫