Rethinking the Smaller-Norm-Less-Informative Assumption in Channel Pruning of Convolution Layers简记

椰子奶糖

于 2022-05-02 20:51:54 发布

阅读量320

点赞数

分类专栏： # 论文阅读杂记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/symuamua/article/details/124545237

版权

剪枝深度学习 cnn

论文阅读杂记专栏收录该内容

51 篇文章 1 订阅

订阅专栏

Rethinking the Smaller-Norm-Less-Informative Assumption in Channel Pruning of Convolution Layers简记

文章目录

- - Rethinking the Smaller-Norm-Less-Informative Assumption in Channel Pruning of Convolution Layers简记

参考

简记

摘自参考1:
- 作者主要的思想是：把 CNN 视为一个网络流，通过不同层的不同通道将信息从输入传递到输出，而非把 CNN 的计算当作不同层的单独计算的集合。作者认为CNN 的算力减少不仅要减少在单个层中计算的内容，更重要的是探索计算图中的每个通道如何对信息流做出的贡献，同时删除那些贡献较少的通道。
上面的这段话来自章节4.1介绍ISTA之前的比喻，我觉得还是比较形象的。

基本流程

Importance Score的选择 $\gamma$

本文采用对BN做评价，一个CBR（conv bn relu）组合的表示为：
分为以下两种情况：
- 当Conv后没有BN，表示为
  - 那他的偏差b应当被重写为（当 $\gamma=0$ ，的时候将 $\beta$ 和权重和吸收到偏置中）：
  - 这里的sum_reduced表示：
  - 原有卷积可以近似成：
  - 其中 $*\gamma$ 也表示卷积，只不过 $\gamma$ 非0，这么做我想是为了和有BN的情况对应
- 当Conv后面有BN，表示为
  - 此时我们需要更新BN里面的均值（当 $\gamma=0$ ，的时候将 $\beta$ 和权重和吸收到均值中）
  - 于是原有的卷积可以近似成
理解：个人感觉其实是利用了BN中的 $\gamma$ 参数（我的意思是这个 $\gamma$ 本身就是存在于BN中的可学习参数），然后利用某些方法去正则化 $\gamma$ ，而上面的没有BN的卷积只是为了统一情况。
而在第三方的Torch实现中，是类似learning Efficient Convolutional Networks through Network Slimming那样先正常反向传播，然后再更新BN层的参数，只不过更新参数的方式有所区别，所以感觉这两篇论文在思想上有些相似～

更新方式——ISTA

更新公式为：
- 其中 $γl_t$ 是导数，从一个mini-batch中估计出来的， $\mu_t$ 是学习率， $\lambda$ 是惩罚力度
- 然后它可以近似为：

Scaling effect

假设 $\gamma 和 W$ 以特定的倍数放缩，可以保证输出不变，但是这种放缩可以控制参数反向传播的速度（整体值越大反向传播的速度越快，反之越慢）

算法流程

算法按照以下流程执行：

1、计算惩罚力度 $\lambda$ ，这个在代码中是每个epoch都会更新一次

2、 $\gamma-W$ 放缩，用以控制参数更新速度

3、train，并在正常反向传播之后再对BN进行一次ISTA参数更新

4、Prune

5、后处理，移除const channel

6、 $\gamma-W$ 放缩回来，恢复原状

7、fine-tune
超参数设置：

1、 $\mu$ ，学习率

2、 $ρ,即\lambda$ ，惩罚力度

3、 $\alpha$ ，参数放缩倍数

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Rethinking the Smaller-Norm-Less-Informative Assumption in Channel Pruning of Convolution Layers简记

Rethinking the Smaller-Norm-Less-Informative Assumption in Channel Pruning of Convolution Layers简记文章目录Rethinking the Smaller-Norm-Less-Informative Assumption in Channel Pruning of Convolution Layers简记参考简记基本流程Importance Score的选择 γ\gammaγ更新方式——ISTAScaling e
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

椰子奶糖 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。