这是篇2017年ICLR的会议,文章提出了一种基于泰勒展开的网络剪枝方法。文章认为,这里一类的剪枝方法一般分为三类:
- 一个已经训练好的网络
- 基于一定的准则在修剪和微调反复
- 适时地停止
所以,这个修剪的“准则”就十分的重要,文章列出了一些以往的准则:
- Minimun weight:训练时加入L1或L2正则化,并修剪权值小于某一阈值的权重
- Activation:修剪经激活层后与small activation value 相关联的权值
- Mutual iformation :互信息可以衡量两个量的相关程度,用互信息量衡量一个输出和权值之的关系并进行剪枝
然后,就是文章推出的Talor expansion:
- 取损失函数的一阶展开为损失函数.
从结果上来看,基于泰勒展开的剪枝方法好于前面提出的几种方法:
总结:
这篇文提出的想法本质上是对损失函数的“变型”,创新点没有太多可圈可点的地方。因为泰勒展开的万能性,使其用在哪都有一定的作用。但网络剪枝的criteria-based应该更加地深入。