NS
机构
Tsinghua,Intel
【Pruning系列:二】Learning Efficient Convolutional Networks through Network Slimming|YOLOv3实践 |Pytorch 总结
motivation
训练中的剪枝
基于BN(Batch Normalization)层的广泛使用,在BN层加入channel-wise scaling factor 并对之加L1 regularizer使之稀疏,然后裁剪scaling factor值小的部分对应权重
-
用 BN 层的 y 来表示卷积核的重要程度,y 小对应卷积核重要性低
γ 非常小时,送入下一层的值就非常小,可以直接剪掉
-
虽然可以通过删减 γ 值接近零的channel,但是一般情况下, γ 值靠近0的channel还是属于少数
于是作者采用 L1 or smooth-L1 惩罚 γ ,来让 γ 值倾向于0
method
目标函数: