【神经网络压缩加速之剪枝一】Filter Pruning via Geometric Median for Deep Convolutional Neural Network Acceleration

Abstract

之前的研究工作都是基于"较小范数不重要"的准则上裁剪神经网络中具有较小范数的卷积核.在这篇论文中,我们分析了基于范数准则并指出该准则的有效性依赖于两个要求,但这两个要求很少同时得到满足.第一,卷积核的范数值分布偏差必须大,即方差大;第二,卷积核中的最小范数必须足够小. 为了解决在不满足上述两个要求的情况下也能压缩网络,本文提出了一个新颖的卷积核剪枝方法,称为基于几何中值的卷积核剪枝(Filter Pruning via Geometric Median, FPGM). 与之前研究不同的是, FPGM通过修剪冗余的卷积核而不是重要性相对较小的卷积核来压缩CNN模型.

When applied to two image classification benchmarks, our method validates its usefulness and strengths. Notably, on CIFAR-10, FPGM reduces more than 52% FLOPs on ResNet-110 with even 2.69% relative accuracy improvement. Moreover, on ILSVRC-2012, FPGM reduces more than 42% FLOPs on ResNet-101 without top-5 accuracy drop, which has advanced the state-of-the-art.

Code is publicly available on GitHub: https://github.com/he-y/filter-pruning-geometric-median


1. Introduction

本节主要分析Figure 1并提出FPGM理论.

根据“smaller-norm-less-important”理论,那些具有较小范数值的卷积核对网络的贡献也很小.因此之前工作都是原则一个阈值T,然后裁剪掉范数低于阈值T的卷积核,如Figure 1(a). 并且,这个理论需要同时满足两个条件才有作用,如Figure 1(b)所示. 第一,卷积核的范数分布很重要.只有当范数值分布范围大时才能有足够的搜索空间来选择合适的阈值T,进而很容易将具有较小范数的卷积核裁剪掉. 第二,裁剪掉的卷积核必须具有非常小的范数值,即接近于0.而不是相对于其他卷积核较小.

作者说基于他们的分析和实验观察,以上两个条件要求很难同时满足.

因此,本文提出具有几何中值的卷积核包含冗余信息(即能够被其它卷积核表示),因此裁剪掉这些卷积核不会对模型产生实质性的负面影响. FPGM方法将计算同一层卷积核的几何中值(GM). 根据GM的特点,靠近它的卷积核可以用剩余的卷积核表示.

因为FPGM不会利用基于“smaller-norm-less-important”理论标准来选择要修剪的卷积核,这意味着即使不满足以上标准的要求,使用FPGM裁剪网络也不会其性能降低.

本文主要贡献如下:

(1) We analyze the norm-based criterion utilized in previous works, which prunes the relatively less important filters. We elaborate on its two underlying requirements which lead to its limitations;

(2) We propose FPGM to prune the most replaceable filters containing redundant information, which can still achieve good performances when norm-based criterion fails;

(3) The extensive experiment on two benchmarks demonstrates the effectiveness and efficiency of FPGM.


3. Methodology

3.2. Analysis of Norm-based Criterion

和Introduction中的解释差不多,换汤不换药!!

3.3. Norm Statistics in Real Scenarios

这一节主要是通过实际实验来证明“smaller-norm-less-important”理论的两个要求很难同时满足(我觉得应该至少再加一个中间层展示). 如下Figure 3所示(为什么要使用log x-scale???):

回顾上边提到的两个要求:

        第一,范数分布必须大,与之相反便是范数分布集中在某个区间, 如上图(b), (c), (g);

        第二,范数的最小值必须足够小,与之相反范数的最小值并不接近零,如上图(g).


3.4. Filter Pruning via Geometric Median

待补充...


4. Experiments

4.5. Feature Map Visualization

没太看懂, 为什么裁剪掉的(7,23,27,46,56,58) 可以被剩余的(5,12,16,18,22,et al.)代替, 像吗???


Reference Paper: Filter Pruning via Geometric Median for Deep Convolutional Neural Networks Acceleration

 

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值