《FPGM:Filter Pruning via Geometric Median for Deep Convolutional Neural Networks Acceleration》论文笔记

参考代码:filter-pruning-geometric-median

1. 概述

导读:在之前的网络剪枝文章中一般将网络filter的范数作为其重要性度量,范数值较小的代表的filter越不重要,将其从网络中裁剪掉,反之也就越重要。这篇文章分析了这一类型的网络剪枝算法,并指出这类方法并不是很高效,因为这一类的方法如果要较为成功的使用所依赖的两点并不是很容易满足

  • 1)filter的范数偏差应该比较大,这样重要和非重要的filter才可以很好区分开;
  • 2)不重要的filter的范数应该足够的小;

这篇文章提出了一种新的filter剪裁方法FPGM(Filter Pruning via Geometric Median),它使用层中filter的几何中心特性,由于那些靠近中心的filter可以被其它的表达,因而可以将其剔除,从而避免了上面提到的两点剪枝条件,从信息的冗余度出发,而不是选择范数少的进行剪枝。

文章的算法不从范数的角度进行filter的选择,这是因为基于范数的选择方法其前提条件在实际过程中是较难实现的,其期望的分布如下图所示:
在这里插入图片描述

上面这个分布的两个要点也是前文中叙述的两点。因而对比剪裁的结果,两种方法在相同的filter空间得到的剪裁结果也是不尽相同,见下图所示:
在这里插入图片描述

2. 方法设计

2.1 基于范数剪枝方法分析

在之前的内容中讲到了使用范数进行网络剪枝应该满足的条件:范数值范围应该较大并且小的范数应该趋近于0。但是在不满足上述条件的时候还按照范数进行剪枝那么就可能出现非期望的结果了。针对文章提出的理想情况下范数剪枝的范数值分布,文章做了如下图中的分析:
在这里插入图片描述

  • 1)范数的值范围较小,如上图a所示,这样的范数分布空间会使得剪枝阈值搜索的空间变小,从而造成网络剪枝的难度增加;
  • 2)最小范数值的漂移,如上图b所示,最小的范数值并不是趋近于0的存在,而是远大于0。这表明网络的参数都发挥着重要的作用,还在这个基础上剪枝那么就会对网络的性能带来影响了;

上面的两种情况是文章在理想的范数分布曲线基础上作出的假设,那么实际网络中的范数值分布是这样的吗?对此,文章分析了在CIFAR-10数据集上训练的ResNet-110与ILSVRC-2012数据集上训练的ResNet-18第一个卷积与最后一个卷积中范数值的分布,如下图所示:
在这里插入图片描述
从上图中很好证实了网络的范数分布确实存在文章中所说的两种非理想情况,这样的分布基础上还按照范数的剪枝机制进行剪裁其效果也是很难保证的。

2.2 基于几何中心的filter剪枝

针对基于范数剪枝方法暴露出的问题,文章提出了一种基于几何中心的剪枝方法,其中心思想就是几何中心。几何中心表示的是点 x x x距离 n n n个点 a ( 1 ) , a ( 2 ) , … , a ( n ) ∈ R d a^{(1)},a^{(2)},\dots,a^{(n)}\in R^d a(1),a(2),,a(n)Rd距离之和最小的位置:
x ∗ = arg min ⁡ x ∈ R d f ( x ) , f ( x ) = ∑ i = 1 n ∣ ∣ x − a ( i ) ∣ ∣ 2 x^{*}=\argmin_{x\in R^d}f(x),f(x)=\sum_{i=1}^n||x-a^{(i)}||_2 x=xRdargminf(x),f(x)=i=1n</

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值