文章目录
- 题目:Exploiting Weight-Level Sparsity in Channel Pruning with Low-Rank Approximation
- 时间:2019
- 会议:ISCAS
- 研究机构:中国科学技术大学
1 缩写 & 引用
2 abstract & introduction
- 题目:Deep Neural Network Acceleration Based on Low-Rank Approximated Channel Pruning
- 时间:2020
- 期刊:TCAS-1
- 研究机构:中国科学技术大学
1 缩写 & 引用
- LAP: Low-rank Approximated channel Pruning低阶近似减枝
- IDC: Integral of Decay Curve衰减曲线积分
- SVD: singular value decomposition奇异数分解
Exploiting Weight-Level Sparsity in Channel Pruning with Low-Rank Approximation 2019 ISCAS
Exploiting linear structure within convolutional networks for efficient evaluation 2014 NIPS
2 abstract & introduction
本篇论文的主要贡献:
- 提出了一个减枝方法:低阶近似通道剪枝 可以保持网络结构的规则
- 低阶近似时提出了基于范式的indicator
- 提出了一个evaluator,叫做Integral of Decay Curve 衰减曲线积分
- 对于通道剪枝产生的misjudging,提出了数学模型来描述
3 相关工作
- 权重量化
线性量化、最小最大量化、对数最小最大量化 - 低阶近似
把一个卷积层分解成几个卷积层,之前的方法有
奇异数分解、CP分解、Tucker分解 - 剪枝
剪枝有不同的粒度:元素级、kernel级、filter级(三维)、层级
元素级的灵活性最大,但不能减少推理时间和memory
4 低阶近似和通道剪枝的结合
4.1 基于SVD的低阶近似
假设N表示输出通道的数量,C表示输入通道的数量,d表示kernel的大小,则权重W可以reshape成二维的
N
d
×
d
C
Nd \times dC
Nd×dC的矩阵,然后进行分解
W
=
U
S
V
W=USV
W=USV
其中S是
n
×
n
n \times n
n×n的对角矩阵,对角线是W的奇异值
U是
N
d
×
n
Nd \times n
Nd×n的矩阵,V是
n
×
d
C
n \times dC
n×dC的矩阵
然后把S截断成
k
×
k
k \times k
k×k的对角矩阵
W
k
W_k
Wk,就是取前k个最大的奇异值,变成
W
k
=
U
k
S
k
V
k
W_k=U_k S_k V_k
Wk=UkSkVk
U
k
U_k
Uk是
N
d
×
k
Nd \times k
Nd×k的矩阵,
V
k
V_k
Vk是
k
×
d
C
k \times dC
k×dC的矩阵
然后再变成
W
k
=
U
′
V
′
W_k=U' V'
Wk=U′V′
U
′
U'
U′和
V
′
V'
V′reshape成四维张量
4.2 泰勒剪枝
关键要找出最不重要的filter,那重要性指标
Θ
T
E
\Theta_{TE}
ΘTE怎么确定呢?
定义重要性指标
Θ
T
E
\Theta_{TE}
ΘTE等于剪掉这个filter之后损失函数的增加,有的filter剪掉之后损失函数增加的也不多,有的filter则很敏感,然后用一阶泰勒公式展开
Θ
T
E
=
∣
C
(
h
i
=
0
)
−
C
(
h
i
)
∣
=
∣
∂
C
∂
h
i
h
i
∣
\Theta_{TE}=|C(h_i=0)-C(h_i)|=|\frac{\partial C}{\partial h_i} h_i|
ΘTE=∣C(hi=0)−C(hi)∣=∣∂hi∂Chi∣
4.3 通道剪枝的misjudge
4.4 低阶近似通道剪枝
- 用低阶近似的方法,使得网络结构都变成小filter的
- 通道剪枝