[文献阅读]combined group and exclusive sparsity for deep neural networks

最新推荐文章于 2024-01-12 16:59:10 发布

pearl30

最新推荐文章于 2024-01-12 16:59:10 发布

阅读量1.6k

点赞数 1

分类专栏：深度学习文章标签： DL sparsity

本文链接：https://blog.csdn.net/pearl30/article/details/76954938

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

ICML 2017

讨论前馈NN中各种有稀疏效果的正则项（L1,L2,L12,L21,L12+L21）。
分类（also 监督式学习任务）。
CNN( also 前馈NN)

l-1 norm, element-wise稀疏

L1-norm，element-wise 稀疏，准确性稍微下降，不能加速训练。

l-21 norm, group稀疏

group稀疏，移除一个单元，或者移除一个卷积过滤器，因而可以加速网络。
$\sum g \sum i w 2 g, i - - - - - - \sqrt$ $\sum_g \sqrt{ \sum_i w_{g,i}^2 }$
对W的某一行 L2 norm, 加根号干嘛。

l2 norm有组效果，对correlated特征会产生相似的权重，因而导致一些组的完全消除，因此移除一些输入单元，达到自动确定每一层有多少单元的效果。

group稀疏还没有最大化利用网络能力，因为选择的特征间还可能存在冗余。

l1-l2 norm, exclusive稀疏

exclusive 稀疏/lasso, (1,2)-norm
$\sum g (\sum i | w g i |) 2$ $\sum_g (\sum_i |w_{gi}|)^2$
对W的某一行的绝对值的和，平方干嘛。

1-norm组上的2-norm，1-norm达到组内稀疏，2-norm达到组间even weights的效果，每组的稀疏性比较平均，每组的非0权重的个数差不多。

运用在前馈NN，
group是将一个节点的输出全部砍掉，相当于砍掉这个节点；
l1-l2norm是将每个节点的输出都砍掉差不多一样多的连接。

运用在CNN，
l1-l2norm让每个卷积过滤器各不相同。

group+exclusive稀疏

不同特征的 sharing 和exclusivity？

\sum g (μ 1 2 | | W g | | 21 + (1 - μ) | | W g | | 2)

$\sum_g \left( \mu \frac{1}{2}||W_g||_1^2+ (1-\mu) ||W_g||_2 \right)$

如果网络权重相关，存在一定程度的sharing，不share的其它部分是不同的。
底层可能需要更多共享(l2)，高层需要更多disjoint( l1^2)

$μ l = m + (1 - 2 m) l L - 1$ $\mu_l=m+(1-2m) \frac{l}{L-1}$

m=0, $\mu_0=0, ||w_g||_2, \mu_{L-1}=1,||w_g||_1^2$

proximal梯度下降算法

正则项向解空间的欧几里得投影

min W t + 1 Ω (W t + 1) + 1 2 λ s | | W t + 1 - W t + 1 2 | | 22

$\min_{W_{t+1}} \Omega(W_{t+1})+\frac{1}{2\lambda s} ||W_{t+1}-W_{t+\frac{1}{2}}||_2^2$

group稀疏正则项的解

p r o x G L (W) = (1 - λ | | w g | | 2) + W g i

${\rm prox}_{GL}(W)=(1-\frac{\lambda}{||w_g||_2})_+ W_{gi}$

exclusive稀疏正则项的解

p r o x E L (W) = (1 - λ | | w g | | 1 | w g i |) + W g i = s i g n (W g i) (| W g i | - λ | | w g | | 1) +

${\rm prox}_{EL}(W)=(1-\frac{\lambda ||w_g||_1}{|w_{gi}|})_+ W_{gi} =\rm{sign}(W_{gi})(|W_{gi}|-\lambda ||w_g||_1)_+$

group+exclusive稀疏正则项：
1. 计算loss（不包括正则项）相对于W的梯度g，
2. $W_{t+\frac{1}{2}}$ = $W_t$ -s g
3. $W_{t+\frac{1}{2},GL}= {\rm prox}_{GL}( W_{t+\frac{1}{2}} )$
4. $W_{t+1}= {\rm prox}_{EL}( W_{t+\frac{1}{2},GL} )$

实验

开源项目链接。

各种正则项

L2
L1
L-21 on CNN 每个卷积filter是一组
L-21 on CNN 不同filter的相同feature是一组
L-12
L-21+L-12

数据集-模型

MNIST 手写数字图片分10类，CNN(2层卷积2全连接)
CIFAR-10图片分10类，LeNet（2层卷积3全连接)
CIFAR-100图片分100类, Wide Residual Net变种(16层)，用L2结果初始化
ImageNet-1K 图片分1000类， AlexNet，用L2结果初始化
迭代剪枝

评测

分类准确性 over 使用的参数个数百分比（稀疏性）
分类准确性 over 浮点数操作的次数（计算效率）
分类错误率 over 迭代次数（收敛速率）
卷积层+全连接层同时稀疏更好 (卷积vs全连接)
exclusivity稀疏随网络层数增加更好 ( $\mu$ 共享vs竞争）
图示全连接后的weight（稀疏性）
图示卷积层filter （稀疏性）

pearl30

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录