ICML 2017
讨论前馈NN中各种有稀疏效果的正则项(L1,L2,L12,L21,L12+L21)。
分类(also 监督式学习任务)。
CNN( also 前馈NN)
l-1 norm, element-wise稀疏
- L1-norm,element-wise 稀疏,准确性稍微下降, 不能加速训练。
l-21 norm, group稀疏
- group稀疏, 移除一个单元,或者移除一个卷积过滤器,因而可以加速网络。
∑g∑iw2g,i−−−−−−√
对W的某一行 L2 norm, 加根号干嘛。
l2 norm有组效果,对correlated特征会产生相似的权重,因而导致一些组的完全消除,因此移除一些输入单元,达到自动确定每一层有多少单元的效果。
group稀疏还没有最大化利用网络能力,因为选择的特征间还可能存在冗余。
l1-l2 norm, exclusive稀疏
- exclusive 稀疏/lasso, (1,2)-norm
∑g(∑i|wgi|)2
对W的某一行的绝对值的和,平方干嘛。
1-norm组上的2-norm,1-norm达到组内稀疏,2-norm达到组间even weights的效果,每组的稀疏性比较平均,每组的非0权重的个数差不多。
运用在前馈NN,
group是将一个节点的输出全部砍掉,相当于砍掉这个节点;
l1-l2norm是将每个节点的输出都砍掉差不多一样多的连接。
运用在CNN,
l1-l2norm让每个卷积过滤器各不相同。
group+exclusive稀疏
不同特征的 sharing 和exclusivity?
如果网络权重相关,存在一定程度的sharing,不share的其它部分是不同的。
底层可能需要更多共享(l2),高层需要更多disjoint( l1^2)
μl=m+(1−2m)lL−1
m=0, μ0=0,||wg||2,μL−1=1,||wg||21
proximal梯度下降算法
正则项向解空间的欧几里得投影
group稀疏正则项的解
exclusive稀疏正则项的解
group+exclusive稀疏正则项:
1. 计算loss(不包括正则项)相对于W的梯度g,
2.
Wt+12
=
Wt
-s g
3.
Wt+12,GL=proxGL(Wt+12)
4.
Wt+1=proxEL(Wt+12,GL)
实验
开源项目链接 。
各种正则项
- L2
- L1
- L-21 on CNN 每个卷积filter是一组
- L-21 on CNN 不同filter的相同feature是一组
- L-12
- L-21+L-12
数据集-模型
- MNIST 手写数字图片分10类,CNN(2层卷积2全连接)
- CIFAR-10图片分10类,LeNet(2层卷积3全连接)
- CIFAR-100图片分100类, Wide Residual Net变种(16层), 用L2结果初始化
ImageNet-1K 图片分1000类, AlexNet, 用L2结果初始化
迭代剪枝
评测
- 分类准确性 over 使用的参数个数百分比 (稀疏性)
- 分类准确性 over 浮点数操作的次数 (计算效率)
- 分类错误率 over 迭代次数 (收敛速率)
- 卷积层+全连接层 同时稀疏更好 (卷积vs全连接)
- exclusivity稀疏随网络层数增加 更好 ( μ 共享vs竞争)
- 图示全连接后的weight(稀疏性)
- 图示卷积层filter (稀疏性)