Network Pruning via Transformable Architecture Search
相关背景
- 网络剪枝大致可以分为两种形式:非结构化剪枝和结构化剪枝
- 非结构化剪枝:利用相关算法,强制将卷积权重和特征映射转为稀疏矩阵。主要方向是寻找不同的正则化技术提高权重和映射的稀疏性。
- 结构化剪枝: 对滤波器或整个网络层进行剪枝。
- 传统的 NAS (Neural Architecture Search )搜索算法侧重于网络拓扑的搜索。这篇论文主要是 深度和宽度的搜索。但是传统的强化学习和进化算法的搜索需要大量的计算资源。
本篇方法
- 用标准的分类训练程序训练未剪枝的大型网络。
- 提出了一种 TAS 方法,用于搜索小网络的深度和宽度。
- 使用 KD 算法,将未修剪的大型网络转移到小网络中。
本文的 TAS 算法
宽度的搜索
设 α ∈ R ∣ C ∣ \alpha∈R^{|C|} α∈R∣C∣ 为网络层的通道数的可能值的分布: m a x ( C ) < C o u t max(C)<C_{out} max(C)<Cout。
信道数量为第 j 个候选值的概率