Data-Drive Sparse Structure Selection for Deep Neural Networks
https://openaccess.thecvf.com/content_ECCV_2018/papers/Zehao_Huang_Data-Driven_Sparse_Structure_ECCV_2018_paper.pdf
background
模型压缩balabala…
related work and the limit
传统的结构剪枝方法(给出了上古OBD OBS/ Deep compression/ network surgery / 神经元类敏感度剪切(16, 24, 29) / CP/ ThinNet /Slimming / Rethinking等),一般需要训练-剪枝等迭代操作,操作繁杂。因此文章提出一种基于稀疏训练的端到端的模型训练裁剪一体化工作(without bells and whistles).
现有的一些稀疏训练的方法,如[25]实现非结构化的权重稀疏,不利于GPU等硬件的加速部署。[50, 1, 43]等采用了group Lasso的方式来实现结构化的稀疏训练。类似的工作还有Slimming使用subgradient descent 和 Rethinking 使用ISTA的方法来优化L1稀疏问题。
还提到了一些目前用于结构搜索的文章[2, 51, 32, 46,43,38]等。。。结构搜索和剪枝不分家。。。
novel points
1、提出了统一的CNN训练和修剪框架。 特别是,通过在CNN的某些结构(神经元(或通道),残差块,结构块)上引入比例因子和相应的稀疏正则化,将其公式化为联合稀疏正则化优化