论文结构:
1 INTRO
卷积神经网络受限于资源有限的设备,现有研究有参数量化、滤波器压缩和自动网络剪枝
其中,自动网络剪枝引起很大关注,应用到sota网络。简介自动网络剪枝。分为两类:基于度量的方法 和 基于搜索的方法。
度量:与基于局部度量的方法相比,这种方法隐式地决定了通道数,从而减少了大量的人工工作量。然而,这些方法通常执行网络修剪,然后进行数据驱动和/或迭代优化以恢复精度,这两者都需要时间成本
搜索:这两种方法都需要在约束发生变化时重新压缩或重新训练。这实际上限制了网络修剪的应用,因为模型需要部署在广泛的设备上
本文:
在本文中,我们提出了一种信息论启发的剪枝(ITPruner)策略,它不需要前面提到的迭代训练和搜索过程,简单直接。具体而言,我们首先介绍了网络激活的标准化希尔伯特-施密特独立标准(nHSIC)作为准确和稳健的分层重要性指标。然后将这种重要性与约束结合起来,将架构搜索问题转换为具有有界变量的线性规划问题。这样,我们通过解决线性规划问题来获得最优架构,这在单个CPU和GPU上只需要几秒钟的时间。
我们的方法是由信息瓶颈(IB)理论[47]驱动的。也就是说,对于每个网络层,我们应该最小化层激活和输入之间的信息。换句话说,我们在网络冗余和信息论之间建立了联系。然而,计算难以处理的层激活分布之间的互信息是不切实际的。因此,我们采用一种基于非参数核的方法,即Hilbert-Schmidt Independence Criterion (HSIC)来表征统计独立性。
贡献:
深度学习冗余的信息论:
据我们所知,这是第一次通过推广信息瓶颈原理来建立CNN的独立性和冗余度之间的关系。我们也是第一个将这种关系应用于自动网络修剪的公司。
方法论:
我们提出了一个统一的框架来自动压缩网络,不需要任何搜索过程。该框架将HSIC重要性与约束相结合,将网络修剪问题转化为凸优化问题,有效地实现了在各种设备上的部署。
理论贡献:
除了HSIC的潜在理论保证外,我们还从理论上证明了HSIC的鲁棒性以及我们的方法与互信息之间的关系。