Paper: https://arxiv.org/abs/2006.15920
Motivation: 将原始特征分解成不同复杂度阶的特征分量。进一步设计分析解缠特征分量的度量。
方法: 不同复杂度的特征分量的解缠受知识蒸馏的启发。将目标 DNN 视为教师网络。然后,设计几个不同深度的解缠结网络(即解缠结网络)来模仿教师网络中间层的特征。由浅层解缠结网模仿的特征组件通常对应于低复杂性的特征组件。除了低复杂度的组件外,更深的解缠器网络可以逐步学习一个复杂度更高的附加特征组件。此外,我们发现 disentangler 网络中的通道数量不会显著影响不同复杂度阶数的特征分量的分布。这证明了我们方法的可信度。所提出的方法可以广泛应用于针对不同架构的不同任务学习的 DNN。作为通用数学工具,所提出的指标为网络压缩和知识蒸馏的成功提供了深刻的解释。
创新点:
- 我们提出了一种方法来定义、量化和分析 DNN 中中间层特征的真实复杂性。与基于其架构的 DNN 理论复杂度不同,本文量化的真实特征复杂度揭示了任务的难度。
- 所提出的方法解开不同复杂度阶的特征分量。
- 我们提出了新的指标来分析这些特征组件的可靠性、有效性、过拟合的重要性和 DNN 的性能。该分析为理解网络压缩和知识蒸馏提供了一个新的视角。
- 解开的特征组件提高了 DNN 的性能。