Variational Information Distillation for Knowledge Transfer
将预先训练好的教师神经网络中的知识转移到学生神经网络中,可以显著提高学生神经网络的性能。现有的知识转移方法与教师和学生网络的激活或相应的手工特征相匹配。我们提出了一个知识转移的信息论框架,将知识转移描述为教师和学生网络之间的互信息最大化。我们将我们的方法与现有的知识转移方法在知识提炼和转移学习任务上进行了比较,结果表明我们的方法始终优于现有的方法。我们通过在CIFAR-10上将知识从卷积神经网络(CNN)转移到多层感知器(MLP),进一步证明了我们的方法在跨异构网络架构上的优势。由此产生的MLP明显优于最先进的方法,它达到了与具有单一卷积层的CNN类似的性能。
1. Introduction
深度神经网络(DNN)在各种计算机视觉任务中发挥着重要作用,例如,深度估计[8]、姿势估计[26]、光流[7]、物体分类[11]、检测[10]和分割[25]。一个典型的计算机视觉任务的DNN方法是用大量的标记数据训练一个复杂的端到端神经网络。如果有足够的数据量,这样的方法往往可以提供最先进的性能。然而,在许多情况下,不可能收集到足够大的数据来训练一个DNN。例如,在许多医学图像应用中[24],可用的数据量受到特定疾病患者数量的限制。