文献精读——(第十一篇)Data-Free Learning of Student Network




  • CNN被广泛应用于CV任务,但需要大量计算资源支持,为满足移动计算需要进行神经网络的压缩
  • 在现实应用,数据集往往很难获取
  • 现有的零样本下的网络压缩,性能下降很多



  • 提出了一个有效的无数据训练的办法;
  • 有效的组合了GAN和教师-学生网络;
  • 设计了适合于这篇文章中的GAN模型的总损失函数;
  • 利用知识蒸馏将教师网络压缩为学生网络;
  • 对多个数据集和多个经典网络进行了实验以证明有效性。


  • 实验一:(MNIST/HintonNet)+LeNet-5
  • 实验二:模型简化实验
  • 实验三:可视化结果
  • 实验四:CIFAR+ResNet
  • 实验五:CelebA+AlexNet
  • 实验六:扩展实验













  • 使用GAN生成与训练数据相似的样本以便与神经网络的压缩
  • 把待压缩网络作为一个固定的判别器,来训练生成网络
  • 三个损失感受加和,使生成器的生成接近真实数据样本


  • 引入教师学生网络学习范式,利用蒸馏算法实现利用为标注生成样本对黑盒网络的压缩




 2)one-hot loss

输入分别表示学生网络和教师网络的输出。如果生成器G生成的图像与教师网络的训练数据分布相同,那么它们的输出也应该与训练数据具有相似的输出。因此使用one-hot loss促使教师网络生成的图像输出接近one-hot like vectors。也就是说,期望生成与教师网络完全兼容的合成图像,而不是适用于任何场景的一般真实图像。

其中,Hcross是交叉熵损失函数,有i个样本,yiT是判别网络(教师网络)对第i ii个样本的输出,因为判别网络(教师网络)是对图像进行分类的网络,因此其有多个输出并使用的是softmax,因此当输入的是真实的图像时,此时输出应该是稀疏的,即应该有某个类别的概率是非常大的,而如果输入的图像和训练集图像差异太大的话,此时网络是无法提取有用的特征来作最后的分类的,此时判别网络(教师网络)的输出就不是稀疏的。因此,通过判断判别网络(教师网络)输出的稀疏性与否可以来衡量输入是生成网络生成的还是真实的。




训练数据的类别基本均衡,entropy loss 来衡量生成图片的类别均衡, 当所有的变量为1/k时得到最大值。 当loss最小的时候,每个1/n*∑yi应该等于1/k 。说明G生成的每个类别的图片的概率大致相等。因此, 最小化信息熵损失能够得到一组类别数量均衡的生成样本。


知识蒸馏(Knowledge Distillation, KD)是一种广泛使用的方法,用于将输出信息从大的网络转移到较小的网络,以获得更高的性能,它不使用给定网络的参数和体系结构。通过以下的损失函数LKD 即可实现将教师网络的知识蒸馏到学生网络的操作:


