对综述论文《Knowledge Distillation: A Survey》进行了一些整理,博客涉及到的图也是来源于原论文。
1.什么是知识?
教师网络的输出的logits,教师网络中间层的输出feature map/feature activations,不同的特征图、不同的神经元之间的关系也可以作为一种学习的知识,甚至是已经训练好的教师网络的参数也可以提供知识。读到这里,我不禁想到,神经网络浑身是宝,”万物“皆可知识!
2.知识的分类
上面提到了这么多类型的知识,大体上分为三类:基于响应的知识,基于特征的知识,基于关系的知识。 这就是进行“分科”操作了。
更形象化的理解可以参照下图:
目前先写这些,等博主有空会加入代码和数学原理讲解,欢迎大家批评指正。