【GiantPandaCV导语】知识蒸馏结合NAS的一篇工作,提出了DNA,让教师网络来指导超网的学习。这个工作将知识蒸馏非常深入的融合在一起,有很强的创新性,已被CVPR20接收。
1. 背景介绍
知识蒸馏通常作为One-Shot NAS中的一个训练技巧,但是他起到非常大的作用。
简便起见,知识蒸馏在这里被分为四类:
-
基于softmax输出层的知识蒸馏
-
基于中间层的知识蒸馏
-
基于相关性知识的知识蒸馏
-
基于GAN的知识蒸馏
第一个基于softmax输出层的知识蒸馏是最传统的,Hinton提出来的蒸馏方法可以视为soft label蒸馏。
q k = e z k / T ∑ i = 1 n e z i / T q_{k}=\frac{e^{z_{k} / T}}{\sum_{i=1}^{n} e^{z_{i} / T}} qk=∑i=1nezi/Tez<