"Knowledge Distillation by On-the-Fly Native Ensemble"这篇文章基于给定的基础网络(如Resnet等),通过在网络深层次构造多分支结构,且每个分支作为学生网络,能够融合生成推理性能更强的教师网络。进而,通过教师/学生网络的共同在线学习、教师知识的反馈蒸馏,能够训练得到性能优越的单分支模型或多分支融合模型。
基于ONE(On-the-Fly Native Ensemble)的知识蒸馏/训练框架如上图所示,深层的多分支网络共享相同的浅层网络,且多分支输出通过Gate Module(由FC、BN、ReLU及Softmax构成)的融合系数予以融合,作为教师网络的预测输出:
训练教师网络采用的loss,仅包含与真实标注之间的交叉熵损失(CE loss)。而训练每个分支网络(作为学生网络)的loss,除了CE loss,同时包含来自教师网络的暗知识,即KD loss。因此在线学习教师/学生网络的total loss如下: