【GiantPandaCV导语】本文介绍的如何更好地集成教师网络,从而更好地提取知识到学生网络,提升学生网络的学习能力和学习效率。从方法上来讲是模型集成+神经网络结构搜索+知识蒸馏的综合问题,在这里使用简单的NAS来降低教师网络与学生网络之间的差距。
背景介绍
解决的问题?
-
希望从集成的教师网络中提取知识到学生网络,从而提升学习能力和学习效率。
-
model ensemble + NAS + KD
-
Motivation: This is motivated by the fact that knowledge distillation is less effective when the capacity gap (e.g., the number of parameters) between teacher and student is large as discussed in (Mirzadeh et al. 2019).
如何解决?
-
提出了OD(Oracle Knowledge Distillation)的方法,我们的方法解决了教师和学生之间固有的模型能力问题,旨在通过缩小教师模型的能力差距,使其在蒸馏过程中受益最大化。
-
使用NAS技术来增强有用的架构和操作,这里搜索的网络适用于蒸馏学生网络。
-
提出了Oracle KD Loss来实施模型搜索,同时使用集成的教师网络进行蒸馏。
具体如何组织集成教师网络?搜索对象是教师网络?如何动态处理模型capacity?
-
灵感:动态的组织整个过程的学习,教师网络容量大,