动机
-
知识蒸馏是一种有效的模型压缩方法。这种方法可以使轻量级的学生模型从较大的教师模型中获取有效知识。
-
目标附近的特征区域有相当多的信息,这对于知识蒸馏是有用的。然而,不仅目标附近的特征区域,而且即使是来自背景区域的判别块也有意义的知识。
为了应对检测任务中前景和背景区域的不均衡,之前的蒸馏检测方法都需要精心设计正例与负例之间的比例,并且仅蒸馏与GT相关的区域可能会忽略背景中潜在的信息区域。然而,正是师生之间的信息鸿沟,引导模型选择有区别的补丁进行模仿。而且,虽然GT相关的领域几乎是信息丰富的,但极其困难和简单的实例可能是无用的,甚至来自背景的一些信息块也可以帮助学生学习教师的泛化。
-
之前的蒸馏检测方法忽略了实例间有价值的关系信息,都没有利用基于关系的知识进行蒸馏。然而,人们普遍认为,即使在一幅图像中,物体之间的关系也包含着大量的信息。
-
当前的检测蒸馏方法对不同检测框架的泛化能力较弱,不能同时在多个检测框架中很好地工作。
方法
提出了一种新的基于通用实例的蒸馏方法,即通用实例蒸馏(general instance distillation,GID),该方法不考虑区分negative和positive,可用于各种检测框架,尽可能有效地利用尽可能多的知识。本文的方法设计了一种通用实例选择模块(General Instance Selection Module,GISM),该模块利用教师模型和学生模型的预测来选择要蒸馏的关键实例。此外,为了更好地利用教师模型提供的信息,还提取并利用了基于特征,基于关