增量隐式精化分类(IIRC):一种增量学习扩展,其中传入类可以具有两个粒度级别:超类标签和子类标签。因为先前学习的超类知识可能被顺序学习的子类知识占据。
本文方案:1、提出了一种新的多教师知识蒸馏(MTKD)策略。为了保留子类知识,我们使用最后一个模型作为一般教师,提取学生模型的先前知识。为了保存超类知识,我们使用初始模型作为超类教师来提取超类知识。
2、从两个教师模型中提取知识可能会导致学生模型做出一些冗余预测。进一步提出了一种后处理机制,称为Top-k预测限制,以减少冗余预测。
![](https://img-blog.csdnimg.cn/081eb036ae534f958afadce3d3624b17.png)
![](https://img-blog.csdnimg.cn/8613d8bc5cdb4fa8acda367adee1110b.png)
1、模型方法
如上图所示,在训练阶段,超类比它们的子类出现得早,并且只为训练提供了一个标签。在测试阶段,模型需要预测它看到的所有标签。至于排练策略,保留的标签是训练阶段使用的标签,只保留一个标签。
1.1多教师知识蒸馏
在MTKD中使用两种教师模型,称为普通教师和超类教师,为学生模型提取知识。同时,对所有可用样本计算二进制交叉熵。MTKD策略中的总体损失函数如下:
二元交叉熵损失:
普通教师蒸馏损失函数:
超类教师蒸馏损失:
按照传统的增量学习方法,最后一个增量学习步骤中的模型应用于方法中,并作为普通的教师模型。
普通教师的作用:教我们的学生建模随后出现的类的知识,除了初始增量步骤中出现的超类。进行了一般教师模型和学生模型之间的logit蒸馏损失。
ps:超类知识被其子类知识占据,超类区分可能会遇到严重的性能下降。
超类教师作用:使用初始模型作为我们的超类教师模型来教学生模型保存超类知识。
在IIRC中,分类任务变为多标签分类任务。传统的基于softmax的分类方法不适合此任务,因为模型需要输出多个预测。
4.2Top-k预测约束
在MTKD策略中引入超类教师可能会导致冗余预测问题,这意味着最终激活的预测数超过了每个图像的最大标签数。在IIRC中,分数大于0.5的最终预测将被激活。IIRC中的预测机制可以是:
2、总结
1、超类知识可能被子类知识占据。提出了一种多教师知识蒸馏(MTKD)策略来解决这个问题。
2、使用初始模型(超类教师)和最后一个模型(普通教师)为我们的学生模型提取知识。
3、此外,使用两个教师模型可能会导致IIRC中的冗余预测问题。提出了一种简单的Top-k预测约束机制,结合我们的MTKD策略(k-MTKD),以减少不必要的预测。