MTKD-IIRC：增量隐式精化分类的多教师知识蒸馏

一瞬にして失う

已于 2022-09-08 19:51:46 修改

阅读量621

点赞数

分类专栏：知识蒸馏多教师网络迁移学习文章标签：分类数据挖掘人工智能计算机视觉深度学习

于 2022-09-08 19:49:01 首次发布

本文链接：https://blog.csdn.net/qq_60445109/article/details/126770208

版权

知识蒸馏同时被 3 个专栏收录

10 篇文章 3 订阅

订阅专栏

迁移学习

9 篇文章 1 订阅

订阅专栏

多教师网络

4 篇文章 0 订阅

订阅专栏

增量隐式精化分类（IIRC）：一种增量学习扩展，其中传入类可以具有两个粒度级别：超类标签和子类标签。因为先前学习的超类知识可能被顺序学习的子类知识占据。

本文方案：1、提出了一种新的多教师知识蒸馏（MTKD）策略。为了保留子类知识，我们使用最后一个模型作为一般教师，提取学生模型的先前知识。为了保存超类知识，我们使用初始模型作为超类教师来提取超类知识。

2、从两个教师模型中提取知识可能会导致学生模型做出一些冗余预测。进一步提出了一种后处理机制，称为Top-k预测限制，以减少冗余预测。

1、模型方法

如上图所示，在训练阶段，超类比它们的子类出现得早，并且只为训练提供了一个标签。在测试阶段，模型需要预测它看到的所有标签。至于排练策略，保留的标签是训练阶段使用的标签，只保留一个标签。

1.1多教师知识蒸馏

在MTKD中使用两种教师模型，称为普通教师和超类教师，为学生模型提取知识。同时，对所有可用样本计算二进制交叉熵。MTKD策略中的总体损失函数如下：

$L=L_{bce}+\lambda L_{gd}+\mu L_{sd}$

二元交叉熵损失: $L_{bce}=\sum_{\left ( x,y \right )\in D}\sum_{i=1}^{n+m}-y_{i}\log \left ( p_{i} \left ( x \right )\right )+\left ( 1-y_{i} \right )\log \left ( 1-p_{i}\left ( x \right ) \right )$

普通教师蒸馏损失函数: $L_{gd}=\sum_{x\in D}\sum_{i=n_{0}}^{n}-\widehat{p_{i}^{g}}\log \left ( p_{i} \left ( x \right )\right )+\left ( 1-\widehat{p_{i}^{g}} \right )\log \left ( 1-p_{i}\left ( x \right ) \right )$

超类教师蒸馏损失: $L_{sd}=\sum_{x\in D}\sum_{i=1}^{n_{0}}-\widehat{p_{i}^{s}}\log \left ( p_{i} \left ( x \right )\right )+\left ( 1-\widehat{p_{i}^{s}} \right )\log \left ( 1-p_{i}\left ( x \right ) \right )$

按照传统的增量学习方法，最后一个增量学习步骤中的模型应用于方法中，并作为普通的教师模型。

普通教师的作用：教我们的学生建模随后出现的类的知识，除了初始增量步骤中出现的超类。进行了一般教师模型和学生模型之间的logit蒸馏损失。

ps：超类知识被其子类知识占据，超类区分可能会遇到严重的性能下降。

超类教师作用：使用初始模型作为我们的超类教师模型来教学生模型保存超类知识。

在IIRC中，分类任务变为多标签分类任务。传统的基于softmax的分类方法不适合此任务，因为模型需要输出多个预测。

4.2Top-k预测约束

在MTKD策略中引入超类教师可能会导致冗余预测问题，这意味着最终激活的预测数超过了每个图像的最大标签数。在IIRC中，分数大于0.5的最终预测将被激活。IIRC中的预测机制可以是：

2、总结

1、超类知识可能被子类知识占据。提出了一种多教师知识蒸馏（MTKD）策略来解决这个问题。

2、使用初始模型（超类教师）和最后一个模型（普通教师）为我们的学生模型提取知识。

3、此外，使用两个教师模型可能会导致IIRC中的冗余预测问题。提出了一种简单的Top-k预测约束机制，结合我们的MTKD策略（k-MTKD），以减少不必要的预测。

一瞬にして失う

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
MTKD-IIRC：增量隐式精化分类的多教师知识蒸馏

超类知识可能被子类知识占据。提出了一种多教师知识蒸馏（MTKD）策略来解决这个问题。使用初始模型（超类教师）和最后一个模型（普通教师）为我们的学生模型提取知识。此外，使用两个教师模型可能会导致IIRC中的冗余预测问题。提出了一种简单的Top-k预测约束机制，结合我们的MTKD策略（k-MTKD），以减少不必要的预测。
复制链接

扫一扫