1.了解一下(Abstract)
本文主要介绍了一种基于知识蒸馏的方法来训练小型的学生模型,从而使其具有与大型教师模型相似的性能。
作者提出了一种新的方法来训练学生模型,
- 即通过对齐学生模型的特征和教师模型的类均值来实现。
- 此外,作者还训练学生模型产生大范围的特征,
- 并提出了一种新的损失函数来同时鼓励学生产生大范围的特征和对齐学生和教师的特征方向。
实验结果表明,这些方法可以帮助现有的知识蒸馏方法实现更好的性能。
2.存在的问题
While it is natural to believe that better alignment ofstudent features to the teacher better distills teacher knowledge, simply forcing this alignment does not directly contribute to the student's performance, e.g., classification accuracy.
虽然很自然地相信,更好地将学生特征与教师对齐可以更好地提炼教师知识,
但简单地强制这种对齐并不直接有助于学生的表现,例如分类准确性。
一个小李子
例如,最小化倒数第二层特征(用于计算 logits)之间的 L2 距离并不一定有助于学习学生分类器。
3.所以嘞 提出了作者自己的方法
In this work, we
propose to align student features
with class-mean of teacher features,
where class-mean naturally serves as a strong classifier.
我们提出将学生特征与教师特征的类均值对齐,其中类均值自然充当强分类器。核心技术?
baseline
为此,我们探索了基线技术,例如采用基于余弦距离的损失
来鼓励学生特征与教师的相应类均值之间的相似性。
但是嘞,
作者训练学生产生大范数特征,灵感来自其他工作线(例如,模型修剪和域适应)
发现这个非常好用哈哈
Finally, we propose a rather simple loss term (dubbed ND loss) to simultaneously
- encourage student to produce large-norm features
- align the direction of student features and teacher class-means.
nd loss 规范了学生特征的范数和方向。
(1) have large norms and (2) are aligned with class-means constructed on off-the-shelf features of the teacher
把一个故事讲好,有文献支撑 有实验支撑
方法核心部分看着好赏心悦目啊。
哈哈 属于一个loss 点的paper
respect!