Improving Knowledge Distillation via RegularizingFeature Norm and Direction 小陈读paper

1.了解一下(Abstract)

本文主要介绍了一种基于知识蒸馏的方法来训练小型的学生模型,从而使其具有与大型教师模型相似的性能。

作者提出了一种的方法来训练学生模型,

  1. 通过对齐学生模型的特征和教师模型的类均值来实现
  2. 此外,作者还训练学生模型产生大范围的特征
  3. 并提出了一种新的损失函数来同时鼓励学生产生大范围的特征和对齐学生和教师的特征方向

实验结果表明,这些方法可以帮助现有的知识蒸馏方法实现更好的性能。

2.存在的问题

While it is natural to believe that better alignment ofstudent features to the teacher better distills teacher knowledge, simply forcing this alignment does not directly contribute to the student's performance, e.g., classification accuracy.

虽然很自然地相信,更好地将学生特征与教师对齐可以更好地提炼教师知识,

简单地强制这种对齐并不直接有助于学生的表现,例如分类准确性。

一个小李子

例如,最小化倒数第二层特征(用于计算 logits)之间的 L2 距离并不一定有助于学习学生分类器。

3.所以嘞 提出了作者自己的方法

In this work, we

propose to align student features

with class-mean of teacher features,

where class-mean naturally serves as a strong classifier.

我们提出将学生特征与教师特征的类均值对齐,其中类均值自然充当强分类器。核心技术?

baseline

为此,我们探索了基线技术,例如采用基于余弦距离的损失

来鼓励学生特征与教师的相应类均值之间的相似性

但是嘞,

作者训练学生产生大范数特征,灵感来自其他工作线(例如,模型修剪和域适应)

发现这个非常好用哈哈

Finally, we propose a rather simple loss term (dubbed ND loss) to simultaneously

  1. encourage student to produce large-norm features
  2. align the direction of student features and teacher class-means.

nd loss 规范了学生特征的范数和方向。

(1) have large norms and (2) are aligned with class-means constructed on off-the-shelf features of the teacher

把一个故事讲好,有文献支撑 有实验支撑

方法核心部分看着好赏心悦目啊。

哈哈 属于一个loss 点的paper

respect!

论文链接:https://arxiv.org/pdf/2305.17007

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东东要拼命

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值