2022 (DKD) Decoupled Knowledge Distillation

Boss-Zhang

已于 2022-12-18 16:04:11 修改

阅读量364

点赞数

分类专栏：知识蒸馏文章标签：神经网络

于 2022-12-17 17:23:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weiweizh30/article/details/128354583

版权

知识蒸馏专栏收录该内容

5 篇文章 1 订阅

订阅专栏

发布平台：2022 CVPR

论文链接：https://arxiv.org/abs/2203.08679

代码链接：https://github.com/megviiresearch/mdistiller

创新点

揭示了经典KD是高度耦合的公式，为此局限了KD的潜力。将经典KD为两个层次：（1）是对目标类和所有非目标类(TCKD)的二值预测，（2）是对每个非目标类(NCKD)的多类别预测。

在这里插入图片描述

TCKD

通过二元对数蒸馏法传递知识。这意味着只提供目标类的预测，而每个非目标类的具体预测是未知的。一个合理的假设是，TCKD传递了关于训练样本 "难度 "的知识。即，该知识描述了识别每个训练样本的难度。

NCKD

非目标类间关系的知识。即，传统KD引导学生网络学习的类间关系。

对KD进行解耦分析

如图b所示。NCKD损失项由一个与教师对目标类的预测置信度呈负相关的系数进行加权。因此，教师网络对正确目标类的预测置信度越大，非目标类的权重就会越小。

备注

通过逻辑蒸馏，我们希望学生网络学习教师网络的预测输出，即学习教师网络提供的不同类别之间的类间关系。
理想的逻辑蒸馏方式：当教师网络预测正确时，引导学生网络在学习目标类知识的同时，充分学习教师网络提供的不同类别之间的类间关系。

由于传统KD被证实是一个耦合的公式，即教师网络预测正确时，大部分数值会集中于正确的目标类，而少部分数值聚集于非目标类，即非目标类的权值与目标类的预测置信度呈负相关。

为此，DKD的做法是，对目标类的知识、非目标类之间的类间关系知识，分开引导学生网络学习。

损失函数

传统KD

在这里插入图片描述
表示教师网络经过softmax软化后的预测输出，表示学生网络经过sofemax软化后的预测输出。
表示目标类之间的相似度。表示非目标类之间的相似度。表示非目标类损失项的系数(与教师对目标类的预测置信度呈负相关的系数)。

DKD

在这里插入图片描述通过引入定值和分别作为TCKD和NCKD的权重，以此完成KD的解耦过程。

在这里插入图片描述

在这里插入图片描述
与表示教师网络与学生网络对目标类预测的二进制概率，与表示教师网络与学生网络对所有非目标类预测的二进制概率。

计算公式如下所示：

在这里插入图片描述
定义非目标类之间的独立概率分布（不考虑第t类，即目标类）。每个元素的计算公式如下所示：

伪代码

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2022 (DKD) Decoupled Knowledge Distillation

Decoupled Knowledge Distillation
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。