【论文速递】CVPR2022 - 解耦知识蒸馏

最新推荐文章于 2024-05-15 11:06:33 发布

長安

最新推荐文章于 2024-05-15 11:06:33 发布

阅读量458

点赞数 1

分类专栏：论文速递文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_50757624/article/details/128938208

版权

论文速递专栏收录该内容

21 篇文章 3 订阅

订阅专栏

【论文速递】CVPR2022 - 解耦知识蒸馏

【论文原文】：Decoupled Knowledge Distillation

获取地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9879819

博主关键词： 解耦，目标知识蒸馏，非目标知识蒸馏

推荐相关论文：

-无

摘要：

最先进的蒸馏方法主要基于从中间层蒸馏深层特征，而Logit蒸馏的重要性则被大大忽视。为了提供研究logit蒸馏的新观点，我们将经典KD损失重新表述为两部分，即目标类知识蒸馏（TCKD）和非目标类知识蒸馏（NCKD）。我们实证调查并证明了两部分的效果：TCKD传递有关训练样本“难度”的知识，而NCKD是logit蒸馏工作的突出原因。更重要的是，我们揭示了经典的KD损失是一个耦合公式，它（1）抑制了NCKD的有效性，（2）限制了平衡这两部分的灵活性。为了解决这些问题，我们提出了解耦知识蒸馏（DKD），使TCKD和NCKD能够更高效、更灵活地发挥作用。与复杂的基于特征的方法相比，我们的DKD在CIFAR-100、ImageNet和MS-COCO数据集上获得了相当甚至更好的结果，并且在图像分类和目标检测任务中具有更好的训练效率。本文证明了logit蒸馏的巨大潜力，希望对未来的研究有所帮助。该代码可在 https://github.com/megviiresearch/mdistiller 获得。

关键词 ：解耦，目标知识蒸馏，非目标知识蒸馏。

简介：

在过去的几十年中，深度神经网络（DNN）彻底改变了计算机视觉领域，它成功地推动了各种真实场景任务，例如图像分类[9]，[13]，[21]，目标检测[8]，[27]和语义分割[31]，[45]。 .然而，强大的网络通常受益于大模型容量，从而带来高昂的计算和存储成本。在广泛使用轻型模型的工业应用中，这种成本并不可取。文献表明，降低成本的潜在方向是知识蒸馏（KD）。KD 代表了一系列方法，专注于将知识从重模型（教师）转移到轻模型（学生），这可以提高轻模型的性能而不会引入额外的成本。
在这里插入图片描述

Fig. 1. Illustration of the classical KD [12] and our DKD.

KD的概念最早是在[12]中提出的，通过最小化教师和学生预测对数之间的KL-散度来转移知识（图1a）。自[28]以来，大多数研究注意力都集中在从中间层的深层特征中提取知识上。与基于logits的方法相比，特征蒸馏在各种任务上的表现都更胜一筹，因此对Logit蒸馏的研究几乎没有任何深入。然而，基于特征的方法的训练成本并不令人满意，因为在训练期间引入了额外的计算和存储使用（例如，网络模块和复杂操作）来提炼深层特征。

Logit蒸馏仅需要微小的计算和存储成本，但性能较差。直观地说，logit 蒸馏应该达到与特征蒸馏相当的性能，因为 logit 的语义级别高于深层特征。我们假设 logit 蒸馏的潜力受到未知原因的限制，导致性能不理想。为了提高基于logit的方法，我们通过深入研究KD的机制来开始这项工作。首先，我们将分类预测分为两个级别：（1）目标类和所有非目标类的二元预测和（2）每个非目标类的多类别预测。基于此，我们将经典KD损耗[12]重新表述为两部分，如图1b所示。一种是针对目标类的二元 logit 蒸馏，另一种是针对非目标类的多类别 logit 蒸馏。为简化起见，我们分别将它们命名为目标分类知识蒸馏（TCKD）和非目标分类知识蒸馏（NCKD）。重新制定使我们能够独立研究这两个部分的效果。

TCKD通过二元对数蒸馏传递知识，这意味着只提供目标类的预测，而每个非目标类的具体预测是未知的。一个合理的假设是，TCKD转移了关于训练样本“难度”的知识，即知识描述了识别每个训练样本的难度。为了验证这一点，我们从三个方面设计了实验，以增加训练数据的“难度”，即更强的增强，更嘈杂的标签和固有的挑战性数据集。

NCKD只考虑非目标logits的知识。有趣的是，我们凭经验证明，只有应用NCKD才能达到与经典KD相当甚至更好的结果，这表明非目标logits中包含的知识至关重要，这可能是突出的“黑暗知识”。

更重要的是，我们的改革方案表明，经典的KD损失是一个高度耦合的公式（如图1b所示），这可能是logit蒸馏潜力有限的原因。首先，NCKD损失项由一个系数加权，该系数与教师对目标类的预测信心呈负相关。因此，较大的预测分数将导致较小的权重。耦合显著抑制了NCKD对预测良好的训练样本的影响。这种抑制是不可取的，因为教师对培训样本越有信心，它就能提供越可靠和有价值的知识。其次，TCKD和NCKD的意义是耦合的，即不允许将TCKD和NCKD分开加权。这种限制是不可取的，因为TCKD和NCKD应该分开考虑，因为它们的贡献来自不同方面。

总体而言，我们的贡献总结如下：

我们通过将经典KD分为TCKD和NCKD来研究logit蒸馏提供了有见地的观点。此外，还分别分析和证明了两个部分的效果。
我们揭示了由其高度耦合公式引起的经典KD损耗的局限性。将NCKD与教师的信心相结合会抑制知识转移的有效性。TCKD与NCKD的耦合限制了平衡这两个部件的灵活性。
我们提出了一种名为DKD的有效Logit蒸馏方法来克服这些限制。DKD在各种任务上实现了最先进的性能。我们还凭经验验证了与基于特征的蒸馏方法相比，DKD具有更高的训练效率和更好的特征可转移性。

【论文速递 | 精选】

论坛地址：https://bbs.csdn.net/forums/paper

長安

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【论文速递】CVPR2022 - 解耦知识蒸馏

最先进的蒸馏方法主要基于从中间层蒸馏深层特征，而Logit蒸馏的重要性则被大大忽视。为了提供研究logit蒸馏的新观点，我们将经典KD损失重新表述为两部分，即目标类知识蒸馏（TCKD）和非目标类知识蒸馏（NCKD）。我们实证调查并证明了两部分的效果：TCKD传递有关训练样本“难度”的知识，而NCKD是logit蒸馏工作的突出原因。更重要的是，我们揭示了经典的KD损失是一个耦合公式，它（1）抑制了NCKD的有效性，（2）限制了平衡这两部分的灵活性。
复制链接

扫一扫

专栏目录