![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
知识蒸馏
文章平均质量分 95
Frankenstein@
月亮你要,六便士你还嫌少。
展开
-
知识蒸馏论文阅读:DKD算法笔记
SOTA的蒸馏方法主要基于蒸馏来自中间层的深度特征,而logit蒸馏的重要性被极大地忽略。为了给logit蒸馏的研究提供一个新的视角,我们将经典的KD损失重新表示为两部分,即目标类知识蒸馏(TCKD)和非目标类知识蒸馏(NCKD)。我们经验地研究并证明了这两部分的作用:TCKD迁移了关于训练样本的“难度”的知识,而NCKD则是logit蒸馏起作用的重要原因。更重要的是,我们揭示了经典的KD损失是一个耦合的形式,它①抑制了NCKD的有效性,②限制了平衡这两部分的灵活性。为了解决这些问题,我们提出解耦知识蒸馏。原创 2023-03-08 11:00:41 · 1335 阅读 · 1 评论 -
知识蒸馏论文阅读:LD算法笔记
在目标检测中,知识蒸馏(KD)在学习小型模型方面具有强大的能力。以前用于目标检测的KD方法大多侧重于模仿那些要模仿区域内的深层特征,而不是模仿分类logit,因为它在蒸馏定位信息方面效率很低,而且没有什么改进。本文通过重新表述定位知识蒸馏过程,提出了一种新的定位蒸馏(LD)方法,可以有效地将定位知识从教师迁移给学生。此外,我们还启发式地引入了有价值定位区域的概念,可以帮助选择性地蒸馏特定区域的语义和定位知识。原创 2023-02-23 16:35:20 · 892 阅读 · 2 评论 -
知识蒸馏论文阅读:FGD算法笔记
知识蒸馏已经成功应用于图像分类。然而,目标检测要复杂得多,大多数知识蒸馏方法都失败了。本文指出在目标检测中,教师和学生在不同区域的特征差异很大,尤其是在前景和背景区域。如果我们将它们同样地蒸馏,特征图之间的不均匀差异会对蒸馏产生负面影响。因此,我们提出了局部和全局蒸馏(FGD)。局部蒸馏将前景和背景分离,迫使学生关注教师的关键像素和通道。全局蒸馏重建了不同像素之间的关系,并将其从教师传递给学生,弥补了局部蒸馏丢失的全局信息。由于我们的方法只需要计算特征图上的损失,因此FGD可以应用于各种检测器。原创 2023-02-20 19:51:27 · 1612 阅读 · 4 评论