知识蒸馏
文章平均质量分 93
一种模型压缩方式
llllfffffffff
野蛮生长
展开
-
Similarity-Preserving Knowledge Distillation
知识蒸馏是一种广泛适用的技术,用于在经过训练的教师网络的指导下训练学生网络。蒸馏损失决定了教师的知识如何被捕获并转移到学生上。在本文中,我们提出了一种新形式的知识蒸馏损失,其灵感来自于观察到语义相似的输入往往会在经过训练的网络中引发相似的激活模式。保持相似性知识蒸馏指导学生网络的训练,使得在教师网络中产生相似(不相似)激活的输入对在学生网络中产生相似(不相似)激活。与以前的蒸馏方法相比,学生不需要模仿教师的表示空间,而是在自己的表示空间中保留成对的相似性。在三个公共数据集上的实验证明了我们方法的潜力。原创 2024-08-26 15:52:38 · 1266 阅读 · 0 评论 -
Distilling Knowledge via Knowledge Review
本文提出了跨阶段连接路径(cross-stage connection paths)的概念,这是在知识蒸馏中的首次尝试。实验表明,使用教师网络的低级特征来指导学生网络的深层特征可以显著提高整体性能。基于上述发现,作者提出了一种新颖的框架,称为“知识回顾”,使用教师网络的多个层级来指导学生网络的单级学习。为了进一步提高知识回顾机制,提出了基于注意力的融合(ABF)模块和分层上下文损失(HCL)函数。原创 2024-08-21 10:23:35 · 911 阅读 · 0 评论 -
Decoupled Knowledge Distillation
作者提出了一种新的知识蒸馏方法,称为解耦知识蒸馏(DKD)。这种方法将传统的KD损失重新定义为**目标类知识蒸馏(TCKD)和非目标类知识蒸馏(NCKD)**两部分,并使用超参数α和β来独立地控制这两部分的重要性。原创 2024-08-19 21:09:10 · 1027 阅读 · 0 评论