知识蒸馏
文章平均质量分 86
一瞬にして失う
这个作者很懒,什么都没留下…
展开
-
解耦知识蒸馏(Decoupled Knowledge Distillation,DKD)论文解读
通过将经典的KD损失重新表述为两个部分,提供了一种解释logit蒸馏的新观点部分,即目标类知识蒸馏(TCKD)和非目标类知识精馏(NCKD)。分别研究和证明了这两部分的作用,发现KD的耦合公式限制了知识迁移的有效性和灵活性。原创 2022-12-11 16:09:20 · 2082 阅读 · 2 评论 -
HSAKD:分层自监督增广知识蒸馏
提出了一种用于KD的自监督增强任务,并利用设计良好的辅助分类器进一步传递从分层特征图中获得的丰富知识。在KD领域的标准图像分类基准上实现了SOTA性能。它可以指导网络学习语义识别任务的一般特征表示。原创 2022-09-18 20:30:54 · 873 阅读 · 0 评论 -
SSKD:自我监督知识蒸馏
提出了一个新的框架,称为SSKD,这是首次尝试将自我监督与知识蒸馏相结合。采用对比预测作为辅助任务,帮助从教师网络中提取更丰富的知识。设计了一种选择性迁移策略来抑制教师知识中的噪声。通过使用各种架构在CIFAR100和ImageNet上进行彻底的实验来检验我们的方法。SSKD可以使学生更接近老师,并在少量镜头和嘈杂标签场景下工作良好。原创 2022-09-17 13:01:49 · 2074 阅读 · 0 评论 -
OMGD:用于GAN压缩的在线多粒度蒸馏
提出了一种在线多粒度蒸馏(OMGD)技术来学习轻量级GAN。引入面向GAN的在线方案,交替促进教师和学生生成器,教师帮助学生热身,逐步引导优化方向。OMGD还充分利用了来自互补教师生成器和来自不同层的辅助监督信号的多粒度概念。原创 2022-09-13 19:09:00 · 835 阅读 · 0 评论 -
MTKD-IIRC:增量隐式精化分类的多教师知识蒸馏
超类知识可能被子类知识占据。提出了一种多教师知识蒸馏(MTKD)策略来解决这个问题。使用初始模型(超类教师)和最后一个模型(普通教师)为我们的学生模型提取知识。此外,使用两个教师模型可能会导致IIRC中的冗余预测问题。提出了一种简单的Top-k预测约束机制,结合我们的MTKD策略(k-MTKD),以减少不必要的预测。原创 2022-09-08 19:49:01 · 671 阅读 · 0 评论 -
CA-MKD:置信多教师知识蒸馏
介绍了多教师知识蒸馏的预测和中间特征的置信感知机制。教师的置信度是基于他们的预测或特征与每个训练样本的可靠性识别的基本事实标签之间的相似度来计算的。在标签的指导下,我们的技术有效地整合了来自多个教师的不同知识,用于学生培训。原创 2022-09-06 15:34:52 · 1005 阅读 · 0 评论 -
AMTML-KD:自适应多教师多级知识蒸馏
开发了自适应多教师多级知识蒸馏(AMTML-KD)学习框架。1、AMTML-KD在特定数据实例中学习不同教师网络的不同重要性权重,确保多个教师的软目标更好地集成,以传输高水平知识。2、提出了一种简单的多组提示策略,使AMTML-KD能够从多个教师那里学习中级知识。原创 2022-09-03 22:00:43 · 3099 阅读 · 4 评论 -
基于桥蒸馏的高效低分辨率人脸识别
提出了一种新的桥蒸馏方法来解决资源有限的低分辨率人脸识别任务。该方法的核心是高效的师生框架,该框架依赖于新的跨数据集蒸馏和分辨率自适应蒸馏算法。该算法首先调整教师模型以保留高分辨率细节的区分性,然后使用它们监督学生模型的训练。...原创 2022-08-14 17:43:47 · 921 阅读 · 0 评论 -
《Distilling the Knowledge in a Neural Network》知识蒸馏论文解读
知识蒸馏的开山之作Distilling the Knowledge in a Neural Network论文的学习笔记。原创 2022-06-12 16:37:40 · 947 阅读 · 0 评论 -
用于快速低分辨率人脸识别模型训练的改进知识蒸馏《Improved Knowledge Distillation for Training Fast LR_FR》
本文提出了一种改进的LR-FR模型快速训练知识蒸馏方案。我们保持教师模型的训练集不变,而只对学生模型的训练集添加LR增广。只有在学生模型的训练集中添加LR增广,才能增加教师和学生训练输入之间的分布差异,这种差异可以通过最小化MK-MMD损失函数来减少。 ......原创 2022-06-20 15:53:28 · 799 阅读 · 2 评论