![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
知识蒸馏
文章平均质量分 94
*pprp*
GiantPandaCV公众号作者,研究方向automl,nas
展开
-
知识蒸馏综述:代码整理
【GiantPandaCV导语】收集自RepDistiller中的蒸馏方法,尽可能简单解释蒸馏用到的策略,并提供了实现源码。1. KD: Knowledge Distillation全称:Distilling the Knowledge in a Neural Network链接:https://arxiv.org/pdf/1503.02531.pdf发表:NIPS14最经典的,也是明确提出知识蒸馏概念的工作,通过使用带温度的softmax函数来软化教师网络的逻辑层输出作为学生网络的监督信息,q原创 2021-12-13 12:25:55 · 2879 阅读 · 1 评论 -
知识蒸馏综述:网络结构搜索应用
【GiantPandaCV导语】知识蒸馏将教师网络中的知识迁移到学生网络,而NAS中天然的存在大量的网络,使用KD有助于提升超网整体性能。两者结合出现了许多工作,本文收集了部分代表性工作,并进行总结。1. 引言知识蒸馏可以看做教师网络通过提供soft label的方式将知识传递到学生网络中,可以被视为一种更高级的label smooth方法。soft label与hard label相比具有以下优点:模型泛化能力更强降低过拟合的风险一定程度上降低了学生网络学习的难度。对噪声更加鲁棒。具有更多原创 2021-12-12 19:32:19 · 2944 阅读 · 0 评论 -
知识蒸馏综述:蒸馏机制
【GiantPandaCV导语】Knowledge Distillation A Suvery的第二部分,上一篇介绍了知识蒸馏中知识的种类,这一篇介绍各个算法的蒸馏机制,根据教师网络是否和学生网络一起更新,可以分为离线蒸馏,在线蒸馏和自蒸馏。感性上理解三种蒸馏方式:离线蒸馏可以理解为知识渊博的老师给学生传授知识。在线蒸馏可以理解为教师和学生一起学习。自蒸馏意味着学生自己学习知识。1. 离线蒸馏 Offline Distillation上图中,红色表示pre-trained, 黄色代表To原创 2021-12-04 14:11:21 · 3208 阅读 · 0 评论