Knowledge Distillation 知识蒸馏
文章平均质量分 82
因为需要做一些模型的轻量化,接触到该领域,记录一些学习过程中的理解与问题,欢迎讨论
judgechen1997
这个作者很懒,什么都没留下…
展开
-
Knowledge Distillation(1)——入门&开山之作
Knowledge Distillation 概述研究背景定义(知识蒸馏是什么?)开山之作1. Introduction2. Distillation研究背景对于机器学习的模型,我们往往在训练和部署时使用着极其相似的模型,尽管这两个阶段明显有着不同的需求:训练时可以使用一个巨大的数据集去训练一个很深的模型,并占用大量的计算资源,以期达到最好的效果;然而在实际应用时,却又对计算时间和计算资源特...原创 2019-09-19 20:49:17 · 3341 阅读 · 0 评论 -
Knowledge Distillation(10)——Born Again Neural Networks
这篇论文不是用作模型压缩的,作者想的是让student超越teacher其训练方式如下:实验结果,student超越teacher了:原创 2019-09-23 22:43:53 · 1571 阅读 · 0 评论 -
Knowledge Distillation(9)——Fast Human Pose Estimation
如果这一系列博客之前的都有看了,且有了解过pose领域的hourglass,这篇文章的idea就很清晰了:对每个hourglass module的中继监督,同时加入hard label&teacher’s soft output关于文章的一些思考,一些别人的博客翻译总结的很好:...原创 2019-09-23 20:40:23 · 396 阅读 · 0 评论 -
Knowledge Distillation(8)——Learning Efficient Object Detection Models with Knowledge Distillation
Learning Efficient Object Detection Models with Knowledge Distillation概述之前博客整理的论文都是knowledge distillation及其变体,作为机器学习的一种方法的研究发展历程。从这篇博客开始,我将介绍其在CV领域的一些具体的用法。本文是knowledge distillation在detection上成功应用的一...原创 2019-09-23 12:51:20 · 3678 阅读 · 1 评论 -
Knowledge Distillation(7)——Deep Model Compression: Distilling Knowledge from Noisy Teachers
Deep Model Compression: Distilling Knowledge from Noisy Teachers概述概述给teacher的输出加入基于噪声的正则化,提高Student Robustness获得更好的performance很粗糙的一种模拟multi-teacher的方式:...原创 2019-09-22 21:30:07 · 628 阅读 · 0 评论 -
Knowledge Distillation(6)——Large scale distributed neural net training through online distillation
Large scale distributed neural network training through online distillationGoogle brain, Google DeepMind等团队合作的一篇论文,Hinton的名字赫然在列,发表在ICLR2018.原创 2019-09-22 20:57:51 · 917 阅读 · 0 评论 -
Knowledge Distillation(5)——Deep Mutual Learning
之前都是对knowledge重新定义,衍生出的knowledge distillation的变体模型。本篇博客开始,介绍知识蒸馏的第二类方法:提高student perfomance。Deep Mutual Learning概述MethodModelOptimisationExperiments概述本文核心idea是,没有teacher,一系列student之间相互学习:Method...原创 2019-09-22 15:53:43 · 632 阅读 · 0 评论 -
Knowledge Distillation(4)——Paying more attention to attention
PAYING MORE ATTENTION TO ATTENTION:IMPROVING THE PERFORMANCE OF CONVOLUTIONALNEURAL NETWORKS VIA ATTENTION TRANSFER概述IMPROVING THE PERFORMANCE OF CONVOLUTIONALNEURAL NETWORKS VIA ATTENTION TRANSFE...原创 2019-09-21 14:15:35 · 1439 阅读 · 2 评论 -
Knowledge Distillation(3)——A Gift from Knowledge Distillation
A Gift from Knowledge Distillation:Fast Optimization, Network Minimization and Transfer Learning 论文阅读MethodMethod作者打了个比方,对于人类,老师教学生做题时,一个中间的结果并不重要,我们更应该学习的是解题流程。这也是本文的核心idea,不拟合大模型的输出,而是去拟合大模型层与层之间...原创 2019-09-20 20:52:50 · 886 阅读 · 0 评论 -
Knowledge Distillation(2)——FitNets: Hints for Thin Deep Nets
概述在Hinton教主挖了Knowledge Distillation这个坑后,另一个大牛Bengio立马开始follow了,在ICLR发表了文章FitNets: Hints for Thin Deep Nets这篇文章的核心idea在于,不仅仅是将teacher的输出作为knowledge,在一些中间隐含层的表达上,student也要向teacher学习:由于teacher和studen...原创 2019-09-20 18:00:23 · 2662 阅读 · 0 评论 -
Knowledge Distillation(11)——teacher assistant
motivation: 希望a teacher can effectively transfer its knowl-edge to students up to a certain size,但有时gap太大,效果反而差,正如mutual learning发现跟teacher学还不如和一个与自己目前水平相当(虽然网络结构差很多)的student学所以助教的概念都出来了:teache...原创 2019-09-25 17:15:09 · 1184 阅读 · 0 评论