![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
知识蒸馏
文章平均质量分 93
江米江米
我的十八岁,每天为深度学习流眼泪。
展开
-
a gift from knowledge distillation
看完没啥想法-就是改良一下中间层指导的过程,第二部分训练的时候没有用到soft target。使用gram矩阵表示中间层-也不是一个很新的方法。最近翻译水平越来越垃圾啦= =abstract我们介绍啦一个新的技术用来从一个预训练的深度神经网络迁移知识到另一个DNN。考虑到DNN通过一层一层的网络实现从输入空间到输出空间到匹配,我们定义蒸馏的知识以流的形式在层之间传播,这个流是通过计算两层之...翻译 2020-01-09 18:02:12 · 421 阅读 · 0 评论 -
Deep Mutual Learning
这个方法还挺有意思的,从某些方面来说也可以算是multi-teacher multi-student。摘要模型蒸馏是一个有效的且广泛使用的可以在老师网络和学生网络间传递知识的技术。典型的应用模式是从一个效果拔群的大网络或者集成传递知识到小网络,这种更适合于内存较少或者需要快速执行的情况。在这个论文中,我们提出了一个深度相互学习(DML)策略,不像在预设的老师和学生间传递知识,而是一堆学生的集...翻译 2019-12-31 17:49:05 · 789 阅读 · 0 评论 -
多教师多学生模型知识蒸馏
这两天要研究这个方向,准备先找几篇论文看看。第一篇:【MULTI-TEACHER KNOWLEDGE DISTILLATION FOR COMPRESSED VIDEO ACTION RECOGNITION ON DEEP NEURAL NETWORKS】在google一搜multi-teacher knowledge distillation就出来这一篇,虽然看着不太靠谱,但是看论文主要是...原创 2019-12-23 15:20:40 · 5326 阅读 · 2 评论 -
神经网络知识蒸馏
(我的英语翻译是真的很辣鸡哇,除了自己能看懂别人都看不懂系列)一个非常简单的几乎可以提升所有机器学习算法的表现的方法是在同一个数据集上训练多个不同的模型,然后对他们的预测结果取均值。然而呢,使用一个集成模型做预测太过麻烦,而且在用户较多时可能需要很大的计算量,尤其在其中的子模型是较大的神经网络时。Caruana和他的小伙伴们研究表表明一个集成模型的知识是可以被压缩到单独一个更容易部署的模型,我们...翻译 2019-11-26 11:17:52 · 1600 阅读 · 0 评论 -
目标识别知识蒸馏
啊感觉就是hint learning和蒸馏的一个组合-好像没什么特别大的改进。比较明显的一个创新点应该是回归损失的上界设定。没有看完这篇论文,我是真的辣鸡哭哭。learning efficient object detection models with knowledge distillation尽管基于CNN的目标识别展现出了明显的准确率上的提升,但它也需要大量的时间来处理一个输入图像...翻译 2019-12-05 17:43:18 · 1046 阅读 · 0 评论 -
hint-based learning快速理解
FITNETS: HINTS FOR THIN DEEP NETS论文地址:https://arxiv.org/abs/1412.6550这篇论文主要是研究如何在更深的学生网络上取得更好的效果。之前提出的知识蒸馏,是用比较小的学生模型来模仿比较大的老师模型的知识、信息、输出,在这里为了取得更好的表现,我们希望学生模型更大一点更深一点,更为了防止更深的网络在模仿时出错,我们不知考虑老师模型的最终...原创 2019-12-09 17:32:22 · 1423 阅读 · 0 评论