![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
知识蒸馏
文章平均质量分 82
weixin_37958272
这个作者很懒,什么都没留下…
展开
-
Contrastive Model Inversion for Data-Free Knowledge Distillation
Contrastive Model Inversion for Data-Free Knowledge DistillationModel inversion,其目标是从预训练的模型中恢复训练数据,最近被证明是可行的。然而,现有的inversion方法通常存在模式崩溃问题,即合成的样本彼此高度相似,因此对下游任务(如知识蒸馏)的有效性有限。在本文中,我们提出了 Contrastive Model Inversion (CMI),其中数据多样性被明确地建模为一个可优化的目标,以缓解模式崩溃问题。我们主要观原创 2021-08-03 18:31:28 · 685 阅读 · 0 评论 -
Mosaicking to Distill Knowledge Distillation from Out-of-Domain Data
Mosaicking to Distill: Knowledge Distillation from Out-of-Domain Data在本文中,我们试图解决一项雄心勃勃的任务,即域外知识蒸馏(OOD-KD),它允许我们只使用可以以非常低的成本轻易获得的OOD数据来进行KD。诚然,由于不可知的领域差距,OOD-KD本质上是一项极具挑战性的任务。为此,我们介绍了一种方便而又令人惊讶的有效方法,被称为MosaicKD。MosaicKD背后的关键在于,来自不同领域的样本有共同的局部模式(local patt原创 2021-12-25 18:15:13 · 2537 阅读 · 0 评论 -
Variational Information Distillation for Knowledge Transfer
Variational Information Distillation for Knowledge Transfer将预先训练好的教师神经网络中的知识转移到学生神经网络中,可以显著提高学生神经网络的性能。现有的知识转移方法与教师和学生网络的激活或相应的手工特征相匹配。我们提出了一个知识转移的信息论框架,将知识转移描述为教师和学生网络之间的互信息最大化。我们将我们的方法与现有的知识转移方法在知识提炼和转移学习任务上进行了比较,结果表明我们的方法始终优于现有的方法。我们通过在CIFAR-10上将知识从卷积神原创 2021-04-28 12:06:20 · 813 阅读 · 1 评论 -
The Knowledge Within Methods for Data-Free Model Compression
The Knowledge Within: Methods for Data-Free Model Compression3. Methods for data-free distillation我们对无数据制度感兴趣,在这种制度下,给出的模型没有用于训练的相应数据集。这种制度反映了一种现实的情况,因为训练数据往往是保密的或私人的。因此,我们提供三种方法来生成有用的合成数据,用于蒸馏和校准。高斯方案:从高斯分布中随机抽取样本。初始方案:通过logit最大化生成样本(即,Inceptionism的一个原创 2021-04-22 22:53:41 · 320 阅读 · 0 评论 -
Deep Neural Networks are Easily Fooled High Confidence Predictions for Unrecognizable Images
Subclass Distillation当一个大型的“教师”神经网络在标记数据上训练后,教师分配给错误类的概率揭示了许多关于教师泛化方式的信息。通过训练一个小的“学生”模型来匹配这些概率,就有可能把教师的大部分泛化能力转移到学生身上,通常产生的小型模型比直接在训练数据上训练学生要好得多。当有许多可能的类时,迁移效果最好,因为更多的是关于教师学习的函数,但是在只有少数可能的类的情况下,我们表明,我们可以通过强迫教师将每个类划分为许多子类来改进迁移,这些子类是在监督训练期间发现的。训练学生最小化两个不同交原创 2021-03-12 17:47:32 · 199 阅读 · 0 评论 -
The State Of Knowledge Distillation For Classification Tasks
The State Of Knowledge Distillation For Classification Tasks我们调查了简单分类任务的各种知识提取(KD)策略,并实现了一组声称具有最新准确性的技术。我们使用标准化的模型架构、固定的计算预算和一致的训练计划进行的实验表明,这些蒸馏结果中的许多很难重现。这在使用某种形式的特征提取的方法中尤其明显。进一步的检查显示出缺乏可概括性,这些技术可能只适用于特定的架构和培训设置。我们观察到,适当调谐的经典蒸馏与数据增强训练方案相结合,比其他技术给出了正交改进。翻译 2020-07-08 17:59:20 · 303 阅读 · 0 评论 -
Distilling the Knowledge in a Neural Network
Neural Networks Are More Productive Teachers Than Human Raters我们研究了如何通过从黑匣子教师模型中提炼知识,以数据高效的方式训练学生深度神经网络进行视觉识别。在这个问题上的进展可以大大降低学习高性能视觉识别模型对大规模数据集的依赖性。有两个主要的挑战,一是应尽量减少对教师模型的查询次数,以节省计算和/或财务成本。另一个挑战是,用于知识提炼的图像数量要少,否则就违背了我们减少对大规模数据集的依赖性的期望。为了应对这些挑战,我们提出了一种混合和主动翻译 2020-07-08 17:57:35 · 231 阅读 · 0 评论 -
Distilling the Knowledge in a Neural Network
Distilling the Knowledge in a Neural NetworkAbstract提高几乎任何机器学习算法性能的一个非常简单的方法是在相同的数据上训练许多不同的模型,然后对它们的预测进行平均[3]。不幸的是,使用一整套模型进行预测是很麻烦的,而且计算成本可能太高,不允许部署到大量用户,特别是在单个模型是大型神经网络的情况下。Caruana和他的合作者[1]已经表明,将集成中的知识压缩到一个更易于部署的单一模型中是可能的,并且我们使用不同的压缩技术进一步开发了这种方法。我们在MNIS翻译 2020-07-08 17:50:58 · 114 阅读 · 0 评论