![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
data-free
文章平均质量分 88
weixin_37958272
这个作者很懒,什么都没留下…
展开
-
Contrastive Model Inversion for Data-Free Knowledge Distillation
Contrastive Model Inversion for Data-Free Knowledge DistillationModel inversion,其目标是从预训练的模型中恢复训练数据,最近被证明是可行的。然而,现有的inversion方法通常存在模式崩溃问题,即合成的样本彼此高度相似,因此对下游任务(如知识蒸馏)的有效性有限。在本文中,我们提出了 Contrastive Model Inversion (CMI),其中数据多样性被明确地建模为一个可优化的目标,以缓解模式崩溃问题。我们主要观原创 2021-08-03 18:31:28 · 685 阅读 · 0 评论 -
Mosaicking to Distill Knowledge Distillation from Out-of-Domain Data
Mosaicking to Distill: Knowledge Distillation from Out-of-Domain Data在本文中,我们试图解决一项雄心勃勃的任务,即域外知识蒸馏(OOD-KD),它允许我们只使用可以以非常低的成本轻易获得的OOD数据来进行KD。诚然,由于不可知的领域差距,OOD-KD本质上是一项极具挑战性的任务。为此,我们介绍了一种方便而又令人惊讶的有效方法,被称为MosaicKD。MosaicKD背后的关键在于,来自不同领域的样本有共同的局部模式(local patt原创 2021-12-25 18:15:13 · 2537 阅读 · 0 评论 -
Data-Free Network Quantization With Adversarial Knowledge Distillation
Data-Free Network Quantization With Adversarial Knowledge Distillation1. Introduction在本文中,我们提出了一个对抗性知识提炼框架,在无法获得原始训练数据的损失时,通过对抗性学习使最坏情况下的可能损失(最大损失)最小化。与[36]的关键区别在于,给定任何元数据,我们利用它们来约束对抗性学习框架中的发生器。为了避免额外的努力来制作新的元数据来分享,我们使用存储在批量规范化层中的统计数据来约束生成器,使其产生模仿原始训练数据的原创 2021-04-27 17:45:46 · 679 阅读 · 0 评论 -
Synthesizing the preferred inputs for neurons in neural networks via deep generator networks
该算法(1)生成质量上最先进的合成图像,看起来几乎是真实的;(2)以可解释的方式揭示每个神经元学习的特征;(3)对新的数据集有很好的概括性,对不同的网络结构也有一定的概括性,而不需要重新学习先验;(4)可以被视为一种高质量的生成方法(在这种情况下,通过生成新颖、创造性、有趣、可识别的图像)。1 Introduction and RelatedWork受这类神经科学研究的启发,我们有兴趣通过为DNNs的每一个神经元寻找首选的输入来揭示DNNs的内部工作机制。正如神经科学家所做的那样,人们可以简单地向神经网原创 2021-04-23 17:40:38 · 493 阅读 · 0 评论 -
Diversifying Sample Generation for Accurate Data-Free Quantization
Diversifying Sample Generation for Accurate Data-Free Quantization量化已经成为压缩和加速神经网络的最普遍的方法之一。最近,无数据量化作为一种实用且有前景的解决方案得到了广泛研究。它根据FP32的批归一化(BN)统计量合成数据来校准量化模型,大大缓解了传统量化方法对真实训练数据的严重依赖。遗憾的是,我们发现在实际应用中,由BN统计量约束的合成数据在分布层面和样本层面都存在严重的同质化问题,进一步导致量化模型的性能明显下降。我们提出了多样化样原创 2021-03-26 14:52:38 · 625 阅读 · 0 评论 -
DivCo Diverse Conditional Image Synthesis via Contrastive Generative Adversarial Network
DivCo: Diverse Conditional Image Synthesis via Contrastive Generative Adversarial Network条件生成对抗网络(Conditional generative advictorial networks,cGANs)的目标是在给定输入条件和latent codes的情况下合成各种不同的图像,但不幸的是,它们通常会遇到模式崩溃的问题。为了解决这个问题,以前的工作[47,22]主要集中在鼓励latent codes与其生成的图像之原创 2021-03-25 16:12:30 · 622 阅读 · 0 评论 -
Unsupervised Domain Adaptation by Backpropagation
Unsupervised Domain Adaptation by Backpropagation顶级性能的深层体系结构是在大量标记数据上训练的。在某项任务没有标记数据的情况下,域适配(domain adaptation)通常提供了一个有吸引力的选择,因为具有相似性质但来自不同domain的标记数据(例如合成图像)是可用的。在这里,我们提出了一种新的深度体系结构domain adaptation方法,该方法可以训练来自source domain的大量标记数据和来自target domain的大量未标记数据原创 2021-03-23 17:29:16 · 2272 阅读 · 0 评论 -
Implicit Generation and Generalization with Energy-Based Models
Implicit Generation and Generalization with Energy-Based Models基于能量的模型(ebm)由于其在似然建模中的通用性和简单性而具有吸引力,但传统上很难训练。我们通过现代架构上的MCMC框架提出了扩展EBM训练的技术。我们发现,EBMs上的MCMC在CIFAR10上生成的真实图像样本比最新的似然模型更为一致,并且与GANs相当,而没有出现模式崩溃,并且在时间序列数据上明显优于相同的前馈模型。我们进一步表明,EBMs能够实现比其他最先进的生成模型更好原创 2021-03-23 15:06:20 · 390 阅读 · 0 评论 -
Bayesian Learning via Stochastic Gradient Langevin Dynamics
Bayesian Learning via Stochastic Gradient Langevin Dynamics在本文中,我们提出了一个新的框架,用于从大规模数据集中学习,基于从small mini-batches中迭代学习。通过在标准的随机梯度优化算法中加入适量的噪声,我们表明,当我们anneal the stepsize,迭代将收敛到真实后验分布的样本。这种优化和贝叶斯后验抽样之间的无缝过渡提供了一个内在的保护,防止过度拟合。我们还提出了一种实用的后验统计蒙特卡罗估计方法,它可以监控 “抽样阈值原创 2021-03-23 11:22:20 · 3173 阅读 · 0 评论 -
YOUR CLASSIFIER IS SECRETLY AN ENERGY BASED MODEL AND YOU SHOULD TREAT IT LIKE ONE
YOUR CLASSIFIER IS SECRETLY AN ENERGY BASED MODEL AND YOU SHOULD TREAT IT LIKE ONE我们提出将标准的判别分类器p(y∣x)p(y|x)p(y∣x)重新解释为基于能量的联合分布模型p(x,y)p(x,y)p(x,y)。在此设置中,标准类概率以及p(x)和p(y∣x)p(y|x)p(y∣x)的unnormalized values可以容易地计算。可以使用标准的判别架构,模型也可以在未标记的数据上进行训练。我们证明了基于能量的联合分原创 2021-03-22 20:37:36 · 523 阅读 · 0 评论 -
A Tutorial on Energy-Based Learning 2.2
2.2 Examples of Loss Functions我们现在描述了机器学习文献中提出和使用的一些标准损失函数。我们将讨论它们,并在基于能量的环境中将它们分为“好”或“坏”。暂时,我们抛开正则化项,集中在损失函数的数据相关部分。2.2.1 Energy Loss所有损失函数中最简单和最直接的是能量损失。对于训练样本(Xi,yi),每个样本的损失定义如下:这种损失函数虽然在回归和神经网络训练等方面非常流行,但不能用于训练大多数体系结构:虽然这种损失会降低所需答案的能量,但不会增加任何其他能量。原创 2021-03-22 17:32:47 · 121 阅读 · 0 评论 -
A Tutorial on Energy-Based Learning
A Tutorial on Energy-Based Learning1 Introduction: Energy-Based Models统计建模和机器学习的主要目的是编码变量之间的依赖关系。通过捕获这些依赖关系,模型可以用来回答给定已知变量值的未知变量值的问题。基于能量的模型(ebm)通过将标量能量(兼容性的度量)与变量的每个configuration相关联来捕获依赖性。推理,即作出预测或决定,包括设定观察变量的值c和找出使能量最小化的剩余变量的值。学习包括找到一个能量函数,将低能量与其余变量的正原创 2021-03-22 15:55:55 · 700 阅读 · 0 评论 -
Domain Impression A Source Data Free Domain Adaptation Method
Domain Impression: A Source Data Free Domain Adaptation Method无监督域自适应方法解决了一个未标记目标集的自适应问题,假设源数据集具有所有标签。然而,在实际案例中,实际来源样本的可用性并不总是可能的。这可能是由于内存限制、隐私问题和共享数据的挑战造成的。这个实际场景在域适配问题中造成了一个瓶颈。本文通过提出一种不需要任何源数据的domain adaptation technique来解决这一具有挑战性的问题。我们只提供了一个在源数据上训练的分类器原创 2021-03-22 01:39:52 · 840 阅读 · 0 评论 -
Large-Scale Generative Data-Free Distillation
Large-Scale Generative Data-Free Distillation我们提出了一种新的方法,通过利用训练教师网络的内在归一化层的统计数据来训练生成式图像模型。这使我们能够构建一个无需训练数据的生成器集合,从而有效地生成后续蒸馏的替代输入。该方法使CIFAR-10和CIFAR-100的无数据蒸馏性能分别提高到95.02%和77.02%。此外,我们能够将其扩展到ImageNet数据集,据我们所知,在无数据环境中,从未使用生成模型。[外链图片转存失败,源站可能有防盗链机制,建议将图片保原创 2021-03-19 17:50:05 · 483 阅读 · 0 评论 -
Learning in School Multi-teacher Knowledge Inversion for Data-Free Quantization
Learning in School: Multi-teacher Knowledge Inversion for Data-Free Quantization之前的工作提出通过匹配给定的特定预训练模型的激活分布来生成假图像。然而,这种假数据不能轻易地应用于其他模型,并且是通过一个不变的目标来优化,导致缺乏通用性和多样性。为了解决这些问题,我们提出了Learning in School(LIS)算法,能够通过反转多个教师的知识来生成适合所有模型的图像。我们进一步引入了一种分散式的训练策略,通过从hiera原创 2021-03-19 16:39:31 · 209 阅读 · 0 评论 -
Effectiveness of Arbitrary Transfer Sets for Data-free Knowledge Distillation
Effectiveness of Arbitrary Transfer Sets for Data-free Knowledge Distillation其中一些方法(如[14])需要额外存储关于原始训练数据集的元数据(如教师模型的特征统计)以生成合成转移集。此外,在图像数据的情况下,经常观察到生成的样本与训练数据样本在视觉上相当不同(图1(a))。也就是说,它们并不靠近数据歧管中的训练样本。同时,目前还不清楚,尽管这些样本看起来是 "非分布 "和 "远离真实 "的,但如何或为什么这些样本能够在模型之间原创 2021-03-19 11:26:57 · 142 阅读 · 0 评论 -
Layer-Wise Data-Free CNN Compression
Layer-Wise Data-Free CNN Compression我们的无数据网络压缩方法从一个训练好的网络开始,创建一个具有相同体系结构的压缩网络。这种方法在概念上类似于知识蒸馏[23],即使用预先训练好的“教师”网络来训练“学生”网络。但是知识蒸馏需要训练数据。以前的方法都是通过生成数据来解决这个问题,比如Adversarial Knowledge Distillation(AKD)[6]和Deep Inversion(DI)[51]。然而,这些方法的计算成本很高。图1。我们的方法概述。我们原创 2021-03-19 09:31:59 · 1069 阅读 · 0 评论 -
Data-Free Quantization ThroughWeight Equalization and Bias Correction
Data-Free Quantization ThroughWeight Equalization and Bias Correction然而,量化模型以8位运行是一项非平凡的任务,经常会导致性能显著降低或花费工程时间来训练网络以适应量化。我们的方法是通过利用激活函数的scale-equivariance property来均衡网络中的权重范围。此外,该方法还校正了量化过程中引入的误差偏差。这提高了量化精度性能,并且可以通过直接的API调用应用于许多常见的计算机视觉体系结构。对于常见的体系结构,如Mobi原创 2021-03-17 20:36:16 · 335 阅读 · 0 评论