
知识蒸馏
文章平均质量分 89
乱搭巴士
debug
展开
-
【深度学习可视化】用t-sne可视化CIFAR100数据集的测试结果
【代码】【深度学习可视化】用t-sne可视化CIFAR100数据集的测试结果。原创 2022-09-14 22:21:16 · 1520 阅读 · 0 评论 -
【论文笔记_对比学习_2021】Supervised Contrastive Learning
近年来,应用于自我监督表示学习的对比学习再次兴起,导致了深度图像模型的无监督训练中的艺术表现。现代批量对比方法包含或明显优于传统的对比损失,如三元组、最大余量和N对损失。在这项工作中,我们将自我监督的批量对比方法扩展到完全监督的设置,使我们能够有效地利用标签信息。属于同一类的点的聚类在嵌入空间中被拉在一起,同时推开来自不同类的样本的聚类。我们分析了监督对比(SupCon)损失的两种可能版本,确定了损失的最佳表现形式。交叉熵损失是深度分类模型的监督学习中最广泛使用的损失函数。我们的主要贡献总结如下。.....原创 2022-07-25 20:12:47 · 1962 阅读 · 0 评论 -
【论文笔记_自蒸馏_2021】GROUND-TRUTH TARGETS DAMPEN REGULARIZATION IMPOSED BY SELF-DISTILLATION
即使是你的老师也需要指导:真实目标抑制了自我蒸馏所施加的正则化。知识蒸馏是一个经典的程序,其中一个神经网络与原始目标一起在另一个网络的输出上进行训练,以便在架构之间转移知识。在自我蒸馏的特殊情况下,网络架构是相同的,已经被观察到可以提高泛化的准确性。在本文中,我们考虑了在核回归设置中自我蒸馏的迭代变体,其中连续的步骤包含了模型输出和地面真实目标。这使得我们能够提供第一个关于在自我蒸馏过程中使用加权真实目标的重要性的理论结果。我们的重点是用适合蒸馏的加权均方误差目标函数来拟合非线性函数的训练数据,但要符合模原创 2022-07-12 22:29:54 · 944 阅读 · 0 评论 -
【论文笔记_知识蒸馏_2021】UPANets: Learning from the Universal Pixel Attention Networks
PANets:向通用像素注意力网络学习图像分类中,skip和基于密集连接的网络占据了大多数排行榜。最近,从多头注意力在自然语言处理中的成功发展来看,可以肯定,现在是一个要么使用类似变压器的模型,要么使用具有注意力的混合细胞神经网络的时代。然而,前者需要巨大的资源来培养,而后者在这个方向上处于完美的平衡。在这项工作中,为了使细胞神经网络处理全局和局部信息,我们提出了UPANets,它用一种混合跳过密集连接结构来装备通道式注意力。此外,极端连接结构使UPANets具有更平滑的损耗前景。在实验中,UPANets原创 2022-06-23 11:23:14 · 1283 阅读 · 0 评论 -
【论文笔记_知识蒸馏_2022】Masked Generative Distillation
摘要知识提炼已经成功地应用于各种任务。当前的蒸馏算法通常通过模仿老师的输出来提高学生的表现。本文表明,教师也可以通过指导学生的特征恢复来提高学生的表征能力。从这个角度出发,我们提出了掩蔽生成蒸馏(MGD),它很简单:我们掩蔽学生特征的随机像素,通过一个简单的块,迫使它生成老师的全部特征。MGD是一种真正通用的基于特征的提取方法,可用于各种任务,包括图像分类、对象检测、语义分割和实例分割。我们用大量的数据集对不同的模型进行了实验,结果表明所有的学生都取得了很大的进步。值得注意的是,我们将ResNet-18.原创 2022-05-30 14:24:31 · 1798 阅读 · 0 评论 -
【论文笔记_知识蒸馏_2022】Spot-adaptive Knowledge Distillation
点自适应知识蒸馏摘要知识提取(KD)已经成为压缩深度神经网络的一个良好建立的范例。进行知识提炼的典型方式是在教师网络的监督下训练学生网络,以利用教师网络中一个或多个点(即,层)的知识。蒸馏点一旦指定,在整个蒸馏过程中,所有训练样本的蒸馏点都不会改变。在这项工作中,我们认为蒸馏点应该适应训练样本和蒸馏时期。因此,我们提出了一种新的提取策略,称为点自适应KD (SAKD ),在整个提取周期的每次训练迭代中,自适应地确定每个样本在教师网络中的提取点。由于SAKD实际上关注的是“从哪里蒸馏”,而不是大多数现有.原创 2022-05-30 09:48:57 · 742 阅读 · 0 评论 -
【论文笔记_知识蒸馏_2022】Knowledge Distillation from A Stronger Teacher
来自一个更强的教师的知识蒸馏摘要不同于现有的知识提取方法侧重于基线设置,其中教师模型和培训策略不如最先进的方法强大和有竞争力,本文提出了一种称为DIST的方法,以从更强的教师中提取更好的知识。我们从经验上发现,学生和更强的老师之间的预测差异可能会相当严重。因此,KL散度预测的精确匹配将干扰训练,并使现有方法表现不佳。在本文中,我们证明了简单地保持教师和学生的预测之间的关系就足够了,并提出了一种基于相关性的损失来显式地捕捉来自教师的内在类间关系。此外,考虑到不同实例对每个类具有不同的语义相似性,我们还将.原创 2022-05-26 15:25:47 · 1358 阅读 · 1 评论 -
【论文笔记_知识蒸馏_2022】Class-Incremental Learning by Knowledge Distillation with Adaptive Feature Consolida
摘要我们提出了一种基于深度神经网络的新型类增量学习方法,该方法在有限的内存中不断学习新的任务,用于存储以前任务中的例子。我们的算法以知识提炼为基础,提供了一种原则性的方法来保持旧模型的表征,同时有效地调整到新任务。所提出的方法估计了模型更新所产生的表征变化和损失增加之间的关系。它利用表征最小化了损失增加的上界,这利用了骨干模型内每个特征图的估计重要性。基于重要性,该模型限制重要特征的更新以获得稳健性,同时允许不太关键的特征的变化以获得灵活性。这种优化策略有效地缓解了臭名昭著的灾难性遗忘问题,尽管前面的任.原创 2022-05-05 17:11:53 · 3714 阅读 · 0 评论 -
【论文笔记_知识蒸馏_目标检测_2022】Decoupled Knowledge Distillation
摘要目前最先进的蒸馏方法主要是基于从中间层蒸馏出深层特征,而对数蒸馏的意义被大大忽略了。为了提供一个研究Logit蒸馏的新观点,我们将经典的KD损失重新表述为两个部分,即目标类知识蒸馏(TCKD)和非目标类知识蒸馏(NCKD)。我们对这两部分的效果进行了实证调查和证明。TCKD传递有关训练样本 "难度 "的知识,而NCKD则是Logit蒸馏法发挥作用的突出原因。更重要的是,我们揭示了经典的KD损失是一个耦合的表述,它(1)抑制了NCKD的有效性,(2)限制了平衡这两部分的灵活性。为了解决这些问题,我们提.原创 2022-05-02 14:56:37 · 3072 阅读 · 0 评论 -
【论文笔记_自蒸馏_知识蒸馏_2022】Self-Distillation from the Last Mini-Batch for Consistency Regularization
摘要知识提炼(KD)作为一种强大的正则化策略,通过利用学到的样本级软目标来提高泛化能力,显示了光明的前景。然而,在现有的KD中采用复杂的预训练教师网络或同伴学生的集合,既耗时又耗费计算成本。为了实现更高的蒸馏效率,人们提出了许多自我KD方法。然而,它们要么需要额外的网络结构修改,要么难以并行化。为了应对这些挑战,我们提出了一个高效、可靠的自蒸馏框架,命名为 “来自最后小批量的自蒸馏”(DLB)。具体来说,我们通过限制每个小批的一半与前一个迭代相吻合来重新安排顺序采样。同时,其余的一半将与即将到来的迭代相.原创 2022-04-16 18:37:27 · 5248 阅读 · 1 评论 -
【论文笔记_知识蒸馏_2021】KNOWLEDGE DISTILLATION VIA SOFTMAX REGRESSION
代码地址:https://github.com/jingyang2017/KD_SRRL摘要本文通过知识提炼解决了模型压缩的问题。我们主张采用一种优化学生网络倒数第二层的输出特征的方法,因此与表征学习直接相关。为此,我们首先提出了一种直接的特征匹配方法,它只关注优化学生的倒数第二层。其次,更重要的是,由于特征匹配没有考虑到手头的分类问题,我们提出了第二种方法,将表征学习和分类解耦,利用教师的预训练分类器来训练学生的倒数第二层特征。特别是,对于相同的输入图像,我们希望教师和学生的特征在通过教师的分类器时.原创 2022-04-13 17:53:16 · 3349 阅读 · 0 评论 -
【论文笔记_知识蒸馏_2022】Knowledge Distillation with the Reused Teacher Classifier
代码地址:https://github.com/Rorozhl/CA-MKDhttps://github.com/zju-vipa/DataFree(下文中的知识提炼即知识蒸馏)摘要知识提炼的目的是将一个强大而繁琐的教师模型压缩到一个轻量级的学生模型中,而不至于牺牲很多性能。为此,在过去的几年里,人们提出了各种方法,一般都有精心设计的知识表示,这反过来又增加了模型开发和解释的难度。相比之下,我们的经验表明,一个简单的知识提炼技术足以大大缩小师生之间的性能差距。我们直接将预先训练好的教师模型中的判.原创 2022-04-11 17:26:47 · 4951 阅读 · 3 评论 -
【论文笔记_知识蒸馏_2019】Variational Information Distillation for Knowledge Transfer
摘要将完成相同或类似任务的教师神经网络的知识传递给学生神经网络可以显著提高学生神经网络的性能。现有的知识转移方法匹配教师和学生网络的激活或相应的手工特征。我们提出了知识转移的信息理论框架,将知识转移定义为最大化师生网络之间的相互信息。我们将我们的方法与现有的知识转移方法在知识蒸馏和转移学习任务上进行了比较,结果表明我们的方法始终优于现有的方法。通过将知识从卷积神经网络(CNN)转移到CIFAR-10上的多层感知器(MLP),我们进一步证明了我们的方法在跨异构网络架构的知识转移方面的优势。最终的MLP显著.原创 2022-04-05 21:47:30 · 4142 阅读 · 0 评论 -
【论文笔记_知识蒸馏_对比学习_2020】CONTRASTIVE REPRESENTATION DISTILLATION
(representational knowledge暂译为表征知识)代码地址::http://github.com/HobbitLong/RepDistiller摘要我们通常希望将表征知识从一个神经网络转移到另一个神经网络。例如,将一个大的网络提取为一个小的网络,将知识从一个感官模态转移到另一个感官模态,或将一组模型整合到一个估计器中。知识提炼是解决这些问题的标准方法,它将教师和学生网络的概率输出之间的KL差异最小化。我们证明了这个目标忽略了教师网络的重要结构知识。这激发了另一个目标,通过这个目标.原创 2022-04-02 17:35:39 · 5050 阅读 · 0 评论 -
【论文笔记_知识蒸馏_2022】It’s All in the Head:Representation Knowledge Distillation through Classifier Sharin
代码地址:https://github.com/Alibaba-MIIL/HeadSharingKD摘要表示知识提取旨在将丰富的信息从一个模型传递到另一个模型。目前的表示提取方法主要集中于模型嵌入向量之间距离度量的直接最小化。这种直接方法可能局限于传输嵌入在表示向量中的高阶依赖,或者处理教师和学生模型之间的能力差距。在本文中,我们介绍了两种通过教师和学生之间的分类器共享来增强表示升华的方法。具体地说,我们首先表明,将教师的分类器连接到学生主干并冻结其参数有利于表征提取过程,从而产生一致的改进。然后,我.原创 2022-04-01 11:19:17 · 3584 阅读 · 0 评论 -
【论文笔记_自知识蒸馏_2021】Revisiting Knowledge Distillation via Label Smoothing Regularization
摘要知识提炼(KD)旨在将繁琐的教师模型中的知识提炼为轻量级的学生模型。它的成功通常归功于教师模型提供的关于类别之间相似性的特权信息,从这个意义上说,只有强大的教师模型被部署在实践中教较弱的学生。在这项工作中,我们通过以下实验观察来挑战这一共同信念:1)除了承认教师可以改善学生,学生还可以通过逆转KD程序显著提高教师;2) 一位训练有素的教师,其准确度比学生低得多,仍然可以显著提高后者。为了解释这些观察结果,我们对KD和标签平滑正则化之间的关系进行了理论分析。我们证明了1)KD是一种学习标签平滑正则化,.原创 2022-03-30 16:33:16 · 3904 阅读 · 0 评论 -
【论文笔记_知识蒸馏、注意力机制、2017经典论文】PAYING MORE ATTENTION TO ATTENTION
摘要注意力在人类视觉体验中起着至关重要的作用。此外,最近的研究表明,在将人工神经网络应用于计算机视觉和NLP等领域的各种任务时,注意力也可以发挥重要作用。在这项工作中,我们表明,通过正确定义卷积神经网络的注意,我们实际上可以使用这类信息,通过强迫学生CNN网络模仿强大教师网络的注意图,显著提高其性能。为此,我们提出了几种转移注意力的新方法,在各种数据集和卷积神经网络结构中表现出一致的改进。我们的实验代码和模型在https://github.com/szagoruyko/attention-transfe.原创 2022-03-17 16:04:13 · 3729 阅读 · 0 评论 -
【论文笔记_在线蒸馏、GAN】Online Multi-Granularity Distillation for GAN Compression
2021年。摘要生成性对抗网络(GAN)在生成优秀图像方面取得了巨大的成功,但是,由于计算成本高,内存使用量大,在资源有限的设备上部署GAN非常困难。尽管最近压缩GAN的努力取得了显著的成果,但它们仍然存在潜在的模型冗余,可以进一步压缩。为了解决这个问题,我们提出了一种新的在线多粒度蒸馏(OMGD)方案来获得轻量级的GAN,这有助于以较低的计算需求生成高保真图像。我们首次尝试将单级在线蒸馏推广到面向GAN的压缩,逐步升级的教师生成器有助于改进基于无鉴别器的学生生成器。互补的教师生成器和网络层提供了全面.原创 2022-03-11 16:29:46 · 4954 阅读 · 0 评论 -
【论文笔记_知识蒸馏】Interactive Knowledge Distillation for image classification
摘要知识提炼(KD)是一个标准的师生学习框架,在训练有素的大型教师网络的指导下,培养一个轻量级的学生网络。互动教学作为一种有效的教学策略,在学校得到了广泛的应用,以激发学生的学习动机。在互动教学中,教师不仅提供知识,而且对学生的反应给予建设性的反馈,以提高学生的学习成绩。在这项工作中,我们提出了交互式知识提炼(IAKD)来利用交互式教学策略进行有效的知识提炼。在提取过程中,教师网络和学生网络之间的交互是通过交换操作实现的:用教师网络中相应的块随机替换学生网络中的块。通过这种方式,我们直接涉及到教师...原创 2022-03-10 18:53:34 · 2350 阅读 · 0 评论 -
【论文笔记_自监督蒸馏】SEED: SELF-SUPERVISED DISTILLATION FOR VISUAL REPRESENTATION
2021年。摘要本文研究小模型的自监督学习。我们的实证研究表明,虽然广泛使用的对比自监督学习方法在大模型训练方面取得了很大的进步,但在小模型训练中效果并不理想。为了解决这个问题,我们提出了一种新的学习范式,称为自我监督蒸馏(SEED),我们利用一个更大的网络(作为教师)以自我监督的方式将其代表性知识转移到一个更小的体系结构(作为学生)中。我们没有直接从未标记的数据中学习,而是训练一个学生编码器来模拟教师在一组实例上推断的相似性分数分布。我们发现,SEED极大地提高了小型网络在下游任务上的性能。与自我监.原创 2022-03-10 17:00:26 · 1874 阅读 · 0 评论 -
【论文笔记_知识蒸馏】Adaptive multi-teacher multi-level knowledge distillation
摘要知识提炼(KD)是一种有效的学习范式,通过利用从教师网络中提炼的额外监督知识来提高轻量级学生网络的性能。大多数开创性研究要么在学习方法上只向一名教师学习,忽视了一名学生可以同时向多名教师学习的潜力,要么简单地将每位教师视为同等重要,无法揭示教师对具体例子的不同重要性。为了弥补这一差距,我们提出了一种新的自适应多教师多级知识提炼学习框架(AMTML-KD),这包括两个新的见解:(i)将每个教师与潜在的表示相关联,以自适应地学习实例级教师重要性权重,从而获得综合软目标(高级知识)和(ii)使中级提示(中.原创 2022-03-09 10:54:46 · 4047 阅读 · 5 评论 -
【论文翻译_自监督、目标检测】Distilling Localization for Self-Supervised Representation Learning
摘要对比学习的最新进展彻底改变了无监督表征学习。具体来说,来自同一图像的多个视图(增强)被鼓励映射到类似的嵌入,而来自不同图像的视图被分开。在本文中,通过可视化和诊断分类错误,我们观察到当前的对比模型在定位前景对象方面是无效的,限制了它们提取有区别的高层特征的能力。这是因为视图生成过程统一考虑图像中的像素。为了解决这个问题,我们提出了一种数据驱动的学习背景不变性的方法。它首先估计图像中的前景显著性,然后通过复制和粘贴前景到各种背景上来创建增强效果。学习仍然遵循实例辨别借口任务,因此,表征被训练为忽略背景内原创 2022-03-07 10:08:26 · 2410 阅读 · 0 评论 -
【论文翻译_知识蒸馏】Distilling Holistic Knowledge with Graph Neural Networks
(以下的“提取”都可以替换为“蒸馏”)摘要知识提炼(KD)旨在将知识从一个更大的优化教师网络转移到一个更小的可学习学生网络。现有的知识发现方法主要考虑了两类知识,即个体知识和关系知识。然而,这两类知识通常是独立建模的,而它们之间的内在关联在很大程度上被忽略。充分利用学生网络学习,在保留其内在相关性的同时,整合个人知识和关系知识是至关重要的。在本文中,我们提出了基于实例间构造的属性图来提取新的整体知识。整体知识表示为一个统一的基于图的嵌入,通过使用图神经网络聚合关系邻域样本中的个体知识,通过对比方式提取.原创 2022-03-03 17:48:08 · 1386 阅读 · 0 评论 -
【论文翻译_知识蒸馏】Distilling Knowledge via Knowledge Review
(以下的“审查”皆可替换为“复习”)摘要知识蒸馏将知识从教师网络转移到学生网络,目的是大大提高学生网络的性能。以往的方法大多侧重于提出同级特征之间的特征转换和损失函数,以提高效率。通过对师生网络连接路径跨层因素的不同研究,揭示了其重要性。首次在知识提取中提出了跨级连接路径。我们的新复习机制有效,结构简单。我们最终设计的嵌套且紧凑的框架所需的计算开销可以忽略不计,并且在各种任务上优于其他方法。我们将我们的方法应用于分类、对象检测和实例分割任务。所有这些都见证了学生网络性能的显著提高。一、介绍深度卷积.原创 2022-02-23 10:58:49 · 1461 阅读 · 1 评论 -
【论文翻译_对抗攻击、知识蒸馏】AGKD-BML: Defense Against Adversarial Attack by Attention Guided Knowledge
AGKD-BML: Defense Against Adversarial Attack by Attention GuidedKnowledge Distillation and Bi-directional Metric LearningHong Wang, Yuefan Deng, Shinjae Yoo, Haibin Ling, Yuewei LinStony Brook University, Stony Brook, NY, USABrookhaven National Laborat原创 2022-02-21 10:46:59 · 1326 阅读 · 0 评论 -
【论文翻译_自监督知识蒸馏】Self-supervised Label Augmentation via Input Transformations
通过输入转换实现自监督标签增强Hankook Lee 1 Sung Ju Hwang 2 3 4 Jinwoo Shin 2 1摘要自我监督学习,通过在给定输入信号的情况下构建人工标签进行学习,最近在使用无标签数据集学习表示方面获得了相当多的关注,即在没有任何人工标注监督的情况下学习。在这篇论文中,我们展示了这种技术可以用来显著提高模型的准确性,即使在完全标记的数据集下。我们的方案训练模型学习原始任务和自我监督任务,但不同于传统的多任务学习框架,优化其相应损失的总和。我们的主要思想是针对原始标签和自我原创 2022-01-14 10:42:00 · 2798 阅读 · 0 评论 -
【论文翻译_自监督、无数据知识蒸馏】Learning Student Networks in the Wild
在“野外”学习学生网络摘要学生网络无数据学习是一种解决用户因使用原始训练数据而产生的隐私问题而产生焦虑的新范式。由于现代卷积神经网络(cnn)结构紧凑而复杂,因此从教师网络生成的替代图像或元数据经常被破坏。因此,学生网络无法达到与训练前的教师网络相媲美的性能,尤其是在大规模的图像数据集上。与以往的工作不同,我们提出了在野外最大限度地利用大量可用的未标记数据。具体来说,我们首先深入分析了教师与学生网络在原始数据上的输出差异,并开发了一种数据收集方法。然后,提出了一种噪声知识蒸馏算法来实现学生网络的性能。在原创 2022-01-12 10:20:43 · 2364 阅读 · 0 评论 -
【论文笔记_自监督知识蒸馏】Refine Myself by Teaching Myself : Feature Refinement via Self-Knowledge Distillation
通过自学来完善自己:基于自知识蒸馏的特征提取作者:Mingi Ji, Seungjae Shin, Seunghyun Hwang, Gibeom Park1Il-Chul Moon摘要知识提取是一种将知识从预先训练的复杂教师模型转移到学生模型的方法,因此在部署阶段,较小的网络可以取代较大的教师网络。为了减少培训大型教师模型的必要性,最近的文献介绍了一种自我知识蒸馏方法,该方法在没有预先培训的教师网络的情况下,逐步训练学生网络提取自己的知识。虽然自知识蒸馏在很大程度上分为基于数据增强的方法和基于辅助原创 2021-10-22 10:59:07 · 4470 阅读 · 0 评论