
个人学习_研究生
文章平均质量分 72
研究生阶段的个人学习内容
乱搭巴士
debug
展开
-
【STL源码分析】List双向链表源码分析。c++实现list双向链表。
参考链接:https://blog.csdn.net/man_sion/article/details/71003095?原创 2023-05-11 13:22:39 · 536 阅读 · 0 评论 -
爱思维尔投稿系统编译latex失败。Loading ‘expl3.sty‘ aborted!
与tex文件相关的都上传为Manuscript手稿类型,图片上传为Figure类型(注意文中的引用地址)。可以补充一个rar压缩文件作参考。投稿系统的texlive不支持我们主机上新版的文件,会出错。使用2019以前的CLS文件,下载地址可以看参考文献的。出错直接是一段乱码,不会生成PDF。原创 2023-04-25 16:19:22 · 722 阅读 · 0 评论 -
【c++_文件操作】查看txt文件是否为空/根据空格切割文件内容/修改文件内容
1、查看文件是否为空文件2、根据空格切割txt文件,存储到vector数组中先判断文件是否为空,不为空进行后续操作。使用全局函数getline逐行读取文件内容,存储到temp_data中,再逐行打印。3、修改文件内容方法一:由于文件流不能边读边写,因此使用了临时的txt文件存储修改后的内容. 使用该代码之后还需要覆盖原文件才能达到效果。方法二:原创 2022-12-05 16:56:40 · 1581 阅读 · 0 评论 -
c++:undefined reference to `execute::show_order(std::__cxx11::basic_string<char, std::char_trait
在使用自创建的头文件里的函数时,没有加上作用域。所以程序找不到对应的声明。加上作用域原创 2022-12-05 09:28:34 · 346 阅读 · 0 评论 -
c++引入了头文件没报错但是undefined reference to `info_manager::info_manager()‘
把该文件里的file改成file下面那一行,意思是编译该目录下的所有cpp文件。vscode只编译了主函数的cpp文件,没有编译自己创建的cpp文件。原创 2022-12-02 16:20:17 · 626 阅读 · 0 评论 -
【c++】使用map存储自定义数据类型,并按自定义数据类型排序
由于c++中的map只按照key来排序,当key为自定义数据类型时,需要人为编写仿函数来指定排序规则。本次产生错误的原因:在编写仿函数Mycompare的时候,没有加上const,报错了。原创 2022-11-28 14:13:06 · 1216 阅读 · 0 评论 -
VScode报错:找不到任务“g++.exe build active file”
以上是修改后的,因为task文件是自动生成的,label处错误写法是:g++.exe的生成活动文件(中文),而launch文件找不到中文,就报错找不到了。把task文件中的改成英文就可以了。错误原因:使用中文版的vscode,并且复制了网上的launch文件。找不到任务“g++.exe build active file”。原创 2022-11-21 15:00:27 · 6327 阅读 · 0 评论 -
【个人学习】找bibtex参考文献的方法
学校数据库进例如IEEE、springer等出版商的网站里面搜文章,找cite。进百度学术里,找到arxiv的页面(红白的),右侧会有bibtex按钮导出。挂梯子去谷歌学术找,镜像网站不好用。原创 2022-10-11 10:22:56 · 1184 阅读 · 0 评论 -
latex:使用英文模板中解决的问题,长公式换行,multirow使用导致的文字靠上等
解决方案:把\cline{2-5}修改为\cmidrule{2-5}使用&进行对齐,\进行换行,{aligned}进行左对齐。原创 2022-09-28 09:46:23 · 665 阅读 · 0 评论 -
【个人学习_Primer c++】总结及代码对照分析
个人学习部分,Primer c++第五版中文版。原创 2022-09-26 15:39:38 · 415 阅读 · 0 评论 -
SCI英文文献模板/查看SCI论文分区/tex模板的使用
elesvier的双栏论文的说明文档:https://support.stmdocs.in/wiki/index.php?参考链接:https://blog.csdn.net/larry233/article/details/102387370。2.使用overleaf进行在线编译tex文件,overleaf官网:https://www.overleaf.com/进去之后先注册,注册之后-创建新项目-上传自己的项目(官网下载的zip格式)先去官网,找到例如”guide for authors“,然后。原创 2022-09-26 10:03:02 · 1852 阅读 · 0 评论 -
【深度学习可视化】用t-sne可视化CIFAR100数据集的测试结果
【代码】【深度学习可视化】用t-sne可视化CIFAR100数据集的测试结果。原创 2022-09-14 22:21:16 · 1520 阅读 · 0 评论 -
MIT67数据集下载,Indoor Scene Recognition数据集及划分训练集测试集代码
MIT67室内场景数据集,共67个分类。原创的划分为训练集和测试集的代码。原创 2022-08-15 15:21:54 · 1820 阅读 · 0 评论 -
【论文笔记_对比学习_2021】Supervised Contrastive Learning
近年来,应用于自我监督表示学习的对比学习再次兴起,导致了深度图像模型的无监督训练中的艺术表现。现代批量对比方法包含或明显优于传统的对比损失,如三元组、最大余量和N对损失。在这项工作中,我们将自我监督的批量对比方法扩展到完全监督的设置,使我们能够有效地利用标签信息。属于同一类的点的聚类在嵌入空间中被拉在一起,同时推开来自不同类的样本的聚类。我们分析了监督对比(SupCon)损失的两种可能版本,确定了损失的最佳表现形式。交叉熵损失是深度分类模型的监督学习中最广泛使用的损失函数。我们的主要贡献总结如下。.....原创 2022-07-25 20:12:47 · 1962 阅读 · 0 评论 -
取matrix的值并与tensor值进行计算
我用[1,100]的matrix矩阵*[100,1]的矩阵得到了[1,1]的矩阵,然后要取得里面的值并且与一个tensor相加。原创 2022-07-24 21:32:49 · 603 阅读 · 0 评论 -
【论文笔记_对比学习_2021】CONTRASTIVE LEARNING WITH HARD NEGATIVE SAMPLES
如何才能为对比性学习提供好的负面例子?我们认为,就像度量学习一样,表征的对比性学习得益于硬性负面样本(即难以与锚点区分的点)。使用硬阴性样本的关键挑战是,对比性方法必须保持无监督状态,这使得采用现有的使用真实相似性信息的阴性采样策略变得不可行。作为回应,我们开发了一个新的无监督抽样方法系列,用于选择用户可以控制硬度的困难负样本。这种抽样的一个限制性案例导致了对每个类的紧密聚类,并将不同的类尽可能地推开的表现。所提出的方法改善了多种模式下的下游性能,只需要几行额外的代码来实现,并且没有引入计算开销。。....原创 2022-07-20 17:16:40 · 2465 阅读 · 0 评论 -
【论文笔记_对比学习_2020】A Simple Framework for Contrastive Learning of Visual Representations
本文介绍了SimCLR一个简单的视觉表征对比学习的框架。我们简化了最近提出的对比性自我监督学习算法,而不需要专门的架构或内存库。为了理解是什么使对比性预测任务能够学习有用的表征,我们系统地研究了我们框架的主要组成部分。我们表明(1)数据增强的组成在定义有效的预测任务中起着关键作用;(2)在表征和对比性损失之间引入可学习的非线性转换,大大改善了所学表征的质量;(3)与监督学习相比,对比性学习从更大的批次规模和更多的训练步骤中受益。在没有人类监督的情况下学习有效的视觉表征是一个长期存在的问题。......原创 2022-07-18 16:55:42 · 766 阅读 · 0 评论 -
【论文笔记_自蒸馏_2020】Regularizing Class-wise Predictions via Self-knowledge Distillation
具有数百万个参数的深度神经网络可能会因为过度拟合而导致泛化效果不佳。为了缓解这个问题,我们提出了一种新的正则化方法,对类似样本之间的预测分布进行惩罚。特别是,我们在训练期间提炼出同一标签的不同样本之间的预测分布。这导致了单个网络的暗知识(即关于错误预测的知识)的正则化(即自我知识的提炼),迫使它以类的方式产生更有意义和一致的预测。因此,它减轻了过度自信的预测,减少了类内变化。我们在各种图像分类任务上的实验结果表明,这种简单而强大的方法不仅可以显著提高现代卷积神经网络的泛化能力,而且可以提高其校准性能。…..原创 2022-07-14 22:42:07 · 1497 阅读 · 0 评论 -
【论文笔记_自蒸馏_2021】GROUND-TRUTH TARGETS DAMPEN REGULARIZATION IMPOSED BY SELF-DISTILLATION
即使是你的老师也需要指导:真实目标抑制了自我蒸馏所施加的正则化。知识蒸馏是一个经典的程序,其中一个神经网络与原始目标一起在另一个网络的输出上进行训练,以便在架构之间转移知识。在自我蒸馏的特殊情况下,网络架构是相同的,已经被观察到可以提高泛化的准确性。在本文中,我们考虑了在核回归设置中自我蒸馏的迭代变体,其中连续的步骤包含了模型输出和地面真实目标。这使得我们能够提供第一个关于在自我蒸馏过程中使用加权真实目标的重要性的理论结果。我们的重点是用适合蒸馏的加权均方误差目标函数来拟合非线性函数的训练数据,但要符合模原创 2022-07-12 22:29:54 · 944 阅读 · 0 评论 -
处理CUB_200_2011数据集,划分train和test
处理CUB_200_2011数据集,划分train和test原创 2022-07-07 11:54:58 · 1511 阅读 · 0 评论 -
【论文笔记_优化_2021】SHARPNESS-AWARE MINIMIZATION FOR EFFICIENTLY IMPROVING GENERALIZATION
有效提高泛化能力的清晰度感知最小化在当今高度过度参数化的模型中,训练损失的值几乎不能保证模型的泛化能力。事实上,通常只优化训练损失值,很容易导致次优的模型质量。受先前工作的启发,我们引入了一种新颖、有效的方法来同时最小化损失值和损失锐度。特别地,我们的过程,清晰度感知最小化(SAM),寻找位于具有一致低损失的邻域中的参数;这个公式导致最小最大优化问题,在这个问题上可以有效地执行梯度下降。我们提供的实证结果表明,SAM提高了各种基准数据集(例如,CIFAR-{10,100}、ImageNet、微调任务)和模原创 2022-06-29 10:33:47 · 4336 阅读 · 0 评论 -
【论文笔记_知识蒸馏_2021】UPANets: Learning from the Universal Pixel Attention Networks
PANets:向通用像素注意力网络学习图像分类中,skip和基于密集连接的网络占据了大多数排行榜。最近,从多头注意力在自然语言处理中的成功发展来看,可以肯定,现在是一个要么使用类似变压器的模型,要么使用具有注意力的混合细胞神经网络的时代。然而,前者需要巨大的资源来培养,而后者在这个方向上处于完美的平衡。在这项工作中,为了使细胞神经网络处理全局和局部信息,我们提出了UPANets,它用一种混合跳过密集连接结构来装备通道式注意力。此外,极端连接结构使UPANets具有更平滑的损耗前景。在实验中,UPANets原创 2022-06-23 11:23:14 · 1283 阅读 · 0 评论 -
【论文笔记_知识蒸馏_2022】Evaluation-oriented Knowledge Distillation for Deep Face Recognition
面向评价的深度人脸识别知识蒸馏知识提取(KD)是一种广泛使用的技术,它利用大型网络来提高紧凑模型的性能。以前的知识发现方法通常旨在引导学生在表示空间中完全模仿教师的行为。然而,这种一对一的对应约束可能导致从教师到学生的不灵活的知识转移,尤其是那些模型能力低的学生。受KD方法最终目标的启发,我们提出了一种新的面向评估的KD方法(EKD)用于深度人脸识别,以直接减少训练过程中教师和学生模型之间的性能差距。具体来说,我们采用人脸识别中常用的评价指标,即假阳性率(FPR)和真阳性率(TPR)作为性能指标。根据评估原创 2022-06-22 10:52:10 · 1048 阅读 · 0 评论 -
【论文笔记_知识蒸馏_2022】Compressing Deep Graph Neural Networks via Adversarial Knowledge Distillation
通过对立知识蒸馏压缩深度图神经网络深度图神经网络(GNNs)已被证明对图结构数据的建模具有表达能力。然而,深度图模型的过度堆积的体系结构使得在移动或嵌入式系统上部署和快速测试变得困难。为了压缩过度堆积的广义神经网络,通过师生架构进行知识提炼是一种有效的技术,其中关键步骤是用预定义的距离函数来度量教师和学生网络之间的差异。然而,对各种结构的图使用相同的距离可能是不合适的,并且最佳距离公式很难确定。为了解决这些问题,我们提出了一个新的图模型的对抗性知识蒸馏框架GraphAKD,它对抗性地训练一个鉴别器和一个生原创 2022-06-17 10:43:01 · 772 阅读 · 0 评论 -
【论文笔记_注意力_2021】Augmenting Convolutional networks with attention-based aggregation
用基于注意力的聚集来扩充卷积网络我们展示了如何用基于注意力的全局映射来扩充任何卷积网络,以实现非局部推理。我们用一个基于注意力的聚合层代替最终的平均池,该聚合层类似于单个变压器块,它对补丁如何参与分类决策进行加权。我们用由两个参数(宽度和深度)参数化的简单的基于补丁的卷积网络来插入这个学习的聚集层。与金字塔式设计相比,这种架构系列在所有层上保持输入面片分辨率。正如我们在各种计算机视觉任务(对象分类、图像分割和检测)上的实验所示,它在准确性和复杂性之间产生了令人惊讶的竞争性权衡,特别是在内存消耗方面。视觉转原创 2022-06-16 10:59:28 · 1200 阅读 · 0 评论 -
【论文笔记_目标检测_2022】Cross Domain Object Detection by Target-Perceived Dual Branch Distillation
基于目标感知双分支提取的跨域目标检测在野外,跨领域目标检测是一项现实而具有挑战性的任务。由于数据分布的巨大变化和目标域中缺乏实例级注释,它的性能会下降。现有的方法主要关注这两个困难中的任何一个,即使它们在跨域对象检测中紧密耦合。为了解决这个问题,我们提出了一个新的目标感知双分支蒸馏框架。通过将源领域和目标领域的检测分支集成在一个统一的师生学习方案中,可以减少领域转移并有效地产生可靠的监督。特别地,我们首先在两个域之间引入一个不同的目标提议感知者。通过利用来自迭代交叉注意的目标提议上下文,它可以自适应地增强原创 2022-06-07 10:48:13 · 1726 阅读 · 1 评论 -
【论文笔记_剪枝_知识蒸馏_2022】INDISTILL: TRANSFERRING KNOWLEDGE FROM PRUNED INTERMEDIATE LAYERS
在资源有限的硬件上部署深度神经网络,如智能手机和无人机,由于其计算复杂性,构成了巨大的挑战。知识提取方法旨在将知识从大型模型转移到轻量级模型,也分别称为教师和学生,而从中间层提取知识为该任务提供了额外的监督。模型之间的容量差距、破坏其架构一致性的信息编码以及缺乏用于转移多层的适当学习方案限制了现有方法的性能。在本文中,我们提出了一种新的方法,称为InDistill,它可以通过利用通道剪枝的属性来显著提高现有单层知识提取方法的性能,以减少模型之间的容量差距并保持体系结构的一致性。此外,我们提出了一个基于课程学原创 2022-06-02 11:29:09 · 609 阅读 · 0 评论 -
【论文笔记_知识蒸馏_2022】Masked Generative Distillation
摘要知识提炼已经成功地应用于各种任务。当前的蒸馏算法通常通过模仿老师的输出来提高学生的表现。本文表明,教师也可以通过指导学生的特征恢复来提高学生的表征能力。从这个角度出发,我们提出了掩蔽生成蒸馏(MGD),它很简单:我们掩蔽学生特征的随机像素,通过一个简单的块,迫使它生成老师的全部特征。MGD是一种真正通用的基于特征的提取方法,可用于各种任务,包括图像分类、对象检测、语义分割和实例分割。我们用大量的数据集对不同的模型进行了实验,结果表明所有的学生都取得了很大的进步。值得注意的是,我们将ResNet-18.原创 2022-05-30 14:24:31 · 1798 阅读 · 0 评论 -
【论文笔记_知识蒸馏_2022】Spot-adaptive Knowledge Distillation
点自适应知识蒸馏摘要知识提取(KD)已经成为压缩深度神经网络的一个良好建立的范例。进行知识提炼的典型方式是在教师网络的监督下训练学生网络,以利用教师网络中一个或多个点(即,层)的知识。蒸馏点一旦指定,在整个蒸馏过程中,所有训练样本的蒸馏点都不会改变。在这项工作中,我们认为蒸馏点应该适应训练样本和蒸馏时期。因此,我们提出了一种新的提取策略,称为点自适应KD (SAKD ),在整个提取周期的每次训练迭代中,自适应地确定每个样本在教师网络中的提取点。由于SAKD实际上关注的是“从哪里蒸馏”,而不是大多数现有.原创 2022-05-30 09:48:57 · 742 阅读 · 0 评论 -
【论文笔记_知识蒸馏_2022】Knowledge Distillation from A Stronger Teacher
来自一个更强的教师的知识蒸馏摘要不同于现有的知识提取方法侧重于基线设置,其中教师模型和培训策略不如最先进的方法强大和有竞争力,本文提出了一种称为DIST的方法,以从更强的教师中提取更好的知识。我们从经验上发现,学生和更强的老师之间的预测差异可能会相当严重。因此,KL散度预测的精确匹配将干扰训练,并使现有方法表现不佳。在本文中,我们证明了简单地保持教师和学生的预测之间的关系就足够了,并提出了一种基于相关性的损失来显式地捕捉来自教师的内在类间关系。此外,考虑到不同实例对每个类具有不同的语义相似性,我们还将.原创 2022-05-26 15:25:47 · 1358 阅读 · 1 评论 -
【论文笔记_目标检测_2022】POLYLOSS: A POLYNOMIAL EXPANSION PERSPECTIVE OF CLASSIFICATION LOSS FUNCTIONS
多元损失:分类损失函数的多项式展开观点摘要交叉熵损失和焦点损失是为分类问题训练深度神经网络时最常见的选择。然而,一般来说,一个好的损失函数可以采取更加灵活的形式,并且应该针对不同的任务和数据集进行定制。受如何通过泰勒展开来近似函数的启发,我们提出了一个简单的框架,名为PolyLoss,以将损失函数视为多项式函数的线性组合来进行设计。我们的PolyLoss允许根据目标任务和数据集轻松调整不同多项式基的重要性,同时自然地将前述交叉熵损失和焦点损失作为特例。大量的实验结果表明,PolyLoss中的最优选择确.原创 2022-05-17 14:41:32 · 1082 阅读 · 0 评论 -
【论文笔记_目标检测_2022】Proper Reuse of Image Classification Features Improves Object Detection
图像分类特征的适当重用改善了目标检测摘要迁移学习中的一个常见做法是通过对数据丰富的上游任务进行预训练来初始化下游模型权重。具体而言,在对象检测中,特征主干通常用ImageNet分类器权重来初始化,并在对象检测任务中进行微调。最近的研究表明,在长期的训练体制下,这并不是绝对必要的,并提供了从零开始训练骨干的方法。我们研究了这种端到端训练趋势的相反方向:我们表明,知识保留的一种极端形式——冻结分类器初始化的主干——持续改进许多不同的检测模型,并导致可观的资源节省。我们假设并通过实验证实,剩余的探测器组件容.原创 2022-05-17 09:17:00 · 825 阅读 · 0 评论 -
【论文笔记_计算机视觉_2022】Online Convolutional Re-parameterization
摘要在各种计算机视觉任务中,结构重参数化已引起越来越多的关注。它的目的是在不引入任何推理时间成本的情况下提高深度模型的性能。虽然在推理过程中很有效,但这种模型在很大程度上依赖于复杂的训练时间块来实现高精确度,从而导致了大量的额外训练成本。在本文中,我们提出了在线卷积重参数化(OREPA),这是一个两阶段的管道,旨在通过将复杂的训练时间块挤压到一个单一的卷积中来减少巨大的训练开销。为了实现这一目标,我们引入了一个线性缩放层来更好地优化在线块。在降低训练成本的协助下,我们还探索了一些更有效的重新参数化组件。.原创 2022-05-12 14:55:53 · 1018 阅读 · 0 评论 -
【论文笔记_目标检测_2022】Neighborhood Attention Transformer
摘要我们提出了邻域注意变换器(NAT),这是一个高效、准确和可扩展的分层变换器,在图像分类和下游视觉任务中都能很好地工作。它建立在邻域注意(NA)的基础上,这是一种简单而灵活的注意机制,它将每个查询的感受野定位到其最近的邻近像素。NA是一种自我注意的定位,并随着感受野大小的增加而接近自我注意。在相同的感受野大小下,它在FLOPs和内存使用方面也与Swin Transformer的移窗注意相当,而受限制较少。此外,NA还包括局部感应偏置,从而消除了对像素移位等额外操作的需要。在NAT上的实验结果是有竞争力.原创 2022-05-11 15:00:32 · 1803 阅读 · 1 评论 -
【论文笔记_知识蒸馏_2022】Class-Incremental Learning by Knowledge Distillation with Adaptive Feature Consolida
摘要我们提出了一种基于深度神经网络的新型类增量学习方法,该方法在有限的内存中不断学习新的任务,用于存储以前任务中的例子。我们的算法以知识提炼为基础,提供了一种原则性的方法来保持旧模型的表征,同时有效地调整到新任务。所提出的方法估计了模型更新所产生的表征变化和损失增加之间的关系。它利用表征最小化了损失增加的上界,这利用了骨干模型内每个特征图的估计重要性。基于重要性,该模型限制重要特征的更新以获得稳健性,同时允许不太关键的特征的变化以获得灵活性。这种优化策略有效地缓解了臭名昭著的灾难性遗忘问题,尽管前面的任.原创 2022-05-05 17:11:53 · 3714 阅读 · 0 评论 -
【论文笔记_视觉识别_2022】Unified Contrastive Learning in Image-Text-Label Space
摘要视觉识别最近是通过对人类注释的图像标签数据进行监督学习,或者通过网络抓取的图像-文本对进行语言-图像对比学习。虽然监督学习可能会产生一个更具辨别力的表征,但语言-图像预训练显示出前所未有的零距离识别能力,这主要是由于数据源和学习目标的不同特性。在这项工作中,我们通过将两个数据源合并到一个共同的图像-文本-标签空间,引入一个新的表述。在这个空间中,我们提出了一种新的学习范式,称为统一对比学习(UniCL),它具有单一的学习目标,可以无缝地促使两种数据类型的协同作用。广泛的实验表明,我们的UniCL是一.原创 2022-05-04 10:04:43 · 3195 阅读 · 2 评论 -
使用cv2.applyColorMap和神经网络产生的特征绘制注意力图
# 按通道压缩,feat1是分类器后的,feat2是分类器前的特征 with torch.no_grad(): feat_val, outputs_val = model(inputs) feat1 = feat_val[-1] feat1 = np.array(feat1.cpu())原创 2022-05-03 10:38:42 · 935 阅读 · 0 评论 -
【论文笔记_知识蒸馏_目标检测_2022】Decoupled Knowledge Distillation
摘要目前最先进的蒸馏方法主要是基于从中间层蒸馏出深层特征,而对数蒸馏的意义被大大忽略了。为了提供一个研究Logit蒸馏的新观点,我们将经典的KD损失重新表述为两个部分,即目标类知识蒸馏(TCKD)和非目标类知识蒸馏(NCKD)。我们对这两部分的效果进行了实证调查和证明。TCKD传递有关训练样本 "难度 "的知识,而NCKD则是Logit蒸馏法发挥作用的突出原因。更重要的是,我们揭示了经典的KD损失是一个耦合的表述,它(1)抑制了NCKD的有效性,(2)限制了平衡这两部分的灵活性。为了解决这些问题,我们提.原创 2022-05-02 14:56:37 · 3072 阅读 · 0 评论 -
【论文笔记_目标检测_2022】DaViT: Dual Attention Vision Transformers
摘要在这项工作中,我们介绍了双注意视觉变换器(DaViT),这是一个简单而有效的视觉变换器架构,能够在保持计算效率的同时捕捉全局环境。我们建议从一个正交的角度来处理这个问题:利用 "空间标记 "和 "通道标记 "的自我注意机制。对于空间标记,空间维度定义了标记的范围,而通道维度定义了标记的特征维度。对于通道标记,我们有相反的情况:通道维度定义了标记的范围,而空间维度定义了标记的特征维度。我们进一步沿序列方向对空间和通道令牌进行分组,以保持整个模型的线性复杂性。我们表明,这两个自留地是相互补充的。(i)由.原创 2022-04-29 11:37:54 · 2563 阅读 · 0 评论 -
【论文笔记_自蒸馏_知识蒸馏_2022】Self-Distillation from the Last Mini-Batch for Consistency Regularization
摘要知识提炼(KD)作为一种强大的正则化策略,通过利用学到的样本级软目标来提高泛化能力,显示了光明的前景。然而,在现有的KD中采用复杂的预训练教师网络或同伴学生的集合,既耗时又耗费计算成本。为了实现更高的蒸馏效率,人们提出了许多自我KD方法。然而,它们要么需要额外的网络结构修改,要么难以并行化。为了应对这些挑战,我们提出了一个高效、可靠的自蒸馏框架,命名为 “来自最后小批量的自蒸馏”(DLB)。具体来说,我们通过限制每个小批的一半与前一个迭代相吻合来重新安排顺序采样。同时,其余的一半将与即将到来的迭代相.原创 2022-04-16 18:37:27 · 5248 阅读 · 1 评论