乱搭巴士-CSDN博客

原创【论文笔记_注意力_2021】Augmenting Convolutional networks with attention-based aggregation

用基于注意力的聚集来扩充卷积网络我们展示了如何用基于注意力的全局映射来扩充任何卷积网络，以实现非局部推理。我们用一个基于注意力的聚合层代替最终的平均池，该聚合层类似于单个变压器块，它对补丁如何参与分类决策进行加权。我们用由两个参数(宽度和深度)参数化的简单的基于补丁的卷积网络来插入这个学习的聚集层。与金字塔式设计相比，这种架构系列在所有层上保持输入面片分辨率。正如我们在各种计算机视觉任务(对象分类、图像分割和检测)上的实验所示，它在准确性和复杂性之间产生了令人惊讶的竞争性权衡，特别是在内存消耗方面。视觉转

2022-06-16 10:59:28 1127

原创【论文笔记_目标检测_2022】Cross Domain Object Detection by Target-Perceived Dual Branch Distillation

基于目标感知双分支提取的跨域目标检测在野外，跨领域目标检测是一项现实而具有挑战性的任务。由于数据分布的巨大变化和目标域中缺乏实例级注释，它的性能会下降。现有的方法主要关注这两个困难中的任何一个，即使它们在跨域对象检测中紧密耦合。为了解决这个问题，我们提出了一个新的目标感知双分支蒸馏框架。通过将源领域和目标领域的检测分支集成在一个统一的师生学习方案中，可以减少领域转移并有效地产生可靠的监督。特别地，我们首先在两个域之间引入一个不同的目标提议感知者。通过利用来自迭代交叉注意的目标提议上下文，它可以自适应地增强

2022-06-07 10:48:13 1503 1

原创【论文笔记_剪枝_知识蒸馏_2022】INDISTILL: TRANSFERRING KNOWLEDGE FROM PRUNED INTERMEDIATE LAYERS

在资源有限的硬件上部署深度神经网络，如智能手机和无人机，由于其计算复杂性，构成了巨大的挑战。知识提取方法旨在将知识从大型模型转移到轻量级模型，也分别称为教师和学生，而从中间层提取知识为该任务提供了额外的监督。模型之间的容量差距、破坏其架构一致性的信息编码以及缺乏用于转移多层的适当学习方案限制了现有方法的性能。在本文中，我们提出了一种新的方法，称为InDistill，它可以通过利用通道剪枝的属性来显著提高现有单层知识提取方法的性能，以减少模型之间的容量差距并保持体系结构的一致性。此外，我们提出了一个基于课程学

2022-06-02 11:29:09 518

原创【论文笔记_知识蒸馏_2022】Masked Generative Distillation

摘要知识提炼已经成功地应用于各种任务。当前的蒸馏算法通常通过模仿老师的输出来提高学生的表现。本文表明，教师也可以通过指导学生的特征恢复来提高学生的表征能力。从这个角度出发，我们提出了掩蔽生成蒸馏(MGD)，它很简单:我们掩蔽学生特征的随机像素，通过一个简单的块，迫使它生成老师的全部特征。MGD是一种真正通用的基于特征的提取方法，可用于各种任务，包括图像分类、对象检测、语义分割和实例分割。我们用大量的数据集对不同的模型进行了实验，结果表明所有的学生都取得了很大的进步。值得注意的是，我们将ResNet-18.

2022-05-30 14:24:31 1623

原创【论文笔记_知识蒸馏_2022】Spot-adaptive Knowledge Distillation

点自适应知识蒸馏摘要知识提取(KD)已经成为压缩深度神经网络的一个良好建立的范例。进行知识提炼的典型方式是在教师网络的监督下训练学生网络，以利用教师网络中一个或多个点(即，层)的知识。蒸馏点一旦指定，在整个蒸馏过程中，所有训练样本的蒸馏点都不会改变。在这项工作中，我们认为蒸馏点应该适应训练样本和蒸馏时期。因此，我们提出了一种新的提取策略，称为点自适应KD (SAKD ),在整个提取周期的每次训练迭代中，自适应地确定每个样本在教师网络中的提取点。由于SAKD实际上关注的是“从哪里蒸馏”，而不是大多数现有.

2022-05-30 09:48:57 609

原创【论文笔记_知识蒸馏_2022】Knowledge Distillation from A Stronger Teacher

来自一个更强的教师的知识蒸馏摘要不同于现有的知识提取方法侧重于基线设置，其中教师模型和培训策略不如最先进的方法强大和有竞争力，本文提出了一种称为DIST的方法，以从更强的教师中提取更好的知识。我们从经验上发现，学生和更强的老师之间的预测差异可能会相当严重。因此，KL散度预测的精确匹配将干扰训练，并使现有方法表现不佳。在本文中，我们证明了简单地保持教师和学生的预测之间的关系就足够了，并提出了一种基于相关性的损失来显式地捕捉来自教师的内在类间关系。此外，考虑到不同实例对每个类具有不同的语义相似性，我们还将.

2022-05-26 15:25:47 1221 1

原创【论文笔记_目标检测_2022】POLYLOSS: A POLYNOMIAL EXPANSION PERSPECTIVE OF CLASSIFICATION LOSS FUNCTIONS

多元损失:分类损失函数的多项式展开观点摘要交叉熵损失和焦点损失是为分类问题训练深度神经网络时最常见的选择。然而，一般来说，一个好的损失函数可以采取更加灵活的形式，并且应该针对不同的任务和数据集进行定制。受如何通过泰勒展开来近似函数的启发，我们提出了一个简单的框架，名为PolyLoss，以将损失函数视为多项式函数的线性组合来进行设计。我们的PolyLoss允许根据目标任务和数据集轻松调整不同多项式基的重要性，同时自然地将前述交叉熵损失和焦点损失作为特例。大量的实验结果表明，PolyLoss中的最优选择确.

2022-05-17 14:41:32 949

原创【论文笔记_目标检测_2022】Proper Reuse of Image Classification Features Improves Object Detection

图像分类特征的适当重用改善了目标检测摘要迁移学习中的一个常见做法是通过对数据丰富的上游任务进行预训练来初始化下游模型权重。具体而言，在对象检测中，特征主干通常用ImageNet分类器权重来初始化，并在对象检测任务中进行微调。最近的研究表明，在长期的训练体制下，这并不是绝对必要的，并提供了从零开始训练骨干的方法。我们研究了这种端到端训练趋势的相反方向:我们表明，知识保留的一种极端形式——冻结分类器初始化的主干——持续改进许多不同的检测模型，并导致可观的资源节省。我们假设并通过实验证实，剩余的探测器组件容.

2022-05-17 09:17:00 760

原创【论文笔记_计算机视觉_2022】Online Convolutional Re-parameterization

摘要在各种计算机视觉任务中，结构重参数化已引起越来越多的关注。它的目的是在不引入任何推理时间成本的情况下提高深度模型的性能。虽然在推理过程中很有效，但这种模型在很大程度上依赖于复杂的训练时间块来实现高精确度，从而导致了大量的额外训练成本。在本文中，我们提出了在线卷积重参数化（OREPA），这是一个两阶段的管道，旨在通过将复杂的训练时间块挤压到一个单一的卷积中来减少巨大的训练开销。为了实现这一目标，我们引入了一个线性缩放层来更好地优化在线块。在降低训练成本的协助下，我们还探索了一些更有效的重新参数化组件。.

2022-05-12 14:55:53 897

原创【论文笔记_目标检测_2022】Neighborhood Attention Transformer

摘要我们提出了邻域注意变换器（NAT），这是一个高效、准确和可扩展的分层变换器，在图像分类和下游视觉任务中都能很好地工作。它建立在邻域注意（NA）的基础上，这是一种简单而灵活的注意机制，它将每个查询的感受野定位到其最近的邻近像素。NA是一种自我注意的定位，并随着感受野大小的增加而接近自我注意。在相同的感受野大小下，它在FLOPs和内存使用方面也与Swin Transformer的移窗注意相当，而受限制较少。此外，NA还包括局部感应偏置，从而消除了对像素移位等额外操作的需要。在NAT上的实验结果是有竞争力.

2022-05-11 15:00:32 1631 1

原创【论文笔记_知识蒸馏_2022】Class-Incremental Learning by Knowledge Distillation with Adaptive Feature Consolida

摘要我们提出了一种基于深度神经网络的新型类增量学习方法，该方法在有限的内存中不断学习新的任务，用于存储以前任务中的例子。我们的算法以知识提炼为基础，提供了一种原则性的方法来保持旧模型的表征，同时有效地调整到新任务。所提出的方法估计了模型更新所产生的表征变化和损失增加之间的关系。它利用表征最小化了损失增加的上界，这利用了骨干模型内每个特征图的估计重要性。基于重要性，该模型限制重要特征的更新以获得稳健性，同时允许不太关键的特征的变化以获得灵活性。这种优化策略有效地缓解了臭名昭著的灾难性遗忘问题，尽管前面的任.

2022-05-05 17:11:53 3329

原创【论文笔记_视觉识别_2022】Unified Contrastive Learning in Image-Text-Label Space

摘要视觉识别最近是通过对人类注释的图像标签数据进行监督学习，或者通过网络抓取的图像-文本对进行语言-图像对比学习。虽然监督学习可能会产生一个更具辨别力的表征，但语言-图像预训练显示出前所未有的零距离识别能力，这主要是由于数据源和学习目标的不同特性。在这项工作中，我们通过将两个数据源合并到一个共同的图像-文本-标签空间，引入一个新的表述。在这个空间中，我们提出了一种新的学习范式，称为统一对比学习（UniCL），它具有单一的学习目标，可以无缝地促使两种数据类型的协同作用。广泛的实验表明，我们的UniCL是一.

2022-05-04 10:04:43 2966 2

原创使用cv2.applyColorMap和神经网络产生的特征绘制注意力图

# 按通道压缩,feat1是分类器后的，feat2是分类器前的特征 with torch.no_grad(): feat_val, outputs_val = model(inputs) feat1 = feat_val[-1] feat1 = np.array(feat1.cpu())

2022-05-03 10:38:42 850

原创【论文笔记_知识蒸馏_目标检测_2022】Decoupled Knowledge Distillation

摘要目前最先进的蒸馏方法主要是基于从中间层蒸馏出深层特征，而对数蒸馏的意义被大大忽略了。为了提供一个研究Logit蒸馏的新观点，我们将经典的KD损失重新表述为两个部分，即目标类知识蒸馏（TCKD）和非目标类知识蒸馏（NCKD）。我们对这两部分的效果进行了实证调查和证明。TCKD传递有关训练样本 "难度 "的知识，而NCKD则是Logit蒸馏法发挥作用的突出原因。更重要的是，我们揭示了经典的KD损失是一个耦合的表述，它（1）抑制了NCKD的有效性，（2）限制了平衡这两部分的灵活性。为了解决这些问题，我们提.

2022-05-02 14:56:37 2909

原创【论文笔记_目标检测_2022】DaViT: Dual Attention Vision Transformers

摘要在这项工作中，我们介绍了双注意视觉变换器（DaViT），这是一个简单而有效的视觉变换器架构，能够在保持计算效率的同时捕捉全局环境。我们建议从一个正交的角度来处理这个问题：利用 "空间标记 "和 "通道标记 "的自我注意机制。对于空间标记，空间维度定义了标记的范围，而通道维度定义了标记的特征维度。对于通道标记，我们有相反的情况：通道维度定义了标记的范围，而空间维度定义了标记的特征维度。我们进一步沿序列方向对空间和通道令牌进行分组，以保持整个模型的线性复杂性。我们表明，这两个自留地是相互补充的。(i)由.

2022-04-29 11:37:54 2337

原创用TinyImageNet数据集进行图像分类实验，test精度极低

错误原因：TinyImageNet数据集的val验证集不能直接用datasets.ImageFolder导入，直接使用的话精度只有零点几。而且test数据集是没有标注的。错误示例：trainset = datasets.ImageFolder(root=os.path.join(data_dir, data, 'tiny-imagenet-200/train'), transform=transform_train)testset = datasets.ImageFolder(root=os.pat

2022-04-28 12:41:57 2958 2

原创【论文笔记_自蒸馏_知识蒸馏_2022】Self-Distillation from the Last Mini-Batch for Consistency Regularization

摘要知识提炼（KD）作为一种强大的正则化策略，通过利用学到的样本级软目标来提高泛化能力，显示了光明的前景。然而，在现有的KD中采用复杂的预训练教师网络或同伴学生的集合，既耗时又耗费计算成本。为了实现更高的蒸馏效率，人们提出了许多自我KD方法。然而，它们要么需要额外的网络结构修改，要么难以并行化。为了应对这些挑战，我们提出了一个高效、可靠的自蒸馏框架，命名为 “来自最后小批量的自蒸馏”（DLB）。具体来说，我们通过限制每个小批的一半与前一个迭代相吻合来重新安排顺序采样。同时，其余的一半将与即将到来的迭代相.

2022-04-16 18:37:27 4798 1

原创【论文笔记_知识蒸馏_2021】KNOWLEDGE DISTILLATION VIA SOFTMAX REGRESSION

代码地址:https://github.com/jingyang2017/KD_SRRL摘要本文通过知识提炼解决了模型压缩的问题。我们主张采用一种优化学生网络倒数第二层的输出特征的方法，因此与表征学习直接相关。为此，我们首先提出了一种直接的特征匹配方法，它只关注优化学生的倒数第二层。其次，更重要的是，由于特征匹配没有考虑到手头的分类问题，我们提出了第二种方法，将表征学习和分类解耦，利用教师的预训练分类器来训练学生的倒数第二层特征。特别是，对于相同的输入图像，我们希望教师和学生的特征在通过教师的分类器时.

2022-04-13 17:53:16 3216

原创【论文笔记_知识蒸馏_2022】Knowledge Distillation with the Reused Teacher Classifier

代码地址：https://github.com/Rorozhl/CA-MKDhttps://github.com/zju-vipa/DataFree（下文中的知识提炼即知识蒸馏）摘要知识提炼的目的是将一个强大而繁琐的教师模型压缩到一个轻量级的学生模型中，而不至于牺牲很多性能。为此，在过去的几年里，人们提出了各种方法，一般都有精心设计的知识表示，这反过来又增加了模型开发和解释的难度。相比之下，我们的经验表明，一个简单的知识提炼技术足以大大缩小师生之间的性能差距。我们直接将预先训练好的教师模型中的判.

2022-04-11 17:26:47 4688 3

原创【论文笔记_知识蒸馏_2019】Variational Information Distillation for Knowledge Transfer

摘要将完成相同或类似任务的教师神经网络的知识传递给学生神经网络可以显著提高学生神经网络的性能。现有的知识转移方法匹配教师和学生网络的激活或相应的手工特征。我们提出了知识转移的信息理论框架，将知识转移定义为最大化师生网络之间的相互信息。我们将我们的方法与现有的知识转移方法在知识蒸馏和转移学习任务上进行了比较，结果表明我们的方法始终优于现有的方法。通过将知识从卷积神经网络(CNN)转移到CIFAR-10上的多层感知器(MLP)，我们进一步证明了我们的方法在跨异构网络架构的知识转移方面的优势。最终的MLP显著.

2022-04-05 21:47:30 3971

原创 A leaf Variable that requires grad is being used in an in-place operation

错误原因：计算图中的叶子节点不能直接进行内置运算，防止影响计算图的反向传播运算。如果非要改变叶子节点data的值，可以直接对data属性调用内置运算，这样不会记录在计算图当中。解决方案：1.把梯度变化设置为不变。（亲测）bifpn.fc.weight.requires_grad, bifpn.fc.bias.requires_grad = False, Falsemodel.fc.weight.requires_grad, model.fc.bias.requires_grad = False,

2022-04-04 09:16:48 3764

原创【论文笔记_知识蒸馏_对比学习_2020】CONTRASTIVE REPRESENTATION DISTILLATION

（representational knowledge暂译为表征知识）代码地址：:http://github.com/HobbitLong/RepDistiller摘要我们通常希望将表征知识从一个神经网络转移到另一个神经网络。例如，将一个大的网络提取为一个小的网络，将知识从一个感官模态转移到另一个感官模态，或将一组模型整合到一个估计器中。知识提炼是解决这些问题的标准方法，它将教师和学生网络的概率输出之间的KL差异最小化。我们证明了这个目标忽略了教师网络的重要结构知识。这激发了另一个目标，通过这个目标.

2022-04-02 17:35:39 4310

原创【论文笔记_知识蒸馏_2022】It’s All in the Head:Representation Knowledge Distillation through Classifier Sharin

代码地址:https://github.com/Alibaba-MIIL/HeadSharingKD摘要表示知识提取旨在将丰富的信息从一个模型传递到另一个模型。目前的表示提取方法主要集中于模型嵌入向量之间距离度量的直接最小化。这种直接方法可能局限于传输嵌入在表示向量中的高阶依赖，或者处理教师和学生模型之间的能力差距。在本文中，我们介绍了两种通过教师和学生之间的分类器共享来增强表示升华的方法。具体地说，我们首先表明，将教师的分类器连接到学生主干并冻结其参数有利于表征提取过程，从而产生一致的改进。然后，我.

2022-04-01 11:19:17 3507

原创【论文笔记_自知识蒸馏_2021】Revisiting Knowledge Distillation via Label Smoothing Regularization

摘要知识提炼（KD）旨在将繁琐的教师模型中的知识提炼为轻量级的学生模型。它的成功通常归功于教师模型提供的关于类别之间相似性的特权信息，从这个意义上说，只有强大的教师模型被部署在实践中教较弱的学生。在这项工作中，我们通过以下实验观察来挑战这一共同信念：1）除了承认教师可以改善学生，学生还可以通过逆转KD程序显著提高教师；2）一位训练有素的教师，其准确度比学生低得多，仍然可以显著提高后者。为了解释这些观察结果，我们对KD和标签平滑正则化之间的关系进行了理论分析。我们证明了1）KD是一种学习标签平滑正则化，.

2022-03-30 16:33:16 3794

原创【知识蒸馏】浅谈自知识蒸馏和自监督知识蒸馏的区别

今天在看《Refine Myself by Teaching Myself : Feature Refinement via Self-Knowledge Distillation》，然后在纠结里面的方法到底是自知识蒸馏还是自监督知识蒸馏，因为文章使用了辅助自教师网络，可能因为我对自知识蒸馏的背景了解不够深，所以对这个概念不太明晰。查了一些资料之后，整理了一点概念如下：自知识蒸馏/自蒸馏(SKD)：是采用有监督学习进行知识蒸馏。只是知识蒸馏的方法，采用的方式是teacher模型和student模型是一个

2022-03-28 11:00:28 2447

原创【论文笔记_知识蒸馏_数据增强_2022】When Chosen Wisely, More Data Is What You Need

When Chosen Wisely, More Data Is What You Need: A Universal Sample-Efficient Strategy For Data Augmentation摘要众所周知，数据增强（DA）可以提高深层神经网络的泛化能力。大多数现有的DA技术天真地添加一定数量的增强样本，而不考虑这些样本的质量和增加的计算成本。为了解决这个问题，一些最先进的DA方法采用的一种常见策略是，在训练期间根据任务目标自适应地生成或重新加权增强样本。然而，这些自适应DA方法：

2022-03-25 15:46:18 3120

原创【论文翻译_无数据知识蒸馏_元学习_2022】Up to 100× Faster Data-free Knowledge Distillation

摘要data-free知识蒸馏（DFKD）由于其仅使用人造合成数据压缩模型的能力，近年来越来越受到研究界的关注。尽管取得了令人鼓舞的成果，但最先进的DFKD方法仍然存在数据合成效率低下的问题，这使得无数据训练过程非常耗时，因此不适用于大规模任务。在这项工作中，我们介绍了一种有效的方案，称为FastDFKD，它允许我们将DFKD加速一个数量级。我们方法的核心是一种新的策略，即重用训练数据中的共享公共特征，从而合成不同的数据实例。与之前独立优化一组数据的方法不同，我们建议学习一个元合成器，它寻找共同的特征作.

2022-03-25 10:25:25 4334

原创【论文笔记_知识蒸馏_2022】Dynamic Rectification Knowledge Distillation

摘要知识蒸馏是一种技术，其目的是利用dark知识压缩信息，并将信息从一个庞大、训练有素的神经网络（教师模型）传输到一个较小、能力较差的神经网络（学生模型），从而提高推理效率。由于在边缘计算设备上部署这种笨重模型的复杂性令人望而却步，这种提取知识的方法得到了普及。一般来说，用于教授较小学生模型的教师模型本质上很麻烦，培训成本也很高。为了彻底消除繁琐教师模型的必要性，我们提出了一个简单而有效的知识提取框架，我们称之为动态校正知识提取（DR-KD）。我们的方法将学生转化为自己的老师，如果自己的老师在提取信息时.

2022-03-24 16:40:11 1697 1

原创【论文笔记_多教师知识蒸馏_2022】CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION

摘要知识蒸馏最初是为了利用单个教师模型的额外监督来进行学生模型培训。为了提高学生的表现，最近的一些变体试图利用来自多名教师的不同知识来源。然而，现有的研究主要通过对多个教师预测进行平均或使用其他无标签策略将它们结合起来，从而整合来自不同来源的知识，这可能会在低质量教师预测的情况下误导学生。为了解决这个问题，我们提出了基于置信度的多教师知识提取（CA-MKD），该方法在地面真值标签的帮助下，自适应地为每个教师预测分配样本可靠度，并为那些接近一个热标签的教师预测分配较大的权重。此外，CA-MKD还结合了中间.

2022-03-24 10:24:06 8430

原创【论文笔记_知识蒸馏、注意力机制、2017经典论文】PAYING MORE ATTENTION TO ATTENTION

摘要注意力在人类视觉体验中起着至关重要的作用。此外，最近的研究表明，在将人工神经网络应用于计算机视觉和NLP等领域的各种任务时，注意力也可以发挥重要作用。在这项工作中，我们表明，通过正确定义卷积神经网络的注意，我们实际上可以使用这类信息，通过强迫学生CNN网络模仿强大教师网络的注意图，显著提高其性能。为此，我们提出了几种转移注意力的新方法，在各种数据集和卷积神经网络结构中表现出一致的改进。我们的实验代码和模型在https://github.com/szagoruyko/attention-transfe.

2022-03-17 16:04:13 3563

原创【论文笔记_在线蒸馏、GAN】Online Multi-Granularity Distillation for GAN Compression

2021年。摘要生成性对抗网络（GAN）在生成优秀图像方面取得了巨大的成功，但是，由于计算成本高，内存使用量大，在资源有限的设备上部署GAN非常困难。尽管最近压缩GAN的努力取得了显著的成果，但它们仍然存在潜在的模型冗余，可以进一步压缩。为了解决这个问题，我们提出了一种新的在线多粒度蒸馏（OMGD）方案来获得轻量级的GAN，这有助于以较低的计算需求生成高保真图像。我们首次尝试将单级在线蒸馏推广到面向GAN的压缩，逐步升级的教师生成器有助于改进基于无鉴别器的学生生成器。互补的教师生成器和网络层提供了全面.

2022-03-11 16:29:46 4627

原创【论文笔记_知识蒸馏】Interactive Knowledge Distillation for image classification

摘要知识提炼（KD）是一个标准的师生学习框架，在训练有素的大型教师网络的指导下，培养一个轻量级的学生网络。互动教学作为一种有效的教学策略，在学校得到了广泛的应用，以激发学生的学习动机。在互动教学中，教师不仅提供知识，而且对学生的反应给予建设性的反馈，以提高学生的学习成绩。在这项工作中，我们提出了交互式知识提炼（IAKD）来利用交互式教学策略进行有效的知识提炼。在提取过程中，教师网络和学生网络之间的交互是通过交换操作实现的：用教师网络中相应的块随机替换学生网络中的块。通过这种方式，我们直接涉及到教师...

2022-03-10 18:53:34 2269

原创【论文笔记_自监督蒸馏】SEED: SELF-SUPERVISED DISTILLATION FOR VISUAL REPRESENTATION

2021年。摘要本文研究小模型的自监督学习。我们的实证研究表明，虽然广泛使用的对比自监督学习方法在大模型训练方面取得了很大的进步，但在小模型训练中效果并不理想。为了解决这个问题，我们提出了一种新的学习范式，称为自我监督蒸馏（SEED），我们利用一个更大的网络（作为教师）以自我监督的方式将其代表性知识转移到一个更小的体系结构（作为学生）中。我们没有直接从未标记的数据中学习，而是训练一个学生编码器来模拟教师在一组实例上推断的相似性分数分布。我们发现，SEED极大地提高了小型网络在下游任务上的性能。与自我监.

2022-03-10 17:00:26 1684

原创【论文笔记_知识蒸馏】Adaptive multi-teacher multi-level knowledge distillation

摘要知识提炼（KD）是一种有效的学习范式，通过利用从教师网络中提炼的额外监督知识来提高轻量级学生网络的性能。大多数开创性研究要么在学习方法上只向一名教师学习，忽视了一名学生可以同时向多名教师学习的潜力，要么简单地将每位教师视为同等重要，无法揭示教师对具体例子的不同重要性。为了弥补这一差距，我们提出了一种新的自适应多教师多级知识提炼学习框架（AMTML-KD），这包括两个新的见解：（i）将每个教师与潜在的表示相关联，以自适应地学习实例级教师重要性权重，从而获得综合软目标（高级知识）和（ii）使中级提示（中.

2022-03-09 10:54:46 3512 5

原创【论文翻译_自监督、目标检测】Distilling Localization for Self-Supervised Representation Learning

摘要对比学习的最新进展彻底改变了无监督表征学习。具体来说，来自同一图像的多个视图（增强）被鼓励映射到类似的嵌入，而来自不同图像的视图被分开。在本文中，通过可视化和诊断分类错误，我们观察到当前的对比模型在定位前景对象方面是无效的，限制了它们提取有区别的高层特征的能力。这是因为视图生成过程统一考虑图像中的像素。为了解决这个问题，我们提出了一种数据驱动的学习背景不变性的方法。它首先估计图像中的前景显著性，然后通过复制和粘贴前景到各种背景上来创建增强效果。学习仍然遵循实例辨别借口任务，因此，表征被训练为忽略背景内

2022-03-07 10:08:26 2313

原创【论文翻译_知识蒸馏】Distilling Holistic Knowledge with Graph Neural Networks

（以下的“提取”都可以替换为“蒸馏”）摘要知识提炼（KD）旨在将知识从一个更大的优化教师网络转移到一个更小的可学习学生网络。现有的知识发现方法主要考虑了两类知识，即个体知识和关系知识。然而，这两类知识通常是独立建模的，而它们之间的内在关联在很大程度上被忽略。充分利用学生网络学习，在保留其内在相关性的同时，整合个人知识和关系知识是至关重要的。在本文中，我们提出了基于实例间构造的属性图来提取新的整体知识。整体知识表示为一个统一的基于图的嵌入，通过使用图神经网络聚合关系邻域样本中的个体知识，通过对比方式提取.

2022-03-03 17:48:08 1271

原创 RuntimeError: CUDA out of memory. Tried to allocate 64.00 MiB (GPU 0； 10.76 GiB total capacity； 7.64

错误原因：使用了CUDA_VISIBLE_DEVICES指定了空闲的3090显卡，但仍报错，原因是batchsize设置得太高，设置了128.解决方案：降低到64即可。或者使用两张及以上的卡。

2022-02-27 16:55:22 2618

原创 RuntimeError: No HIP GPUs are available

错误原因：代码使用了GPU加速的torch，但是我下载的是C++版本的torch。使用pip list发现包如下：参考HIP网站：https://pytorch.org/docs/stable/notes/hip.html解决方案：卸载torch和torchvision，然后使用pip install torch==1.7.0+cu110 torchvision==0.8.0+cu110 torchaudio==0.7.0 -f https://download.pytorch.org/whl/

2022-02-27 16:07:54 4502

原创【电脑网络突然断开】电脑wifi显示无网络连接，手机可以正常联网

我把笔记本开机了两天下载东西，突然就没网了。然后朋友用同样的wifi有网，我用笔记本就不行，解决方案：cmd命令行里，先输出ipconfig/release，再ipconfig/renew，再ipconfig/flushdns。

2022-02-23 14:11:21 1919 1

原创【论文翻译_知识蒸馏】Distilling Knowledge via Knowledge Review

（以下的“审查”皆可替换为“复习”）摘要知识蒸馏将知识从教师网络转移到学生网络，目的是大大提高学生网络的性能。以往的方法大多侧重于提出同级特征之间的特征转换和损失函数，以提高效率。通过对师生网络连接路径跨层因素的不同研究，揭示了其重要性。首次在知识提取中提出了跨级连接路径。我们的新复习机制有效，结构简单。我们最终设计的嵌套且紧凑的框架所需的计算开销可以忽略不计，并且在各种任务上优于其他方法。我们将我们的方法应用于分类、对象检测和实例分割任务。所有这些都见证了学生网络性能的显著提高。一、介绍深度卷积.

2022-02-23 10:58:49 1273 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

run-loagcat.bat，用于抓取安卓端apk的后台输出信息，便于调错

2019年的cls文件，用于latex编译

模型保存，个人所运行的模型保存。

web端qq聊天室.rar

蛋糕商城小程序.rar

web端电子报警地图.rar

机票预订系统.rar

鲜花订购系统.rar

darknet和keras(包括yolo3权重).rar

retrain.py

raccoon_dataset-master.rar

labelImg-master.zip

cocoapi-master.rar

protoc.rar

mobilecs.rar

xinan_demo.rar

空空如也