乱搭巴士
码龄3年
  • 367,085
    被访问
  • 228
    原创
  • 5,847
    排名
  • 434
    粉丝
关注
提问 私信
  • 加入CSDN时间: 2019-05-26
博客简介:

qq_45128278的博客

查看详细资料
  • 5
    领奖
    总分 1,504 当月 125
个人成就
  • 获得96次点赞
  • 内容获得91次评论
  • 获得534次收藏
创作历程
  • 39篇
    2022年
  • 54篇
    2021年
  • 88篇
    2020年
  • 60篇
    2019年
成就勋章
TA的专栏
  • 目标检测
    3篇
  • 个人学习_研究生
    39篇
  • 知识蒸馏
    21篇
  • 深度学习
    7篇
  • torch
    14篇
  • c语言
    6篇
  • tensorflow
    7篇
  • linux
    7篇
  • 作业
    3篇
  • pycharm
    5篇
  • 机器学习
    1篇
  • matlab
    3篇
  • origin
    2篇
  • javascript
    3篇
  • quartus
    2篇
  • 微信小程序
    14篇
  • h2数据库
    4篇
  • JM
    2篇
  • echarts
    2篇
  • excel
    2篇
  • 数据库
    6篇
  • html/css
    21篇
  • python
    13篇
  • java
    7篇
  • sql
    5篇
  • 个人学习_本科生
    61篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【论文笔记_目标检测_2022】Proper Reuse of Image Classification Features Improves Object Detection

图像分类特征的适当重用改善了目标检测摘要迁移学习中的一个常见做法是通过对数据丰富的上游任务进行预训练来初始化下游模型权重。具体而言,在对象检测中,特征主干通常用ImageNet分类器权重来初始化,并在对象检测任务中进行微调。最近的研究表明,在长期的训练体制下,这并不是绝对必要的,并提供了从零开始训练骨干的方法。我们研究了这种端到端训练趋势的相反方向:我们表明,知识保留的一种极端形式——冻结分类器初始化的主干——持续改进许多不同的检测模型,并导致可观的资源节省。我们假设并通过实验证实,剩余的探测器组件容.
原创
发布博客 4 小时前 ·
3 阅读 ·
0 点赞 ·
0 评论

【论文笔记_计算机视觉_2022】Online Convolutional Re-parameterization

摘要在各种计算机视觉任务中,结构重参数化已引起越来越多的关注。它的目的是在不引入任何推理时间成本的情况下提高深度模型的性能。虽然在推理过程中很有效,但这种模型在很大程度上依赖于复杂的训练时间块来实现高精确度,从而导致了大量的额外训练成本。在本文中,我们提出了在线卷积重参数化(OREPA),这是一个两阶段的管道,旨在通过将复杂的训练时间块挤压到一个单一的卷积中来减少巨大的训练开销。为了实现这一目标,我们引入了一个线性缩放层来更好地优化在线块。在降低训练成本的协助下,我们还探索了一些更有效的重新参数化组件。.
原创
发布博客 2022.05.12 ·
173 阅读 ·
0 点赞 ·
0 评论

【论文笔记_目标检测_2022】Neighborhood Attention Transformer

摘要我们提出了邻域注意变换器(NAT),这是一个高效、准确和可扩展的分层变换器,在图像分类和下游视觉任务中都能很好地工作。它建立在邻域注意(NA)的基础上,这是一种简单而灵活的注意机制,它将每个查询的感受野定位到其最近的邻近像素。NA是一种自我注意的定位,并随着感受野大小的增加而接近自我注意。在相同的感受野大小下,它在FLOPs和内存使用方面也与Swin Transformer的移窗注意相当,而受限制较少。此外,NA还包括局部感应偏置,从而消除了对像素移位等额外操作的需要。在NAT上的实验结果是有竞争力.
原创
发布博客 2022.05.11 ·
160 阅读 ·
0 点赞 ·
0 评论

【论文笔记_知识蒸馏_2022】Class-Incremental Learning by Knowledge Distillation with Adaptive Feature Consolida

摘要我们提出了一种基于深度神经网络的新型类增量学习方法,该方法在有限的内存中不断学习新的任务,用于存储以前任务中的例子。我们的算法以知识提炼为基础,提供了一种原则性的方法来保持旧模型的表征,同时有效地调整到新任务。所提出的方法估计了模型更新所产生的表征变化和损失增加之间的关系。它利用表征最小化了损失增加的上界,这利用了骨干模型内每个特征图的估计重要性。基于重要性,该模型限制重要特征的更新以获得稳健性,同时允许不太关键的特征的变化以获得灵活性。这种优化策略有效地缓解了臭名昭著的灾难性遗忘问题,尽管前面的任.
原创
发布博客 2022.05.05 ·
1373 阅读 ·
0 点赞 ·
0 评论

【论文笔记_视觉识别_2022】Unified Contrastive Learning in Image-Text-Label Space

摘要视觉识别最近是通过对人类注释的图像标签数据进行监督学习,或者通过网络抓取的图像-文本对进行语言-图像对比学习。虽然监督学习可能会产生一个更具辨别力的表征,但语言-图像预训练显示出前所未有的零距离识别能力,这主要是由于数据源和学习目标的不同特性。在这项工作中,我们通过将两个数据源合并到一个共同的图像-文本-标签空间,引入一个新的表述。在这个空间中,我们提出了一种新的学习范式,称为统一对比学习(UniCL),它具有单一的学习目标,可以无缝地促使两种数据类型的协同作用。广泛的实验表明,我们的UniCL是一.
原创
发布博客 2022.05.04 ·
1299 阅读 ·
1 点赞 ·
0 评论

使用cv2.applyColorMap和神经网络产生的特征绘制注意力图

# 按通道压缩,feat1是分类器后的,feat2是分类器前的特征 with torch.no_grad(): feat_val, outputs_val = model(inputs) feat1 = feat_val[-1] feat1 = np.array(feat1.cpu())
原创
发布博客 2022.05.03 ·
434 阅读 ·
0 点赞 ·
0 评论

【论文笔记_知识蒸馏_目标检测_2022】Decoupled Knowledge Distillation

摘要目前最先进的蒸馏方法主要是基于从中间层蒸馏出深层特征,而对数蒸馏的意义被大大忽略了。为了提供一个研究Logit蒸馏的新观点,我们将经典的KD损失重新表述为两个部分,即目标类知识蒸馏(TCKD)和非目标类知识蒸馏(NCKD)。我们对这两部分的效果进行了实证调查和证明。TCKD传递有关训练样本 "难度 "的知识,而NCKD则是Logit蒸馏法发挥作用的突出原因。更重要的是,我们揭示了经典的KD损失是一个耦合的表述,它(1)抑制了NCKD的有效性,(2)限制了平衡这两部分的灵活性。为了解决这些问题,我们提.
原创
发布博客 2022.05.02 ·
849 阅读 ·
0 点赞 ·
0 评论

【论文笔记_目标检测_2022】DaViT: Dual Attention Vision Transformers

摘要在这项工作中,我们介绍了双注意视觉变换器(DaViT),这是一个简单而有效的视觉变换器架构,能够在保持计算效率的同时捕捉全局环境。我们建议从一个正交的角度来处理这个问题:利用 "空间标记 "和 "通道标记 "的自我注意机制。对于空间标记,空间维度定义了标记的范围,而通道维度定义了标记的特征维度。对于通道标记,我们有相反的情况:通道维度定义了标记的范围,而空间维度定义了标记的特征维度。我们进一步沿序列方向对空间和通道令牌进行分组,以保持整个模型的线性复杂性。我们表明,这两个自留地是相互补充的。(i)由.
原创
发布博客 2022.04.29 ·
568 阅读 ·
2 点赞 ·
0 评论

用TinyImageNet数据集进行图像分类实验,test精度极低

错误原因:TinyImageNet数据集的val验证集不能直接用datasets.ImageFolder导入,直接使用的话精度只有零点几。而且test数据集是没有标注的。错误示例:trainset = datasets.ImageFolder(root=os.path.join(data_dir, data, 'tiny-imagenet-200/train'), transform=transform_train)testset = datasets.ImageFolder(root=os.pat
原创
发布博客 2022.04.28 ·
127 阅读 ·
0 点赞 ·
0 评论

【论文笔记_自蒸馏_知识蒸馏_2022】Self-Distillation from the Last Mini-Batch for Consistency Regularization

摘要知识提炼(KD)作为一种强大的正则化策略,通过利用学到的样本级软目标来提高泛化能力,显示了光明的前景。然而,在现有的KD中采用复杂的预训练教师网络或同伴学生的集合,既耗时又耗费计算成本。为了实现更高的蒸馏效率,人们提出了许多自我KD方法。然而,它们要么需要额外的网络结构修改,要么难以并行化。为了应对这些挑战,我们提出了一个高效、可靠的自蒸馏框架,命名为 “来自最后小批量的自蒸馏”(DLB)。具体来说,我们通过限制每个小批的一半与前一个迭代相吻合来重新安排顺序采样。同时,其余的一半将与即将到来的迭代相.
原创
发布博客 2022.04.16 ·
995 阅读 ·
0 点赞 ·
0 评论

【论文笔记_知识蒸馏_2021】KNOWLEDGE DISTILLATION VIA SOFTMAX REGRESSION

代码地址:https://github.com/jingyang2017/KD_SRRL摘要本文通过知识提炼解决了模型压缩的问题。我们主张采用一种优化学生网络倒数第二层的输出特征的方法,因此与表征学习直接相关。为此,我们首先提出了一种直接的特征匹配方法,它只关注优化学生的倒数第二层。其次,更重要的是,由于特征匹配没有考虑到手头的分类问题,我们提出了第二种方法,将表征学习和分类解耦,利用教师的预训练分类器来训练学生的倒数第二层特征。特别是,对于相同的输入图像,我们希望教师和学生的特征在通过教师的分类器时.
原创
发布博客 2022.04.13 ·
2578 阅读 ·
0 点赞 ·
0 评论

【论文笔记_知识蒸馏_2022】Knowledge Distillation with the Reused Teacher Classifier

代码地址:https://github.com/Rorozhl/CA-MKDhttps://github.com/zju-vipa/DataFree(下文中的知识提炼即知识蒸馏)摘要知识提炼的目的是将一个强大而繁琐的教师模型压缩到一个轻量级的学生模型中,而不至于牺牲很多性能。为此,在过去的几年里,人们提出了各种方法,一般都有精心设计的知识表示,这反过来又增加了模型开发和解释的难度。相比之下,我们的经验表明,一个简单的知识提炼技术足以大大缩小师生之间的性能差距。我们直接将预先训练好的教师模型中的判.
原创
发布博客 2022.04.11 ·
2693 阅读 ·
0 点赞 ·
0 评论

【论文笔记_知识蒸馏_2019】Variational Information Distillation for Knowledge Transfer

摘要将完成相同或类似任务的教师神经网络的知识传递给学生神经网络可以显著提高学生神经网络的性能。现有的知识转移方法匹配教师和学生网络的激活或相应的手工特征。我们提出了知识转移的信息理论框架,将知识转移定义为最大化师生网络之间的相互信息。我们将我们的方法与现有的知识转移方法在知识蒸馏和转移学习任务上进行了比较,结果表明我们的方法始终优于现有的方法。通过将知识从卷积神经网络(CNN)转移到CIFAR-10上的多层感知器(MLP),我们进一步证明了我们的方法在跨异构网络架构的知识转移方面的优势。最终的MLP显著.
原创
发布博客 2022.04.05 ·
2748 阅读 ·
0 点赞 ·
0 评论

A leaf Variable that requires grad is being used in an in-place operation

错误原因:计算图中的叶子节点不能直接进行内置运算,防止影响计算图的反向传播运算。如果非要改变叶子节点data的值,可以直接对data属性调用内置运算,这样不会记录在计算图当中。解决方案:1.把梯度变化设置为不变。(亲测)bifpn.fc.weight.requires_grad, bifpn.fc.bias.requires_grad = False, Falsemodel.fc.weight.requires_grad, model.fc.bias.requires_grad = False,
原创
发布博客 2022.04.04 ·
437 阅读 ·
1 点赞 ·
0 评论

【论文笔记_知识蒸馏_representational knowledge_2020】CONTRASTIVE REPRESENTATION DISTILLATION

(representational knowledge暂译为表征知识)代码地址::http://github.com/HobbitLong/RepDistiller摘要我们通常希望将表征知识从一个神经网络转移到另一个神经网络。例如,将一个大的网络提取为一个小的网络,将知识从一个感官模态转移到另一个感官模态,或将一组模型整合到一个估计器中。知识提炼是解决这些问题的标准方法,它将教师和学生网络的概率输出之间的KL差异最小化。我们证明了这个目标忽略了教师网络的重要结构知识。这激发了另一个目标,通过这个目标.
原创
发布博客 2022.04.02 ·
1441 阅读 ·
0 点赞 ·
0 评论

【论文笔记_知识蒸馏_2022】It’s All in the Head:Representation Knowledge Distillation through Classifier Sharin

代码地址:https://github.com/Alibaba-MIIL/HeadSharingKD摘要表示知识提取旨在将丰富的信息从一个模型传递到另一个模型。目前的表示提取方法主要集中于模型嵌入向量之间距离度量的直接最小化。这种直接方法可能局限于传输嵌入在表示向量中的高阶依赖,或者处理教师和学生模型之间的能力差距。在本文中,我们介绍了两种通过教师和学生之间的分类器共享来增强表示升华的方法。具体地说,我们首先表明,将教师的分类器连接到学生主干并冻结其参数有利于表征提取过程,从而产生一致的改进。然后,我.
原创
发布博客 2022.04.01 ·
3095 阅读 ·
0 点赞 ·
0 评论

【论文笔记_自知识蒸馏_2021】Revisiting Knowledge Distillation via Label Smoothing Regularization

摘要知识提炼(KD)旨在将繁琐的教师模型中的知识提炼为轻量级的学生模型。它的成功通常归功于教师模型提供的关于类别之间相似性的特权信息,从这个意义上说,只有强大的教师模型被部署在实践中教较弱的学生。在这项工作中,我们通过以下实验观察来挑战这一共同信念:1)除了承认教师可以改善学生,学生还可以通过逆转KD程序显著提高教师;2) 一位训练有素的教师,其准确度比学生低得多,仍然可以显著提高后者。为了解释这些观察结果,我们对KD和标签平滑正则化之间的关系进行了理论分析。我们证明了1)KD是一种学习标签平滑正则化,.
原创
发布博客 2022.03.30 ·
2872 阅读 ·
0 点赞 ·
0 评论

【知识蒸馏】浅谈自知识蒸馏和自监督知识蒸馏的区别

今天在看《Refine Myself by Teaching Myself : Feature Refinement via Self-Knowledge Distillation》,然后在纠结里面的方法到底是自知识蒸馏还是自监督知识蒸馏,因为文章使用了辅助自教师网络,可能因为我对自知识蒸馏的背景了解不够深,所以对这个概念不太明晰。查了一些资料之后,整理了一点概念如下:自知识蒸馏/自蒸馏(SKD):是采用有监督学习进行知识蒸馏。只是知识蒸馏的方法,采用的方式是teacher模型和student模型是一个
原创
发布博客 2022.03.28 ·
1355 阅读 ·
0 点赞 ·
0 评论

【论文笔记_知识蒸馏_数据增强_2022】When Chosen Wisely, More Data Is What You Need

When Chosen Wisely, More Data Is What You Need: A Universal Sample-Efficient Strategy For Data Augmentation摘要众所周知,数据增强(DA)可以提高深层神经网络的泛化能力。大多数现有的DA技术天真地添加一定数量的增强样本,而不考虑这些样本的质量和增加的计算成本。为了解决这个问题,一些最先进的DA方法采用的一种常见策略是,在训练期间根据任务目标自适应地生成或重新加权增强样本。然而,这些自适应DA方法:
原创
发布博客 2022.03.25 ·
2361 阅读 ·
0 点赞 ·
0 评论

【论文翻译_无数据知识蒸馏_元学习_2022】Up to 100× Faster Data-free Knowledge Distillation

摘要data-free知识蒸馏(DFKD)由于其仅使用人造合成数据压缩模型的能力,近年来越来越受到研究界的关注。尽管取得了令人鼓舞的成果,但最先进的DFKD方法仍然存在数据合成效率低下的问题,这使得无数据训练过程非常耗时,因此不适用于大规模任务。在这项工作中,我们介绍了一种有效的方案,称为FastDFKD,它允许我们将DFKD加速一个数量级。我们方法的核心是一种新的策略,即重用训练数据中的共享公共特征,从而合成不同的数据实例。与之前独立优化一组数据的方法不同,我们建议学习一个元合成器,它寻找共同的特征作.
原创
发布博客 2022.03.25 ·
3029 阅读 ·
0 点赞 ·
0 评论
加载更多