
深度学习
文章平均质量分 69
乱搭巴士
debug
展开
-
SCI英文文献模板/查看SCI论文分区/tex模板的使用
elesvier的双栏论文的说明文档:https://support.stmdocs.in/wiki/index.php?参考链接:https://blog.csdn.net/larry233/article/details/102387370。2.使用overleaf进行在线编译tex文件,overleaf官网:https://www.overleaf.com/进去之后先注册,注册之后-创建新项目-上传自己的项目(官网下载的zip格式)先去官网,找到例如”guide for authors“,然后。原创 2022-09-26 10:03:02 · 1852 阅读 · 0 评论 -
pytorch读取数据集后显示图片+CIFAR100类别号对应的标签名称
【代码】pytorch读取数据集后显示图片+CIFAR100类别号对应的标签名称。原创 2022-09-21 21:01:55 · 1696 阅读 · 0 评论 -
运行pytorch 显存充足却显示OOM(out of memory)
因为我的代码对于CIFAR100和CUB200数据集用的是不同的resnet18,对于CIFAR100用的是专属的cifarresnet,修改了网络结构来适应CIFAR100数据集,所以在使用CUB200数据集的时候,–model 参数不能省略,因为代码里默认的超参数是cifarresnet,两者结构不一样。所以代码运行中,在前向传播的时候会报错,不过报错内容是Out of memory,此时可以从代码本身找找问题。显存容量剩下14000MB,但是我把代码的batchsize改成1也不能跑起来。原创 2022-09-17 11:13:17 · 1577 阅读 · 0 评论 -
【深度学习可视化】用t-sne可视化CIFAR100数据集的测试结果
【代码】【深度学习可视化】用t-sne可视化CIFAR100数据集的测试结果。原创 2022-09-14 22:21:16 · 1520 阅读 · 0 评论 -
【论文笔记_优化_2021】SHARPNESS-AWARE MINIMIZATION FOR EFFICIENTLY IMPROVING GENERALIZATION
有效提高泛化能力的清晰度感知最小化在当今高度过度参数化的模型中,训练损失的值几乎不能保证模型的泛化能力。事实上,通常只优化训练损失值,很容易导致次优的模型质量。受先前工作的启发,我们引入了一种新颖、有效的方法来同时最小化损失值和损失锐度。特别地,我们的过程,清晰度感知最小化(SAM),寻找位于具有一致低损失的邻域中的参数;这个公式导致最小最大优化问题,在这个问题上可以有效地执行梯度下降。我们提供的实证结果表明,SAM提高了各种基准数据集(例如,CIFAR-{10,100}、ImageNet、微调任务)和模原创 2022-06-29 10:33:47 · 4336 阅读 · 0 评论 -
【论文笔记_知识蒸馏_2021】UPANets: Learning from the Universal Pixel Attention Networks
PANets:向通用像素注意力网络学习图像分类中,skip和基于密集连接的网络占据了大多数排行榜。最近,从多头注意力在自然语言处理中的成功发展来看,可以肯定,现在是一个要么使用类似变压器的模型,要么使用具有注意力的混合细胞神经网络的时代。然而,前者需要巨大的资源来培养,而后者在这个方向上处于完美的平衡。在这项工作中,为了使细胞神经网络处理全局和局部信息,我们提出了UPANets,它用一种混合跳过密集连接结构来装备通道式注意力。此外,极端连接结构使UPANets具有更平滑的损耗前景。在实验中,UPANets原创 2022-06-23 11:23:14 · 1283 阅读 · 0 评论 -
【论文笔记_知识蒸馏_2022】Evaluation-oriented Knowledge Distillation for Deep Face Recognition
面向评价的深度人脸识别知识蒸馏知识提取(KD)是一种广泛使用的技术,它利用大型网络来提高紧凑模型的性能。以前的知识发现方法通常旨在引导学生在表示空间中完全模仿教师的行为。然而,这种一对一的对应约束可能导致从教师到学生的不灵活的知识转移,尤其是那些模型能力低的学生。受KD方法最终目标的启发,我们提出了一种新的面向评估的KD方法(EKD)用于深度人脸识别,以直接减少训练过程中教师和学生模型之间的性能差距。具体来说,我们采用人脸识别中常用的评价指标,即假阳性率(FPR)和真阳性率(TPR)作为性能指标。根据评估原创 2022-06-22 10:52:10 · 1048 阅读 · 0 评论 -
【论文笔记_注意力_2021】Augmenting Convolutional networks with attention-based aggregation
用基于注意力的聚集来扩充卷积网络我们展示了如何用基于注意力的全局映射来扩充任何卷积网络,以实现非局部推理。我们用一个基于注意力的聚合层代替最终的平均池,该聚合层类似于单个变压器块,它对补丁如何参与分类决策进行加权。我们用由两个参数(宽度和深度)参数化的简单的基于补丁的卷积网络来插入这个学习的聚集层。与金字塔式设计相比,这种架构系列在所有层上保持输入面片分辨率。正如我们在各种计算机视觉任务(对象分类、图像分割和检测)上的实验所示,它在准确性和复杂性之间产生了令人惊讶的竞争性权衡,特别是在内存消耗方面。视觉转原创 2022-06-16 10:59:28 · 1200 阅读 · 0 评论 -
【论文笔记_视觉识别_2022】Unified Contrastive Learning in Image-Text-Label Space
摘要视觉识别最近是通过对人类注释的图像标签数据进行监督学习,或者通过网络抓取的图像-文本对进行语言-图像对比学习。虽然监督学习可能会产生一个更具辨别力的表征,但语言-图像预训练显示出前所未有的零距离识别能力,这主要是由于数据源和学习目标的不同特性。在这项工作中,我们通过将两个数据源合并到一个共同的图像-文本-标签空间,引入一个新的表述。在这个空间中,我们提出了一种新的学习范式,称为统一对比学习(UniCL),它具有单一的学习目标,可以无缝地促使两种数据类型的协同作用。广泛的实验表明,我们的UniCL是一.原创 2022-05-04 10:04:43 · 3195 阅读 · 2 评论 -
【论文笔记_目标检测_2022】DaViT: Dual Attention Vision Transformers
摘要在这项工作中,我们介绍了双注意视觉变换器(DaViT),这是一个简单而有效的视觉变换器架构,能够在保持计算效率的同时捕捉全局环境。我们建议从一个正交的角度来处理这个问题:利用 "空间标记 "和 "通道标记 "的自我注意机制。对于空间标记,空间维度定义了标记的范围,而通道维度定义了标记的特征维度。对于通道标记,我们有相反的情况:通道维度定义了标记的范围,而空间维度定义了标记的特征维度。我们进一步沿序列方向对空间和通道令牌进行分组,以保持整个模型的线性复杂性。我们表明,这两个自留地是相互补充的。(i)由.原创 2022-04-29 11:37:54 · 2563 阅读 · 0 评论 -
用TinyImageNet数据集进行图像分类实验,test精度极低
错误原因:TinyImageNet数据集的val验证集不能直接用datasets.ImageFolder导入,直接使用的话精度只有零点几。而且test数据集是没有标注的。错误示例:trainset = datasets.ImageFolder(root=os.path.join(data_dir, data, 'tiny-imagenet-200/train'), transform=transform_train)testset = datasets.ImageFolder(root=os.pat原创 2022-04-28 12:41:57 · 3520 阅读 · 2 评论 -
【论文笔记_自蒸馏_知识蒸馏_2022】Self-Distillation from the Last Mini-Batch for Consistency Regularization
摘要知识提炼(KD)作为一种强大的正则化策略,通过利用学到的样本级软目标来提高泛化能力,显示了光明的前景。然而,在现有的KD中采用复杂的预训练教师网络或同伴学生的集合,既耗时又耗费计算成本。为了实现更高的蒸馏效率,人们提出了许多自我KD方法。然而,它们要么需要额外的网络结构修改,要么难以并行化。为了应对这些挑战,我们提出了一个高效、可靠的自蒸馏框架,命名为 “来自最后小批量的自蒸馏”(DLB)。具体来说,我们通过限制每个小批的一半与前一个迭代相吻合来重新安排顺序采样。同时,其余的一半将与即将到来的迭代相.原创 2022-04-16 18:37:27 · 5248 阅读 · 1 评论 -
【论文笔记_知识蒸馏_2021】KNOWLEDGE DISTILLATION VIA SOFTMAX REGRESSION
代码地址:https://github.com/jingyang2017/KD_SRRL摘要本文通过知识提炼解决了模型压缩的问题。我们主张采用一种优化学生网络倒数第二层的输出特征的方法,因此与表征学习直接相关。为此,我们首先提出了一种直接的特征匹配方法,它只关注优化学生的倒数第二层。其次,更重要的是,由于特征匹配没有考虑到手头的分类问题,我们提出了第二种方法,将表征学习和分类解耦,利用教师的预训练分类器来训练学生的倒数第二层特征。特别是,对于相同的输入图像,我们希望教师和学生的特征在通过教师的分类器时.原创 2022-04-13 17:53:16 · 3349 阅读 · 0 评论 -
【论文笔记_知识蒸馏_2019】Variational Information Distillation for Knowledge Transfer
摘要将完成相同或类似任务的教师神经网络的知识传递给学生神经网络可以显著提高学生神经网络的性能。现有的知识转移方法匹配教师和学生网络的激活或相应的手工特征。我们提出了知识转移的信息理论框架,将知识转移定义为最大化师生网络之间的相互信息。我们将我们的方法与现有的知识转移方法在知识蒸馏和转移学习任务上进行了比较,结果表明我们的方法始终优于现有的方法。通过将知识从卷积神经网络(CNN)转移到CIFAR-10上的多层感知器(MLP),我们进一步证明了我们的方法在跨异构网络架构的知识转移方面的优势。最终的MLP显著.原创 2022-04-05 21:47:30 · 4142 阅读 · 0 评论 -
A leaf Variable that requires grad is being used in an in-place operation
错误原因:计算图中的叶子节点不能直接进行内置运算,防止影响计算图的反向传播运算。如果非要改变叶子节点data的值,可以直接对data属性调用内置运算,这样不会记录在计算图当中。解决方案:1.把梯度变化设置为不变。(亲测)bifpn.fc.weight.requires_grad, bifpn.fc.bias.requires_grad = False, Falsemodel.fc.weight.requires_grad, model.fc.bias.requires_grad = False,原创 2022-04-04 09:16:48 · 4041 阅读 · 0 评论