自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(161)
  • 收藏
  • 关注

原创 《Optimizing the LINPACK Algorithm for Large-Scale PCIe-Based CPU-GPU Heterogeneous Systems》阅读笔记

在异构并行系统中,GPU与其他组件(CPU、PCIe 总线和通信网络)之间的性能差距日益扩大,这迫使我们比以往更加细致地协调这些组件之间的协同执行。本文以 LINPACK 基准测试为案例研究,提出了一种针对大规模 CPU-GPU 异构集群系统的细粒度流水线算法。首先,我们构建了一个算法模型,揭示了以 GPU 为中心和细粒度流水线算法设计的新方法。接着,我们展示了四种模型驱动的流水线算法,它们逐步消除流水线中的空闲周期(气泡),以便更多有用的浮点计算能够占用这些周期。

2024-06-11 10:35:14 341

原创 《RandAugment: Practical automated data augmentation with a reduced search space》阅读笔记

最近的研究表明,数据增强有潜力显著提高深度学习模型的泛化能力。最近,自动增强(Automated Augmentation)策略在图像分类和目标检测方面取得了最先进的结果。虽然这些策略是为了提高验证准确率而优化的,但它们也在半监督学习中取得了最先进的结果,并提高了对图像常见损坏的鲁棒性。这些方法大规模采用的一个障碍是单独的搜索阶段,它增加了训练的复杂性,并可能大幅增加计算成本。此外,由于单独的搜索阶段,这些方法无法根据模型或数据集大小调整正则化强度。

2024-05-17 21:00:42 718

原创 《Decoupled Optimisation for Long-Tailed Visual Recognition》阅读笔记

当在长尾数据集上进行训练时,传统的学习算法往往会对样本数量较大的类别表现出偏见。我们的研究发现,这种带有偏见的学习倾向源于模型参数,这些参数被训练为不成比例地贡献给以其样本数量为特征的类别(例如,多、中、少类别)。为了平衡所有类别的整体参数贡献,我们研究了每个模型参数对不同类别组学习的重要性,并提出了一种多阶段参数解耦和优化(DO)框架,该框架将参数解耦到不同的组中,每个组学习特定的一部分类别。为了优化参数学习,我们应用了不同的训练目标,并采取协作优化步骤来学习关于每个类别组的互补信息。

2024-05-10 08:58:34 834

原创 Linux nohup 命令

nohup 英文全称 no hang up,即在系统后台不挂断地运行命令,因此退出终端不会影响程序的运行。语法格式Command:要执行的命令。Arg:一些参数,可以指定输出文件。&:让命令在后台执行,终端退出后命令仍旧执行。nohup 命令,在默认情况下(非重定向时),会输出一个名叫 nohup.out 的文件到当前目录下,如果当前目录的 nohup.out 文件不可写,输出重定向到 $HOME/nohup.out 文件中。

2024-05-09 19:33:20 767

原创 [鸟哥私房菜]4.首次登录与在线求助

通常我们称命令行界面为终端界面、Terminal 或 Console。Linux 默认的情况下会提供六个终端(Terminal)来让用户登录, 切换的方式为使用:[Ctrl] + [Alt] + [F1]~[F6] 的组合按钮。其中 [Ctrl] + [Alt] + [F1] 为图形用户界面模式,[Ctrl] + [Alt] + [F2]~[F6] 为命令行模式登录 tty2~tty6。

2024-05-09 19:30:05 297

原创 《Decoupled Contrastive Learning for Long-Tailed Recognition》阅读笔记

监督对比损失(Supervised Contrastive Loss, SCL)监督对比损失在视觉表征学习中非常流行。给定一个锚定图像,SCL 会将两种正样本(即其增强版本和来自同一类的其他图像)拉在一起,同时将负样本推开以优化学习到的嵌入。SCL 在长尾识别中的局限性在长尾识别的场景中,每个类的样本数量不平衡,将两种正样本平等对待会导致对类内距离的偏向优化。此外,被 SCL 忽略的负样本之间的相似性关系也呈现出有意义的语义线索。为了提高长尾识别的性能,本文通过解耦训练。

2024-05-07 11:03:15 1158

原创 《A Discriminative Feature Learning Approach for Deep Face Recognition》阅读笔记

卷积神经网络(CNNs)在计算机视觉领域被广泛使用,显著提高了现有技术水平。在大多数可用的CNNs中,softmax 损失函数被用作训练深层模型的监督信号。为了增强深度学习特征的判别力,本文为人脸识别任务提出了一种新的监督信号,称为中心损失。具体来说,中心损失同时学习每个类深层特征的中心,并惩罚深层特征与其对应类别中心之间的距离。更重要的是,我们证明了所提出的中心损失函数在 CNNs 中是可训练且易于优化的。

2024-04-25 17:49:20 711

原创 《Long-Tail Learning via Logit Adjustment》阅读笔记

论文标题《Long-Tail Learning via Logit Adjustment》通过 Logit 调整进行长尾学习作者Aditya Krishna Menon、Sadeep Jayasumana、Ankit Singh Rawat、Himanshu Jain、Andreas Veit 和 Sanjiv Kumar来自 Google Research初读摘要实际分类问题通常表现出不平衡或长尾的标签分布,其中许多标签仅与少数样本相关联。这对这类标签的泛化提出了挑战,并且使朴素学习偏向

2024-04-07 16:12:44 1391

原创 《Invariant Feature Learning for Generalized Long-Tailed Classification》阅读笔记

属性不平衡(attribute-wise imbalance)现有的长尾分类(Long-Tailed classification,LT)方法只关注解决头部类别比尾部类别拥有更多样本的类不平衡问题(class-wise imbalance),但忽视了属性不平衡(attribute-wise imbalance)。实际上,即使类别平衡,由于属性的多样性,每个类别内的样本仍可能呈现长尾分布。

2024-03-29 10:55:19 1074

原创 《A ConvNet for the 2020s》阅读笔记

视觉识别的 “咆哮的20年代” 始于 Vision Transformers(ViTs)的引入,ViTs 迅速取代了 ConvNets,成为最先进的图像分类模型。然而,一个普通的 ViT 在应用于通用计算机视觉任务时,例如目标检测和语义分割,会遇到困难。是分层 Transformers(例如,Swin Transformers)重新引入了几个 ConvNet 先验,使 Transformers 实际上可以作为通用的视觉骨干,并在各种视觉任务上展示了卓越的性能。

2024-03-17 15:32:31 1036

原创 《Balanced Meta-Softmax for Long-Tailed Visual Recognition》阅读笔记

论文标题《Balanced Meta-Softmax for Long-Tailed Visual Recognition》用于长尾视觉识别的平衡元-Softmax作者Jiawei Ren、Cunjun Yu、Shunan Sheng、Xiao Ma、Haiyu Zhao、Shuai Yi 和 Hongsheng Li商汤科技、南洋理工大学、新加坡国立大学和香港中文大学多媒体实验室初读摘要背景:深度分类器在视觉识别领域取得了巨大成功。然而,现实世界的数据本质上是长尾的,导致训练和测试分

2024-03-05 17:16:59 1079

原创 《Improving Calibration for Long-Tailed Recognition》阅读笔记

深度神经网络在训练数据集类别极度不平衡时可能会表现不佳。最近,两阶段方法将表示学习和分类器学习解耦以提高性能。但仍然存在一个重要问题,即误校准(miscalibration)。为了解决这个问题,我们设计了两种方法来改善这类场景中的校准和性能。受到预测类别概率分布与类别实例数量高度相关的启发,我们提出了标签感知平滑(label-aware smoothing)来处理不同类别的过度自信问题,并改进分类器学习。由于这两个阶段使用了不同的采样器,导致数据集之间存在偏差,我们在解耦框架中进一步提出了。

2024-03-03 15:05:54 1020

原创 《Decoupling Representation and Classifier for Long-Tailed Recognition》阅读笔记

视觉世界的长尾分布对基于深度学习的分类模型如何处理类不平衡问题提出了巨大的挑战。现有的解决方案通常涉及类平衡策略(class-balancing strategies)例如通过损失重加权、数据重采样,或者从头部类别到尾部类别的迁移学习,但它们大多数遵循共同学习表示和分类器的方案。在这项工作中,我们**将学习过程解耦(decouple)为表示学习和分类(representation learning and classification),并系统地探索不同的平衡策略如何影响长尾识别。

2024-02-28 20:31:12 1764

原创 《Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier》阅读笔记

论文标题《Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier》使用深度现实分类器解决长尾识别问题作者Tz-Ying Wu、Pedro Morgado、Pei Wang、Chih-Hui Ho 和 Nuno Vasconcelos来自加州大学圣地亚哥分校初读摘要长尾识别问题:长尾识别处理的是现实世界中自然分布不均的数据。虽然现代分类器在数量多的类别上表现良好,但在尾部类别上的性能显著下降。然而,

2024-02-05 17:08:43 508

原创 《Confusion Graph: Detecting Confusion Communities in Large Scale Image Classification》阅读笔记

问题描述对于基于深度卷积神经网络(CNN)的图像分类模型,我们观察到在视觉相似性高的类别之间发生的混淆要比视觉差异大的类别之间的混淆强烈得多。方法描述在这些不平衡的混淆中,类别可以被组织成社区(community),这类似于社交网络中的人群。基于此,我们提出了一种名为“混淆图(confusion graph)”的基于图的工具,用于量化这些混淆,并进一步揭示数据库内部的社区结构。作用描述利用这种社区结构,我们可以诊断模型的弱点,并使用专门的专家子网络来提高分类准确率,这与其他最先进的技术相当。

2024-01-28 16:40:00 812

原创 《Visual Tree Convolutional Neural Network in Image Classification》阅读笔记

问题在图像分类领域,随着深度学习的快速发展,卷积神经网络(CNN)模型已经取得了高性能。然而,在图像数据集中,有些类别比其他类别更难区分。提高这些混淆类别的分类准确率对整体性能是有益的。方法在本文中,我们基于混淆的语义层次信息构建了一个混淆视觉树(Confusion Visual Tree,CVT),以识别这些混淆的类别。利用 CVT 提供的信息,我们可以引导 CNN 训练过程更多地关注这些混淆类别。因此,我们提出了基于我们 CVT 嵌入的原始深度 CNN 的可视化树卷积神经网络(VT-CNN)。性能。

2024-01-25 16:29:21 1051

原创 《Deep Long-Tailed Learning: A Survey》阅读笔记

长尾类别不平衡(long-tailed class imbalance)深度长尾学习是视觉识别领域最具挑战性的问题之一,旨在从大量遵循长尾类分布的图像中训练出性能良好的深度模型。近十年来,深度学习已成为学习高质量图像表征的强大识别模型,并在通用视觉识别领域取得了显著突破。然而,长尾类不平衡是实际视觉识别任务中的一个常见问题,往往限制了基于深度网络的识别模型在实际应用中的实用性,因为它们很容易偏向于优势类,而在尾类上表现不佳。为解决这一问题,近年来开展了大量研究,在深度长尾学习领域取得了可喜的进展。

2024-01-21 17:13:47 1480

原创 《Ensemble deep learning: A review》阅读笔记

结合几个单独的模型以获得更好的泛化性能。目前,深度学习架构与浅层或传统模型相比表现更好。深度集成学习模型结合了深度学习模型和集成学习的优点,使最终模型具有更好的泛化性能。集成模型大致分类袋装法(bagging)提升法(boosting)堆叠法(stacking)基于负相关的深度集成模型(negative correlation based)显式/隐式集成(explicit/implicit)同质/异质集成(homogeneous/heterogeneous)

2024-01-02 20:26:15 1793

原创 [鸟哥私房菜]2.主机规划与磁盘分区

举例来说,SATA接口的硬盘的文件名称即为/dev/sd[a-d],其中, 括号内的字母为a-d当中的任意一个,亦即有/dev/sda、/dev/sdb、/dev/sdc 及 /dev/sdd 这四个文件的意思。

2023-12-26 22:17:43 422

原创 1.NumPy 介绍

Numeric 包开发于 20 世纪 90 年代中期,在 Python 中提供了数组对象和数组感知函数。它由 C 语言编写,并与线性代数的标准快速实现相链接。它最早的用途之一是引导 C++ 应用程序,用于劳伦斯利弗莫尔国家实验室(Lawrence Livermore National Laboratory)的惯性约束聚变研究。

2023-12-26 21:34:32 846

原创 [鸟哥私房菜]1.Linux是什么与如何学习

历史部分略过。

2023-12-25 20:12:17 1200

原创 《Learning Fine-grained Features via a CNN Tree for Large-scale Classification》阅读笔记

我们提出了一种增强卷积神经网络(CNN)可区分性的新方法。其主要思路是建立一个树状结构,通过只学习这些类别中的特征,逐步学习细粒度特征,以区分类别子集。与针对所有类别学习的特征相比,这些特征有望更具区分性。我们开发了一种新算法,可以有效地从大量类别中学习树形结构。大规模图像分类任务的实验证明,我们的方法可以提高给定基本 CNN 模型的性能。我们的方法非常通用,因此有可能与许多其他深度学习模型结合使用。

2023-12-16 09:22:44 884

原创 《Progressive Learning of Category-Consistent Multi-Granularity Features for FGVC》阅读笔记

现状:细粒度视觉分类(FGVC)类内对象的变化非常微妙。最近的研究主要是由部件驱动的(显式或隐式),其假设是细粒度信息自然存在于部件中。本文:在本文中,我们采取了不同的立场,并表明严格意义上的部件操作并非必要–关键在于鼓励网络以不同粒度进行学习,并逐步将多粒度特征融合在一起。有效融合不同粒度特征的渐进式训练策略;鼓励网络以特定粒度学习类别一致特征的一致块卷积。我们在几个标准的 FGVC 基准数据集上进行了评估,结果表明所提出的方法始终优于现有的替代方法,或提供了具有竞争力的结果。

2023-12-15 10:39:45 980

原创 《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》阅读笔记

论文标题《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》利用选择性状态空间的线性时间序列建模作者Albert Gu 和 Tri DaoAlbert Gu 来自卡内基梅隆大学机器学习系,Mamba 脱胎于 Albert Gu 的前作 S4 架构。Tri Dao 来自普林斯顿大学计算机科学系,Mamba 的简化块设计结合了 Tri Dao 的 H3 块和 MLP 块。初读摘要Transformer 架构及其

2023-12-10 16:41:21 2474

原创 AutoDL 使用记录

创建实例需要依次选择:计费方式→地区→GPU型号与数量→主机镜像:基础镜像:方便好用,需要哪个现成的选就行我的镜像:选自己的镜像更是方便的很如何保存镜像:自己创建镜像的话 30GB 以下免费,超出部分每 1G 一天一分钱。入口:容器实例→操作→更多→保存镜像哪些文件夹会保存在镜像中详见 JupyterLab 中的文件夹介绍等待创建成功与启动浅浅的等他创建好创建好启动后即可进入 JupyterLab 进行进一步的操作JupyterLab 中的操作其实很够用了。

2023-12-01 23:39:14 3218 2

原创 《Fine-Grained Image Analysis with Deep Learning: A Survey》阅读笔记

与上篇综述相同:细粒度图像分析(FGIA)的任务是分析从属类别的视觉对象。细粒度性质引起的类间小变化和类内大变化使其成为一个具有挑战性的问题。本文还涵盖了 FGIA 的其他一些重要问题,例如公开的基准数据集及其相关的特定领域应用。最后在总结这项调查时强调了几个方向和有待社会进一步探索的问题。本文试图通过整合两个基本的细粒度研究领域——细粒度图像识别和细粒度图像检索,重新定义和拓宽 FGIA 的领域。

2023-11-19 16:56:57 725 1

原创 《Deep learning for fine-grained image analysis: A survey》阅读笔记

细粒度图像分析(FGIA)的任务是分析从属类别的视觉对象。细粒度性质引起的类间小变化和类内大变化使其成为一个具有挑战性的问题。本文旨在系统地调查基于深度学习的 FGIA 技术的最新进展。本文将现有的 FGIA 技术研究分为三大类:细粒度图像识别细粒度图像检索细粒度图像生成本文还涵盖了 FGIA 的其他一些重要问题,例如公开的基准数据集及其相关的特定领域应用。最后在总结这项调查时强调了几个方向和有待社会进一步探索的问题。

2023-11-18 09:01:09 521

原创 《A Survey on Deep Learning-based Fine-grained Object Classification and Semantic Segmentation》阅读笔记

深度学习强深度学习在视觉任务性能优异,在细粒度图像分类领域也很强。细粒度图像分类是什么:下属类别分类(distinguish subordinate-level categories)细粒度图像分类特点:内方差高、类间方差低通用卷积神经网络(CNNs)基于部分检测的方法基于网络集成的方法基于视觉注意力的方法基于区域建议的方法基于全卷积网络的方法。

2023-11-17 16:03:07 142

原创 《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》阅读笔记

提出 Swin Transformer可以作为 CV 的通用主干视觉实体尺度变化很大,比如不同图片中的同一种物体大小不一图片的像素比文本中的单词要大的多解决:分层结构+移动窗口将自注意力计算限制在不重叠的窗口上同时还允许跨窗口连接具有在各种尺度上建模的灵活性计算复杂性相对于图像大小是线性的(为后续的 Swin V2 做了铺垫)与广泛的视觉任务兼容ImageNet-1K上的 87.3 top-1 精度。

2023-11-11 21:51:52 398

原创 《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》阅读笔记

在 NLP 领域,Transformer 体系结构已经成为事实上的标准,属于霸榜的存在。在 CV 领域,应用有限要么与卷积网络结合使用;要么用于替换卷积网络里的某些组件,但还是保留卷积网络的总体结构。证明 Transformer 在 CV 领域对卷积的依赖实际上并非是必要的;纯 Transformer 直接应用到一个序列的图像块也能有非常不错的图像分类效果;在大数据集上做训练后再迁移到中小数据集(你管 ImageNet 叫中小数据集??

2023-11-05 17:44:06 243

原创 《Generic Dynamic Graph Convolutional Network for traffic flow forecasting》阅读笔记

现存方法的局限性:图卷积网络共享模式不充分时间关系不灵活关系假设不固定新方法:具有参数共享和跨堆叠层独立块的通用框架用以系统地探索所以数据维度上地参数共享可以同时利用层与层之间的不同模式和跨层的稳定模式。一个新的时间图卷积块从图的角度将历史时隙视为节点,并用图卷积处理时间动态。可以捕获灵活的全局时间关系,以便更好地了解当前的交通状况。一种动态图构造函数不仅可以对节点之间特定于时间的空间依赖关系进行建模还可以对时隙之间不断变化的时间交互进行建模,从而从数据中彻底发现动态关系。

2023-11-02 09:29:23 529

原创 《Attention Is All You Need》阅读笔记

大概介绍结构:没有用之前的循环或者卷积,完全使用注意力机制秀结果:在机器翻译任务上表现很好,在 WMT 2014 英德语翻译任务中实现了 28.4 BLEU,提高了 2 BLEU以上。在WMT 2014 英法翻译任务中实现了 41.0 BLEU训练很快:并行性更高,英法翻译那个只用了 8 张卡 3.5 天(没见过世面的我依然觉得很久的哇)。层归一化详细见前篇笔记《10.7 Transformer》,内容几乎一致,此处不赘述。

2023-10-29 15:03:01 229

原创 《动手学深度学习 Pytorch版》 10.7 Transformer

自注意力同时具有并行计算和最短的最大路径长度这两个优势。Transformer 模型完全基于注意力机制,没有任何卷积层或循环神经网络层。尽管 Transformer 最初是应用于在文本数据上的序列到序列学习,但现在已经推广到各种现代的深度学习中,例如语言、视觉、语音和强化学习领域。

2023-10-27 21:36:39 878

原创 《动手学深度学习 Pytorch版》 10.6 自注意力和位置编码

在注意力机制中,每个查询都会关注所有的键-值对并生成一个注意力输出。由于查询、键和值来自同一组输入,因此被称为 自注意力(self-attention),也被称为内部注意力(intra-attention)。本节将使用自注意力进行序列编码,以及使用序列的顺序作为补充信息。

2023-10-26 21:54:14 1164 1

原创 《动手学深度学习 Pytorch版》 10.5 多头注意力

多头注意力(multihead attention):用独立学习得到的 h 组不同的线性投影(linear projections)来变换查询、键和值,然后并行地送到注意力汇聚中。最后,将这 h 个注意力汇聚的输出拼接在一起,并且通过另一个可以学习的线性投影进行变换,以产生最终输出。对于 h 个注意力汇聚输出,每一个注意力汇聚都被称作一个头(head)。

2023-10-26 11:49:29 921

原创 《动手学深度学习 Pytorch版》 10.4 Bahdanau注意力

AttentionDecoder 类定义了带有注意力机制解码器的基本接口#@save"""带有注意力机制解码器的基本接口"""@property在 Seq2SeqAttentionDecoder 类中实现带有 Bahdanau 注意力的循环神经网络解码器。初始化解码器的状态,需要下面的输入:编码器在所有时间步的最终层隐状态,将作为注意力的键和值;上一时间步的编码器全层隐状态,将作为初始化解码器的隐状态;编码器有效长度(排除在注意力池中填充词元)。

2023-10-25 20:32:07 708 1

原创 《动手学深度学习 Pytorch版》 10.3 注意力评分函数

上一节使用的高斯核的指数部分可以视为注意力评分函数(attention scoring function),简称评分函数(scoring function)。后续把评分函数的输出结果输入到softmax函数中进行运算。最后,注意力汇聚的输出就是基于这些注意力权重的值的加权和。该过程可描述为下图:fqk1​v1​km​vm​))i1∑m​αqki​vi​∈Rv其中查询q和键ki​的注意力权重(标量)是通过注意力评分函数aαqk。

2023-10-25 17:40:10 637

原创 《动手学深度学习 Pytorch版》 10.2 注意力汇聚:Nadaraya-Watson 核回归

queries和attention_weights的形状为(查询个数,“键-值”对个数)# values的形状为(查询个数,“键-值”对个数)

2023-10-24 16:02:21 1082 1

原创 《动手学深度学习 Pytorch版》 10.1 注意力提示

美国心理学之父” 威廉·詹姆斯提出的双组件(two-component)框架:非自主性提示:基于环境中物体的突出性和易见性自主性提示:受到了认知和意识的控制。

2023-10-23 21:22:24 555

原创 《动手学深度学习 Pytorch版》 9.8 束搜索

本节将介绍几大:贪心搜索(greedy search)策略穷举搜索(exhaustive search)束搜索(beam search)

2023-10-21 15:18:10 368

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除