自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AI浩

分享人工智能知识,包括:计算机视觉、NLP以及机器学习等领域。注重基础与实践,尽最大的努力让每个初学者看懂学会。

  • 博客(1149)
  • 资源 (166)
  • 收藏
  • 关注

原创 Sora:视频生成模型作为世界模拟器

我们探索了视频数据上生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和长宽比的视频和图像上联合训练文本条件扩散模型。我们利用了一个在视频和图像潜在码的时空块上操作的变压器架构。我们规模最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩大视频生成模型的规模,是建立通用物理世界模拟器的一条有前景的途径。本技术报告重点介绍(1)我们将各类视觉数据转化为统一表示的方法,使生成模型能够进行大规模训练,以及(2)对 Sora 的能力和局限性的定性评估。本报告未包含模型和实现的详细信息。

2024-02-21 22:07:12 331

原创 WSL安装Ubuntu22.04,以及深度学习环境的搭建

安装 WSL 2 之前,必须启用“虚拟机平台”可选功能。计算机需要虚拟化功能才能使用此功能。下载 Linux 内核更新包:l链接:下载完成后更新。打开 Microsoft Store,搜索WSL,选择你偏好的 Linux版本。我选择的是Ubuntu22.04版本。点进去就可以看到下载链接下载即可。下载完成后,启动系统,配置用户名和密码。输入nvidia-smi。

2024-02-19 05:57:41 857

原创 Linux查看日志的几种方法总结

摘要Linux系统中查看日志的命令确实多种多样,每个命令都有其特定的用途和优势。常用的命令有:tail、cat、tac、head、echo,grep、less、awk、sed。tail命令主要用于查看文件的末尾内容,特别适用于实时查看日志文件的更新内容。通过-f选项,可以实时监控日志文件的最新内容。例如,会实时显示系统日志的最新条目。另外,-n选项可以用来指定显示的行数,如会显示日志文件的最后100行。cat命令用于显示整个文件的内容。

2024-02-14 21:12:32 994

原创 Mamba-UNet:用于医学图像分割的类似UNet的纯视觉Mamba网络

所提出的Mamba-UNet的架构如图2所示,其灵感来源于UNet [24] 和 Swin-UNet [3]。首先将大小为 H × W × 1 的2D灰度图像分割成类似于ViT和VMamba的块 [5,16],然后转换为维度为 H/4 × W/4 × 16 的1D序列。一个初始的线性嵌入层将特征维度调整为任意大小C。这些块令牌随后通过多个VSS块和块合并层进行处理,以创建分层特征。块合并层负责下采样和维度增加,而VSS块则专注于学习特征表示。

2024-02-14 12:53:25 274

原创 MogaNet实战:使用 MogaNet实现图像分类任务(二)

训练部分。

2024-02-13 09:01:25 1581 5

原创 MogaNet实战:使用MogaNet实现图像分类任务(一)

论文:https://arxiv.org/pdf/2211.03295.pdf作者多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。提出了一种新的纯卷积神经网络架构族,称为MogaNet。MogaNet具有出色的可扩展性,在ImageNet和其他多种典型视觉基准测试中,与最先进的模型相比,其参数使用更高效,且具有竞争力的性能。

2024-02-12 17:44:02 1013

原创 Tied Block Convolution: 具有共享较薄滤波器的更简洁、更出色的CNN

我们提出了Tied Block Convolution(TBC),它在等量的通道块上共享相同的较薄滤波器,并使用单个滤波器产生多个响应。TBC的概念还可以扩展到组卷积和全连接层,并可以应用于各种基础网络和注意力模块,同时基线性能得到一致的提升。基于TBC的TiedResNet也超过了基线,具有更高的参数使用效率和更好的检测严重遮挡物体的能力。

2024-02-12 08:52:01 1756 2

原创 Swin-UMamba:结合基于ImageNet的预训练和基于Mamba的UNet模型

准确的医学图像分割需要整合从局部特征到全局依赖的多尺度信息。然而,现有方法在建模长距离全局信息方面面临挑战,其中卷积神经网络(CNNs)受限于其局部感受野,而视觉转换器(ViTs)则受到其注意力机制高二次复杂度的困扰。最近,基于Mamba的模型因其在长序列建模中的出色能力而备受关注。多项研究表明,这些模型在各种任务中可以超越流行的视觉模型,提供更高的准确性、更低的内存消耗和更少的计算负担。

2024-02-06 19:55:48 886

原创 MogaNet:高效的多阶门控聚合网络

自深度神经网络(DNNs)复兴以来,卷积神经网络(ConvNets)已成为计算机视觉领域的首选方法。通过在池化和非线性操作之间交替使用层次化的卷积层,ConvNets能够利用内置的平移等变约束来编码观察图像的底层语义模式,并进一步成为当今计算机视觉系统中的基础设施。然而,ConvNets所学习的表示对局部纹理有很强的偏见,这导致全局信息的严重损失。因此,研究者们一直在努力改进宏观层次架构和上下文聚合模块。

2024-02-06 08:45:22 921

原创 如何解决部分图片读取转化异常的问题

接触到一个数据集,有个别图片在读取转化的时候出现了异常,由于图片之间有关联,导致后续图片无法时候。

2024-02-04 21:45:00 366 2

原创 MAE实战:使用MAE提高主干网络的精度(一)

MAE已经出来有几年了,很多人还不知道怎么去使用,本文通过两个例子说明一下。分两部分,一部分介绍一个简单的例子,让大家了解MAE训练的流程。一部分是一个新的模型,让大家了解如何将自己的模型加入MAE。论文标题: Masked Autoencoders Are Scalable Vision Learners论文地址:https://arxiv.org/abs/2111.06377代码地址:https://github.com/facebookresearch/maeMAE的两个核心设计:参考文章:https

2024-02-04 20:00:00 1404

原创 讯飞星火V3.5发布,一场大模型的奇幻之旅(深度体验讯飞星火V3.5)

通过,常用的几个方式对讯飞星火3.5进行测评,均有不俗的表现。其他的功能,还在做尝试!

2024-01-31 21:42:13 1347 4

原创 Focaler-IoU:更聚焦的IoU损失

目标检测是计算机视觉的基本任务之一,其目的是在图像中定位和识别目标。根据是否生成锚点,可以将它们分为基于锚点和无锚点的方法。基于锚点的算法包括Faster R-CNN [1]、YOLO(You Only Look Once)系列 [2]、SSD(Single Shot MultiBox Detector) [3]和RetinaNet [4]。

2024-01-30 22:00:00 951

原创 Vim实战:使用 Vim实现图像分类任务(二)

训练部分。

2024-01-30 07:08:25 1204

原创 Vim实战:使用Vim实现图像分类任务(一)

论文:https://arxiv.org/pdf/2401.09417v1.pdf翻译:近年来,随着深度学习的发展,视觉模型在许多任务中取得了显著的成功。然而,随着模型规模和复杂度的增加,计算和内存的消耗也急剧增长。这限制了模型在资源有限的环境中的使用,尤其是在处理高分辨率图像时。为了解决这个问题,一种新的视觉模型架构——Vim(Vision with Mamba)被提出。Vim是一种基于状态空间模型(SSM)的视觉模型,利用了Mamba这种高效的硬件设计。

2024-01-29 21:21:10 1210 1

原创 huggingface打不开,解决方法

【代码】huggingface打不开,解决方法。

2024-01-29 17:06:27 482

原创 视觉Mamba:基于双向状态空间模型的高效视觉表征学习

最近,具有高效硬件感知设计的状态空间模型(SSMs),例如Mamba,在长序列建模方面展现出了巨大潜力。纯粹基于SSMs构建高效和通用的视觉骨干网络是一个吸引人的方向。然而,由于视觉数据的空间敏感性和视觉理解的全局上下文需求,用SSMs表示视觉数据是一项挑战。本文表明,视觉表示学习对自注意力的依赖不是必需的,并提出了一个新的通用视觉骨干网络,该网络使用双向Mamba块(Vim),通过位置嵌入标记图像序列,并使用双向状态空间模型压缩视觉表示。

2024-01-29 13:45:58 1013

原创 DCNv4:对视觉应用的动态和稀疏算子的重新思考

在计算机视觉领域,关于卷积网络(ConvNets)和Transformer哪个性能更优越的争论一直在进行。近年来,具有注意力机制的大型视觉模型中的Transformer模型[12、25、44]取得了显著成果,显示出超越ConvNets的潜力。然而,诸如InternImage [38]和ConvNeXt [26]等最新研究工作表明,基于ConvNet的视觉模型在各种下游任务中仍保持稳健的性能、效率和简单性,并具有适当的归纳偏差[15、41]。值得注意的是,在图像生成等领域[29、31],卷积仍然是首选方法。

2024-01-27 19:23:43 1210 2

原创 FlashInternImage实战:使用 FlashInternImage实现图像分类任务(二)

训练部分。

2024-01-27 09:51:33 1080

原创 FlashInternImage实战:使用FlashInternImage实现图像分类任务(一)

论文介绍了Deformable Convolution v4(DCNv4),一种针对广泛视觉应用的高效有效运算符。DCNv4通过两个关键改进解决了其前身DCNv3的局限性:1)在空间聚合中移除softmax归一化,以增强其动态特性和表达力;2)优化内存访问,以最小化冗余操作并加速处理速度。这些改进使得DCNv4相比DCNv3具有更快的收敛速度和显著的性能提升,处理速度提高了三倍以上。DCNv4在图像分类、实例和语义分割等任务中表现出色,尤其在图像生成方面表现突出。

2024-01-26 21:41:48 983

原创 Shift-ConvNets:具有大核效应的小卷积核

神经网络的发展在机器学习领域取得了重大突破,特别是在计算机视觉和自然语言处理领域[1,2,3]。卷积神经网络(CNN)作为这一阶段的支配性架构之一,广泛应用于自然语言处理、计算机视觉等领域[4,5]等等。尽管如此,转换器的发展在2020年代推动了视觉识别进入爆炸性增长的时代。它迅速取代了CNN,成为计算机视觉领域的最先进模型。ConvNeXts [6]是一项开创性的工作,使CNN能够与转换器竞争。它根据转换器重新设计了ResNet,并重新强调了大型卷积核的作用。关于增加卷积核大小的好处出现了思考。

2024-01-26 19:04:43 959

原创 成功安装DCNv4

终于安装成功了。

2024-01-25 07:46:18 523 4

原创 UniRepLKNet实战:使用 UniRepLKNet实现图像分类任务(二)

训练部分。

2024-01-13 22:12:48 1185

原创 python中的Quene使用方法,包含多线程和多进程

在Python中,队列(Queue)是一种抽象的数据类型,它遵循先进先出(FIFO)的原则。队列是一种特殊的线性表,只允许在表的前端(front)进行删除操作,而在表的后端(rear)进行插入操作。Python标准库中的queue模块提供了多种队列的实现,包括:Queue:这是一个简单的队列类,可以用来实现先进先出的数据结构。LifoQueue:这是一个后进先出(LIFO)的数据结构,与栈类似。PriorityQueue:这是一个优先级队列,可以根据元素的优先级进行排序。下面是一个使用queu

2024-01-13 15:32:06 1081

原创 基于Flask的高并发部署方案

Flask 是一个轻量级的 Python Web 框架,它非常适合构建小型到中型的应用程序。Flask 的特点:轻量级:相比于 Django,Flask 更轻量级,更适合小型项目或微服务。简单:Flask 的 API 非常简洁,易于学习和使用。灵活:Flask 提供了基础功能,但并不限制开发者如何实现这些功能。扩展性强:有许多针对 Flask 的扩展,可以轻松地添加新功能。基本组件:路由:定义了 URL 和处理它们的函数之间的映射关系。模板引擎:用于渲染 HTML 页面。URL 构建。

2024-01-11 21:30:31 1468 5

原创 UniRepLKNet实战:使用UniRepLKNet实现图像分类任务(一)

大核卷积神经网络(ConvNets)近年来受到广泛关注,但仍存在两个关键问题需要进一步研究。首先,目前的大型卷积神经网络架构大多遵循传统卷积神经网络或Transformer的设计原则,而大核ConvNets的架构设计仍未得到充分解决。其次,尽管Transformer已在多种模态中占据主导地位,但仍需研究卷积神经网络是否也具备超越视觉领域的强大通用感知能力。本文从两个方面进行了贡献。首先,提出了设计大型卷积神经网络的四项架构准则。核心思想是利用大型内核与小型内核的本质区别:大型内核可以广角观察而无需深入。

2024-01-10 21:02:09 1087

原创 Shape-IoU:考虑边框形状与尺度的度量

作为检测器定位分支的重要组成部分,边界框回归损失在目标检测任务中发挥着重要作用。现有的边界框回归方法通常考虑真实框(GT box)与预测框之间的几何关系,并使用边界框的相对位置和形状来计算损失,而忽略了边界框的固有属性(如形状和尺度)对边界框回归的影响。为了弥补现有研究的不足,本文提出了一种专注于边界框本身形状和尺度的边界框回归方法。首先,我们分析了边界框的回归特性,发现边界框本身的形状和尺度因素会对回归结果产生影响。

2024-01-07 10:51:45 1042

原创 MEW-UNet:医学图像分割中的频域多轴表示学习

最近,视觉Transformer (ViT)在医学图像分割(MIS)中得到了广泛应用,这归功于其在空间域应用自注意力机制来建模全局知识。然而,许多研究都侧重于改进空间域模型,而忽略了频率域信息的重要性。因此,我们提出了基于U-shape架构的多轴外部权重UNet(MEW-UNet),通过将ViT中的自注意力替换为我们的多轴外部权重块。具体来说,我们的块对输入特征的三个轴进行傅里叶变换,并在频率域中分配由我们的外部权重生成器生成的外部权重。然后,进行逆傅里叶变换以将特征变回空间域。

2024-01-05 06:19:09 951

原创 Linux常用操作命令

2、清空nohup.out日志文件。

2024-01-04 14:22:12 397

原创 对抗AUTOMIXUP

文章目录摘要1、简介2、相关工作3、ADAUTOMIX3.1、深度学习分类器3.2、生成器3.3 对抗增强3.3.1 对抗损失3.4 对抗优化4、实验4.1、分类结果4.1.1、数据集分类4.1.2、精细分类4.2、校准4.3、鲁棒性4.4、遮挡鲁棒性4.5、迁移学习4.6、消融实验5、结论附录AA.1 数据集信息A.2 实验超参数细节A.3 实验实现细节A.4 其他MiXUP实验的细节A.5 校准结果A.6 各种MiXUP方法在遮挡图像集上的准确度A.7 效率与准确性的曲线A.8 AdAutoMix模块实

2024-01-02 20:01:17 924

原创 【论文阅读】MCANet: Medical Image Segmentation with Multi-Scale Cross-Axis Attention

链接:https://arxiv.org/abs/2312.08866医学图像分割是医学图像处理和计算机视觉领域的关键挑战之一。由于病变区域或器官的大小和形状各异,有效地捕捉多尺度信息和建立像素间的长距离依赖性至关重要。本文提出了一种基于高效轴向注意力的多尺度交叉轴注意(MCA)方法来解决这些问题。MCA通过计算两个并行轴向注意力之间的双向交叉注意力,以更好地捕获全局信息。

2023-12-25 09:15:24 1633 1

原创 pytorch常用的几个函数详解

view()是 PyTorch 中的一个常用函数,用于改变张量(tensor)的形状。在深度学习中,我们经常需要调整数据的形状以适应不同的网络结构或计算需求,view()函数就是用来完成这个任务的。

2023-12-23 08:18:15 1324

原创 通过生成表征的自条件图像生成

本文提出了表示条件图像生成(Representation-Conditioned Image Generation,简称RCG),这是一个简单而有效的图像生成框架,在类别无条件的图像生成中设置了新的基准。RCG不依赖于任何人类标注,而是依赖于一种自监督表示分布,该分布是使用预训练编码器从图像分布中映射出来的。在生成过程中,RCG使用表示扩散模型(Representation Diffusion Model,简称RDM)从这样的表示分布中进行采样,并使用像素生成器根据采样的表示来生成图像像素。

2023-12-22 18:03:47 474

原创 TransXNet实战:使用 TransXNet实现图像分类任务(二)

训练部分。

2023-12-19 19:51:00 1152

原创 TransXNet实战:使用TransXNet实现图像分类任务(一)

论文提出了一种名为D-Mixer的轻量级双动态TokenMixer,旨在解决传统卷积的静态性质导致的表示差异和特征融合问题。D-Mixer通过应用高效的全局注意力和输入依赖的深度卷积,分别对均匀分割的特征片段进行处理,使网络具有强大的归纳偏置和更大的有效感受野。以D-Mixer作为基本构建块,设计了新颖的混合CNN-Transformer视觉主干网络TransXNet,其性能优越。

2023-12-19 19:49:17 990

原创 TransXNet:使用双动态令牌混合器学习全局和局部动态以实现视觉识别

这段文字主要讨论了计算机视觉中的两种模型:Vision Transformer (ViT) 和 Swin Transformer。ViT使用多头自注意力(MHSA)进行长距离建模,取得了显著的进展,但由于其自身没有固有地编码归纳偏置,因此相对于卷积神经网络(CNN),其泛化能力较弱。为了解决这一限制,Swin Transformer引入了移位窗口自注意力,这种结构既引入了归纳偏置,又降低了MHSA的计算成本。但由于Swin Transformer是基于窗口的局部性质,其感受野有限。

2023-12-16 13:38:13 1028

原创 GroupMixFormer:基于Group-Mix注意力的视觉Transformer

视觉转换器(ViTs)已被证明可以通过建模长程依赖关系来增强视觉识别,这种建模使用多头自注意力(MHSA),通常将其表述为查询-键-值计算。然而,从查询和键生成的注意力图只能捕获单个粒度上的令牌到令牌的相关性。在本文中,我们认为自注意力应该有一个更全面的机制来捕获令牌和令牌组(即多个相邻的令牌)之间的相关性,以获得更高的表示能力。

2023-12-15 21:00:00 1260

原创 Python绘制几种常见的时序分析图

时间序列数据是一种按照时间顺序排列的观测值集合,每个观测值对应于一个特定的时间点。这种数据在许多领域中都具有重要的应用价值,如金融、经济、气候科学等。通过分析时间序列数据,可以帮助我们掌握潜在的模式、发现趋势和季节性波动等重要信息。时间序列分析是一种技术,用于评估时间序列数据,旨在确定相关的统计数据和其他数据属性。其主要目标是研究市场趋势和经济周期的关键思想,任何受到影响的具有重复模式的时间序列都可能受到影响。

2023-12-08 22:53:47 978 1

原创 python random详解

首先生成一个空的winning_numbers列表,然后在一个循环中使用randint()函数生成1到33之间的随机整数,检查它是否已经存在于winning_numbers列表中,如果不存在则将其添加到列表中。循环直到生成的随机数个数达到6个为止。Python的random模块是用于生成随机数的。它可以生成各种类型的随机数,包括随机浮点数、随机整数、随机选择序列等。函数生成一个1到10之间的随机整数。由于我们使用了相同的随机种子,因此每次运行程序时生成的随机数序列将是相同的。在这个例子中,我们首先使用。

2023-12-08 20:00:00 1026

原创 python的extend函数详解

Python 的extend()方法是一个非常有用的工具,它允许你将一个可迭代对象的所有元素添加到列表的末尾。通过上面的示例,你可以看到extend()是如何工作的,以及在使用它时需要注意的一些事项。记住,extend()是直接修改原始列表的,而不是创建一个新的列表。如果你想要将一个可迭代对象的所有元素添加到列表末尾,并且不介意直接修改原始列表,那么extend()或+=是很好的选择。其中,extend()更明确地表明你正在添加多个元素。

2023-12-08 06:58:17 1026

YoloV8改进策略:CoordConv给卷积加上坐标,从而使其具备了空间感知能力.zip

YoloV8改进策略:CoordConv给卷积加上坐标,从而使其具备了空间感知能力.zip

2024-02-21

MogaNet实战:使用MogaNet实现图像分类任务

作者多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。提出了一种新的纯卷积神经网络架构族,称为MogaNet。MogaNet具有出色的可扩展性,在ImageNet和其他多种典型视觉基准测试中,与最先进的模型相比,其参数使用更高效,且具有竞争力的性能。具体来说,MogaNet在ImageNet上实现了80.0%和87.8%的Top-1准确率,分别使用了5.2M和181M参数,优于ParC-Net-S和ConvNeXt-L,同时节省了59%的浮点运算和17M的参数。源代码可在GitHub上(https://github.com/Westlake-AI/MogaNet)获取。 文章链接:https://wanghao.blog.csdn.net/article/details/136102061?spm=1001.2014.3001.5502

2024-02-12

YoloV8改进-三元注意力,小参数大能力,即插即用,涨点自如

注意力机制在计算机视觉领域得到了广泛的研究和应用,利用构建通道或空间位置之间的依赖关系的能力,有效地应用于各种计算机视觉任务。本文研究了轻量级但有效的注意力机制,并提出了一种新的计算注意力权重的方法——三元组注意力,通过一个三分支结构捕捉跨维度交互。对于输入张量,三元组注意力通过旋转操作和残差变换建立跨维度的依赖关系,并以极小的计算开销编码了跨通道和空间信息。这种方法既简单又高效,可以轻松地插入经典的主干网络中作为附加模块。在各种具有挑战性的任务中,如ImageNet-1k图像分类和MSCOCO和PASCAL VOC数据集上的目标检测,证明了该方法的有效性。此外,通过可视化检查GradCAM和GradCAM++结果,提供了对三元组注意力性能的深入见解。本文方法的实证评估支持了在计算注意力权重时捕捉跨维度依赖关系的重要性的直觉。

2024-02-05

Vim实战:使用Vim实现图像分类任务

Vim作为一种高效的视觉模型,具有计算和内存效率高、处理高分辨率图像能力强等优点。这使得Vim成为下一代视觉基础模型的理想选择。 本文使用Vim模型实现图像分类任务,模型选择最小的vim_tiny_patch16_224_bimambav2_final_pool_mean_abs_pos_embed_rope_also_residual_with_cls_token(这个方法的名字比较长。。。。。),在植物幼苗分类任务ACC达到了93%+。 文章链接: https://wanghao.blog.csdn.net/article/details/135921108?spm=1001.2014.3001.5502

2024-01-30

FlashInternImage实战:使用FlashInternImage实现图像分类任务

将DCNv3替换为DCNv4创建的FlashInternImage模型可实现高达80%的速度提升和进一步性能改进,无需其他修改。DCNv4在速度和效率上的优势,结合其在各种视觉任务中的稳健性能,使其成为未来视觉模型的潜在基础构建块。 文章链接: https://wanghao.blog.csdn.net/article/details/135873073?spm=1001.2014.3001.5502

2024-01-27

UniRepLKNet实战:使用UniRepLKNet实现图像分类任务

大核卷积神经网络(ConvNets)近年来受到广泛关注,但仍存在两个关键问题需要进一步研究。首先,目前的大型卷积神经网络架构大多遵循传统卷积神经网络或Transformer的设计原则,而大核ConvNets的架构设计仍未得到充分解决。其次,尽管Transformer已在多种模态中占据主导地位,但仍需研究卷积神经网络是否也具备超越视觉领域的强大通用感知能力。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/135512795

2024-01-13

TransXNet实战:使用TransXNet实现图像分类任务

在ImageNet-1K图像分类任务中,TransXNet-T相比Swin-T在top-1准确率上提高了0.3%,同时计算成本更低。此外,TransXNet-S和TransXNet-B展示了出色的模型扩展性,分别实现了83.8%和84.6%的top-1准确率,且计算成本合理。此外,我们的网络架构在各种密集预测任务中展现出了强大的泛化能力,优于其他先进的网络结构,且计算成本更低。总之,D-Mixer和TransXNet作为一种高效且具有强大泛化能力的网络结构,为计算机视觉领域提供了新的解决方案。 这篇文章使用TransXNet完成植物分类任务,模型采用transxnet_t向大家展示如何使用TransXNet。transxnet_t在这个数据集上实现了96+%的ACC

2023-12-19

Hiera实战:使用Hiera实现图像分类任务

现代层次视觉变换器在追求监督分类表现时增加了几个特定于视觉的组件。 这些组件虽然带来了有效的准确性和吸引人的FLOP计数,但增加的复杂性实际上使这些变换器比普通ViT更快。作者认为这种额外的体积是不必要的。 通过使用强大的视觉预训练任务(MAE)进行预训练,可以从最先进的多阶段视觉变换器中去除所有花里胡哨的东西,同时不会丢失准确性。 在此过程中,作者创建了Hiera,这是一种极其简单的层次视觉变换器,它比以前的模型更准确,同时在推理和训练过程中都明显更快。 在各种任务上评估了Hiera对于图像和视频识别的表现。 代码和模型可以在https://github.com/facebookresearch/hiera上获得。 这篇文章使用Hiera完成植物分类任务,模型采用hiera_tiny_224向大家展示如何使用Hiera。 原文链接:https://wanghao.blog.csdn.net/article/details/134642935

2023-12-07

RevCol实战:使用RevCol实现图像分类任务

可逆柱状结构(RevCol)是一种网络结构,它受到GLOM(Global Columnar Memory)的启发。RevCol由N个子网络(或称为列)组成,每个子网络的结构和功能都是相同的。这种结构可以有效地解决信息崩溃的问题,通过在前面的列中添加额外的监督,以保持特征和输入图像之间的互信息。此外,RevCol可以逐渐解耦语义和低级信息,从而提取和利用任务相关信息来进一步提高性能。在实现上,对于中间监督,采用了加权求和的方式将两个损失合并,对于所有变体的RevCol,通过实验确定将监督头添加到特定的列中。 这篇文章使用RevCol完成植物分类任务,模型采用revcol_tiny向大家展示如何使用RevCol。revcol_tiny在这个数据集上实现了96+%的ACC,

2023-11-25

Sgformer实战:使用Sgformer实现图像分类任务

Sgformer实战:使用Sgformer实现图像分类任务

2023-09-11

nougat的权重文件

nougat权重文件

2023-09-05

定时任务库的详解与魅力应用:探索schedule的无尽可能性.pdf

定时任务库的详解与魅力应用:探索schedule的无尽可能性

2023-08-30

FastVIT实战:使用FastVIT实现图像分类

第一步 执行makedata.py 创建训练集和验证集 第二步 执行train.py训练 第三步 执行export_model.py 导出模型 第四步 执行test.py 测试 非常简单,适合初学者

2023-08-21

DERT:论文详细翻译

DERT:论文详细翻译

2023-08-15

VGGNet剪枝实战:使用VGGNet训练、稀疏训练、剪枝、微调等,剪枝出只有3M的模型

在BN层网络中加入稀疏因子,训练使得BN层稀疏化,对稀疏训练的后的模型中所有BN层权重进行统计排序,获取指定保留BN层数量即取得排序后权重阈值thres。遍历模型中的BN层权重,制作各层mask(权重>thres值为1,权重<thres值为0)。剪枝操作,根据各层的mask构建新模型结构(各层保留的通道数),获取BN层权重mask非零值的索引,非零索引对应的原始conv层、BN层、linear层各通道的权重、偏置等值赋值给新模型各层。加载剪枝后模型,进行fine-tune。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/132054977

2023-08-07

EMO实战:使用EMO实现图像分类任务

EMO实战:使用EMO实现图像分类任务

2023-07-31

MobileViG-基于图的稀疏注意移动视觉应用.pdf

论文翻译

2023-07-25

MobileViG实战:使用MobileViG实现图像分类任务

MobileViG实战:使用MobileViG实现图像分类任务

2023-07-17

FasterViT实战:使用FasterViT实现图像分类任务

FasterViT实战:使用FasterViT实现图像分类任务

2023-07-10

pytorch-CNN网络汇总.zip

pytorch_CNN网络汇总

2023-07-04

InceptionNext实战:使用InceptionNext实现图像分类任务

论文翻译:https://wanghao.blog.csdn.net/article/details/131347001?spm=1001.2014.3001.5502 官方源码:https://github.com/sail-sg/inceptionnext 这是一篇来自颜水成团队的论文。作者提出InceptionNext,将大核深度卷积分解为沿通道维度的四个平行分支,即小方形核、两个正交带核和一个单位映射。通过这种新的Inception深度卷积,构建了一系列网络,不仅享有高吞吐量,而且保持有竞争力的性能。例如,InceptionNeXt-T实现了比convnext - t高1.6倍的训练吞吐量,并在ImageNet- 1K上实现了0.2%的top-1精度提高。 https://wanghao.blog.csdn.net/article/details/131387184?spm=1001.2014.3001.5502

2023-06-26

CloFormer实战:使用CloFormer实现图像分类任务

CloFormer实战:使用CloFormer实现图像分类任务

2023-06-13

VanillaNet实战:使用VanillaNet实现图像分类

VanillaNet实战:使用VanillaNet实现图像分类 论文翻译:https://blog.csdn.net/m0_47867638/article/details/131057152 官方源码:https://github.com/huawei-noah/VanillaNet VanillaNet是华为在2023年发布的一种极简风格的CNN网络,采用了最普通的CNN网络,却达到了很好的效果。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/68817ad3e0f544b59d6b517834dcb672.png) 这篇文章使用VanillaNet完成植物分类任务,模型采用VanillaNet10向大家展示如何使用VanillaNet。由于没有预训练模型,VanillaNet10在这个数据集上实现了87%的ACC。 https://blog.csdn.net/m0_47867638/article/details/131216849?spm=1001.2014.3001.5502

2023-06-13

BiFormer实战:使用BiFormer实现图像分类任务

BiFormer实战:使用BiFormer实现图像分类任务

2023-05-03

SeaFormer实战:使用SeaFormer实现图像分类任务

SeaFormer是一个轻量级的Transformers模型,最小的SeaFormer_T只有6M大小。设计了一种具有压缩轴向和细节增强的注意力模块,使其能够更好的在移动端应用。 通过这篇文章能让你学到: 如何使用数据增强,包括transforms的增强、CutOut、MixUp、CutMix等增强手段? 如何实现SeaFormer模型实现训练? 如何使用pytorch自带混合精度? 如何使用梯度裁剪防止梯度爆炸? 如何使用DP多显卡训练? 如何绘制loss和acc曲线? 如何生成val的测评报告? 如何编写测试脚本测试测试集? 如何使用余弦退火策略调整学习率? 如何使用AverageMeter类统计ACC和loss等自定义变量? 如何理解和统计ACC1和ACC5? 如何使用EMA? 如果使用Grad-CAM 实现热力图可视化? 原文链接:https://blog.csdn.net/m0_47867638/article/details/130440291?spm=1001.2014.3001.5501

2023-04-29

InternImageNet实战:使用InternImageNet实现图像分类任务

InternImageNet实战:使用InternImageNet实现图像分类任务

2023-04-03

FasterNet实战:使用FasterNet实现图像分类任务

FasterNet全新的神经网络家族,在多个处理平台上运行速度更快,精度更高,优于MobileVit等网络,基于新提出新的Partial卷积(PConv),大型网络FasterNet-L达到了83.5%的top-1精度,与Swin-B相当,同时在GPU上具有更高推断吞吐量,以及在CPU上节省42%的计算时间。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/129723967

2023-03-24

转market1501数据集代码

转market1501数据集代码

2023-03-15

ConvNeXt V2实战:使用ConvNeXt V2实现图像分类任务(一)

这篇文章主要讲解如何使用ConvNeXt V2完成图像分类任务,接下来我们一起完成项目的实战。本例选用的模型是convnextv2_base,在植物幼苗数据集上实现了96%的准确率。

2023-03-02

PoolFormer实战:使用PoolFormer实现图像分类任务.zip

MetaFormer是颜水成大佬的一篇Transformer的论文,该篇论文的贡献主要有两点:第一、将Transformer抽象为一个通用架构的MetaFormer,并通过经验证明MetaFormer架构在Transformer/ mlp类模型取得了极大的成功。 第二、通过仅采用简单的非参数算子pooling作为MetaFormer的极弱token混合器,构建了一个名为PoolFormer。 文章链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/128494941

2023-01-01

DeiT外部蒸馏实现.zip

DeiT外部蒸馏实现。按照论文做的,Teacher使用regnetx_160,Student使用deit_tiny_distilled_patch16_224,经过蒸馏ACC提高了1%左右

2022-12-20

DEiT实战:使用DEiT实现图像分类任务.zip

DEiT是FaceBook在2020年提出的一篇Transformer模型。该模型解决了Transformer难以训练的问题,三天内使用4块GPU,完成了ImageNet的训练,并且没有使用外部数据,达到了SOTA水平。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/128332992?spm=1001.2014.3001.5501

2022-12-15

MobileOne实战:使用MobileOne实现图像分类任务.zip

随着YoloV6和YoloV7的使用,这种方式越来越流行,MobileOne,也是这种方式。MobileOne(≈MobileNetV1+RepVGG+训练Trick)是由Apple公司提出的一种基于iPhone12优化的超轻量型架构,在ImageNet数据集上以<1ms的速度取得了75.9%的Top1精度。 文章链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/128106644

2022-11-30

RepGhost-Demo.zip

特征重用一直是轻量级卷积神经网络设计的关键技术。RepGhostNet在移动设备上比GhostNet和MobileNetV3更有效。在ImageNet数据集上,RepGhostNet和GhostNet 0.5X在相同的延时下,参数更少,成绩更高,Top-1精度相比GhostNet 0.5X模型 提高了2.5%。 详见文章: https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/128100230?spm=1001.2014.3001.5501

2022-11-29

G-Ghost-RegNet实战.zip

作者等人利用观察到的阶段性特征冗余,设计G-Ghost模块并应用于GPU等设备,实现了一个在GPU上具有SOTA性能的轻量级CNN。G-Ghost中g_ghost_regnetx_160模型在ImageNet上取的了79.9%的成绩。 我这篇文章主要讲解如何使用G-Ghost完成图像分类任务,接下来我们一起完成项目的实战。经过测试,G-Ghost在植物幼苗数据集上实现了97+%的准确率。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/128086517

2022-11-29

Ghost-Demo.zip

GhostNet实战:使用GhostNet实现图像分类任务用到的数据集和python文件。 文章链接: https://wanghao.blog.csdn.net/article/details/127993081

2022-11-24

知识蒸馏NST算法实战:使用CoatNet蒸馏ResNet18.zip

NST蒸馏是对模型里面的的Block最后一层Feature做蒸馏,所以需要最后一层block的值。所以我们对模型要做修改来适应NST算法,并且为了使Teacher和Student的网络层之间的参数一致,我们这次选用CoatNet作为Teacher模型,选择ResNet18作为Student。 https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/127975441?spm=1001.2014.3001.5501

2022-11-22

知识蒸馏IRG算法实战:使用ResNet50蒸馏ResNet18.zip

知识蒸馏IRG算法实战:使用ResNet50蒸馏ResNet18 的源代码。详细看文章:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/127912648?spm=1001.2014.3001.5501

2022-11-20

RKD知识蒸馏实战:使用CoatNet蒸馏ResNet.zip

RKD实现对模型的蒸馏。与上一篇(https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/127787791?spm=1001.2014.3001.5501)蒸馏的方法有所不同,RKD是对展平层的特征做蒸馏,蒸馏的loss分为二阶的距离损失Distance-wise Loss和三阶的角度损失Angle-wise Loss。 链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/127874090

2022-11-16

美俄飞机标注第二版03.zip

美俄飞机标注第二版03.zip

2022-11-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除