自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AI浩

分享人工智能知识,包括:计算机视觉、NLP以及机器学习等领域。注重基础与实践,尽最大的努力让每个初学者看懂学会。

  • 博客(1233)
  • 资源 (166)
  • 收藏
  • 关注

原创 基于python opencv 多进程处理图像

该函数将作为多进程池中的工作单元。# 读取图像# 转换为灰度图像# 可以在这里添加更多的图像处理步骤。

2024-07-26 19:00:00 140

原创 python重命名图片

函数接受一个图片路径作为参数,并使用当前时间的时间戳来重命名该文件。变量的值为你想要重命名的图片的实际路径。此外,该脚本假定你具有对指定目录的写权限。,这样可以保证文件名的唯一性(在大多数情况下)。批量将一个文件夹下面的文件重命名。

2024-07-26 19:00:00 191

原创 MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection

近年来,随着基础模型的发展,红外小目标检测(ISTD)取得了显著进展。具体来说,将卷积神经网络(CNNs)与转换器(transformers)相结合的模型能够成功地提取局部和全局特征。然而,转换器的缺点也被继承了下来,即序列长度的二次计算复杂度。受最近具有线性复杂度的远距离建模基础模型Mamba的启发,本文探讨了该状态空间模型在ISTD任务中的有效性和效率方面的潜力。然而,由于缺乏对检测小目标至关重要的局部特征的充分利用,直接应用Mamba模型只能达到次优性能。

2024-07-26 06:16:00 229

原创 学习在测试时学习(Learning at Test Time): 具有表达性隐藏状态的循环神经网络(RNNs)

https://arxiv.org/pdf/2407.04620自注意力机制在长文本语境中表现良好,但其复杂度为二次方。现有的循环神经网络(RNN)层具有线性复杂度,但其在长文本语境中的性能受到隐藏状态表达能力的限制。我们提出了一种新的序列建模层类,该类具有线性复杂度和高表达能力的隐藏状态。核心思想是将隐藏状态本身视为一个机器学习模型,而其更新规则则是自监督学习的一个步骤。由于隐藏状态甚至在测试序列上通过训练进行更新,因此我们的层被称为测试时训练(Test-Time Training,TTT)层。我们考虑

2024-07-23 20:00:00 878

原创 ReLU-KAN:仅需要矩阵加法、点乘和ReLU*的新型Kolmogorov-Arnold网络

摘要由于基函数(B样条)计算的复杂性,Kolmogorov-Arnold网络(KAN)在GPU上的并行计算能力受到限制。本文提出了一种新的ReLU-KAN实现方法,该方法继承了KAN的核心思想。通过采用ReLU(修正线性单元)和逐点乘法,我们简化了KAN基函数的设计,并优化了计算过程以实现高效的CUDA计算。所提出的ReLU-KAN架构可以轻松地部署在现有的深度学习框架(如PyTorch)中,用于推理和训练。实验结果表明,与具有4层网络的传统KAN相比,ReLU-KAN实现了20倍的速度提升。此外,ReL

2024-07-21 16:25:42 305

原创 EfficientMod实战:使用EfficientMod实现图像分类任务(二)

训练部分。

2024-07-20 17:47:03 878

原创 Mamba中的Mamba:在标记化Mamba模型中的集中式Mamba跨扫描高光谱图像分类

高光谱图像(HSI)分类在遥感(RS)领域至关重要,尤其是随着深度学习技术的不断进步。顺序模型,如循环神经网络(RNNs)和Transformer,已被定制用于此任务,并提供了独特的视角。然而,它们面临几个挑战:1)RNNs在聚合中心特征方面存在困难,并且对干扰像素敏感;2)Transformer需要广泛的计算资源,并且在HSI训练样本有限时往往表现不佳。为了解决这些问题,最近的进展引入了状态空间模型(SSM)和Mamba,它们在线性序列处理中以其轻量级和并行扫描能力而闻名,从而在RNNs和Transfor

2024-07-20 16:51:44 1155

原创 EfficientMod实战:使用EfficientMod实现图像分类任务(一)

EMA是一种加权移动平均技术,其中每个新的平均值都是前一个平均值和当前值的加权和。在深度学习中,EMA被用于模型参数的更新,以减缓参数在训练过程中的快速波动,从而得到更加平滑和稳定的模型表现。

2024-07-18 19:21:40 771

原创 视觉网络的有效调制

https://arxiv.org/pdf/2403.19963摘要在这项工作中,我们提出了高效调制(EfficientMod),这是一种用于高效视觉网络的新型设计。我们重新审视了调制机制,该机制通过卷积上下文建模和特征投影层处理输入,并通过逐元素乘法和多层感知机(MLP)块融合特征。我们证明了调制机制特别适用于高效网络,并通过提出高效调制(EfficientMod)块来进一步定制调制设计,该块被视为我们网络的基本构建块。得益于调制机制的卓越表示能力和所提出的高效设计,我们的网络能够在准确性和效率之间实现更

2024-07-16 22:00:00 977

原创 python 循环优化

上面的循环是最长见的,但是计算速度比较慢。那么如何优化呢?要优化这段代码以提高执行速度,主要思路是减少循环的次数和避免在循环内部进行不必要的操作。在你的代码中,你正在遍历一个二维数组(可能是图像或矩阵的密度预测),并统计那些值大于或等于0.1的元素,同时记录这些元素的坐标。

2024-07-16 22:00:00 539

原创 RDNet实战:使用RDNet实现图像分类任务(二)

训练部分。

2024-07-13 08:30:32 1118

原创 PDF公式转Latex

PDF文档中包含大量知识信息,然而提取高质量的PDF内容并非易事。布局检测:使用LayoutLMv3模型进行区域检测,如图像表格标题文本等;公式检测:使用YOLOv8进行公式检测,包含行内公式和行间公式;公式识别:使用UniMERNet进行公式识别;光学字符识别:使用PaddleOCR进行文本识别;由于文档类型的多样性,现有开源的布局检测和公式检测很难处理多样性的PDF文档,为此我们内容采集多样性数据进行标注和训练,使得在各类文档上取得精准的检测效果,细节参考布局检测和公式检测部分。

2024-07-13 06:58:38 1501 1

原创 self.initialize_options() error: can‘t create or remove files in install directory

用管理员打开powershell窗口执行即可!命令安装的时候出现了这个问题。

2024-07-12 22:22:35 153

原创 从局部到全局:一种面向查询聚焦摘要的图RAG方法

使用大型语言模型(LLM)来“提取”源文本中表示的实体、关系和声明的描述,这本身已经是一种抽象摘要的形式,它依赖于LLM来创建可能由文本本身暗示但未明确表述的概念的独立且有意义的摘要(例如,隐含关系的存在)。为了将所有这样的实例级摘要转换为每个图元素(即实体节点、关系边和声明协变量)的描述性文本块,需要对匹配的实例组进行另一轮LLM摘要。此阶段的一个潜在问题是,LLM可能无法在同一文本格式中一致地提取对同一实体的引用,从而导致实体元素重复,进而在实体图中出现重复节点。

2024-07-10 19:47:37 919

原创 RDNet实战:使用RDNet实现图像分类任务(一)

论文提出的模型主要基于对传统DenseNet架构的改进和复兴,通过一系列创新设计,旨在提升模型性能并优化其计算效率,提出了RDNet模型。

2024-07-09 18:24:16 1035

原创 DenseNets再探索:超越ResNets和ViTs的范式转变

摘要:本文重新探讨了密集连接的卷积网络(DenseNets),并揭示了其在当前主流的ResNet风格架构之上的被低估的有效性。我们认为,DenseNets的潜力被忽视的原因在于未得到充分研究的训练方法以及传统设计元素未能完全展现其能力。我们的初步研究表明,通过拼接实现的密集连接非常强大,证明了DenseNets可以通过复兴来与现代架构竞争。我们系统地改进了次优组件——包括架构调整、块重新设计以及改进的训练策略,旨在拓宽DenseNets并提升内存效率,同时保持拼接的快捷连接。我们的模型采用简单的架构元素,

2024-07-02 20:11:26 428

原创 Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

我们介绍了Cambrian-1,这是一系列以视觉为中心的多模态大型语言模型(MLLMs)。尽管更强大的语言模型可以增强多模态能力,但视觉组件的设计选择往往没有得到充分的探索,并且与视觉表示学习研究脱节。这种差距阻碍了现实世界场景中准确的感官定位。我们的研究使用LLMs和视觉指令调优作为接口来评估各种视觉表示,基于超过20个视觉编码器的实验,为不同的模型和架构(基于自监督、强监督或两者的组合)提供了新的见解。

2024-07-01 19:38:01 1051

原创 timm中模型更换huggingface模型链接

由于国内不能链接huggingface,可以更换成其他的代理链接,在import的位置加入。

2024-06-30 15:10:47 235

原创 python Flask methods

在 Flask 中,装饰器用于定义 URL 路由和与之关联的视图函数。当你想指定某个 URL 可以接受哪些 HTTP 方法时,你可以使用methods参数。methods是一个列表,它可以包含任何有效的 HTTP 方法。Falsk文章中的描述:链接:https://flask.palletsprojects.com/en/3.0.x/patterns/methodoverrides/GETPOSTPUTDELETEHEADOPTIONSPATCHCONNECTTRACE。

2024-06-28 20:58:34 1006

原创 无需向量量化的自回归图像生成

传统观点认为,用于图像生成的自回归模型通常伴随着向量量化的标记。我们观察到,尽管离散值空间可以方便地表示分类分布,但它对于自回归建模来说并不是必需的。在这项工作中,我们提出使用扩散过程来建模每个标记的概率分布,这使得我们可以在连续值空间中应用自回归模型。我们定义了一个扩散损失函数来建模每个标记的概率,而不是使用分类交叉熵损失。这种方法消除了对离散值标记器的需求。我们在包括标准自回归模型和广义掩码自回归(MAR)变体在内的广泛案例中评估了其有效性。

2024-06-28 18:47:40 1665 1

原创 CUDA11.8安装pytorch1.13.0

记录一下,CUDA11.8是否可以安装pytorch1.13.0。本机环境是CUDA11.8,这个一个长期稳定环境。但是,有些库需要用低版本的pytorch,最高支持1.13.0。我直接安装pytorch1.13.0,可以安装,运行命令也没有问题!

2024-06-27 09:25:42 391

原创 conda环境在PowerShell不显示

powershell配置anaconda及解决【无法加载文件C:\Users\xxx\Documents\WindowsPowerShell\profile.ps1,因为在此系统上禁止运行脚本】的问题。

2024-06-26 15:50:21 256 1

原创 ModuleNotFoundError: No module named ‘bs4‘

【代码】ModuleNotFoundError: No module named ‘bs4‘

2024-06-25 17:58:16 143

原创 Transformers是SSMs:通过结构化状态空间对偶性的广义模型和高效算法(二)

文章目录6、针对SSD模型的硬件高效算法6.1、对角块6.2、低秩块6.3、计算成本7、Mamba-2 架构7.1、块设计7.2、序列变换的多头模式7.3、线性注意力驱动的SSD扩展8、系统优化对于SSMs8.1、张量并行8.2、序列并行性8.3、可变长度9、实证验证9.1、合成任务:联想记忆9.2、语言建模9.2.1、缩放定律9.2.3、混合模型:将SSD层与MLP和注意力层结合9.3、速度基准测试9.4、架构消融实验9.4.1、块设计9.4.3 注意力核近似10、相关工作和讨论10.1、状态空间模型10

2024-06-23 08:56:13 593

原创 Transformers是SSMs:通过结构化状态空间对偶性的广义模型和高效算法(一)

文章目录摘要1、引言2、背景与概述2.1、结构化状态空间模型2.2、注意力机制2.3、结构化矩阵2.4、概述:结构化状态空间对偶性2.5、符号3、状态空间模型是结构化矩阵3.1、状态空间模型的矩阵变换形式3.2、半可分离矩阵3.2.1、顺序半可分离(SSS)表示3.2.2、1-半可分矩阵:标量SSM递推3.3、状态空间模型是半可分矩阵3.4、通过结构化矩阵算法计算状态空间模型3.4.1、线性(递归)模式3.4.2、二次(朴素)模式3.4.3、总结4.1、注意力框架4.1.1、注意力4.1.2、自注意力4.1

2024-06-23 08:55:18 1164

原创 如何调用讯飞星火认知大模型的API以利用其卓越功能

讯飞星火认知大模型是由科大讯飞构建的一款先进的人工智能模型。这款模型在处理自然语言理解和生成方面具有卓越的能力,能够提供高效、精准的信息交流和数据分析服务。本文向大家讲解如何调用讯飞星火的API,首先介绍python的调用方式,这是一个普遍使用的方式,然后,再讲解如何使用其他的调用方式。该模型通过深度学习技术和大量数据训练,具备了强大的语言理解、文本生成和对话交互等功能。它能够根据用户的具体需求,提供个性化的信息服务,包括但不限于语音识别、文本分析、自动翻译以及智能问答等。

2024-06-20 22:04:01 1376

原创 pytorch基础——张量的创建与基本操作

在PyTorch中,所有的数据都是通过张量(Tensor)来表示的。张量是一个多维数组,可以包含标量、向量、矩阵等数据类型。

2024-06-19 21:00:00 236

原创 Vision Transformer with Sparse Scan Prior

https://arxiv.org/pdf/2405.13335v1In recent years, Transformers have achieved remarkable progress in computer vision tasks. However, their global modeling often comes with substantial computational overhead, in stark contrast to the human eye’s efficient

2024-06-18 19:10:04 721

原创 AI大佬都在说下一个爆点是智能体,建议开发者抢占先机!

现在AI时代的智能体跟互联网时代的网站类似,因为它背后的大模型能力越来越强,门槛足够低,就能基于它做出更多智能体,未来会有几百万,甚至更大量的智能体出现。最近有朋友在跟我说正在一些平台上学AI Agent课程,我还有点吃惊,这些课主要是教开发者学企业级Agent从设计、开发到部署的流程,促使他们充电的主要原因是看到现在很多企业都有Agent的开发需求,比如能做报告分析的工具类Agent、可以在金融场景对话的对话类Agent ,还有多模态类Agent 等等,学了对转行很有帮助。他提出了2点判断,一是。

2024-06-18 19:06:26 554 1

原创 StarNet实战:使用StarNet实现图像分类任务(二)

训练部分。

2024-06-16 09:52:22 1062

原创 StarNet实战:使用StarNet实现图像分类任务(一)

论文主要集中在介绍和分析一种新兴的学习范式——星操作(Star Operation),这是一种通过元素级乘法融合不同子空间特征的方法,通过元素级乘法(类似于“星”形符号的乘法操作)将不同子空间的特征进行融合,从而在多个研究领域中展现出出色的性能和效率。星操作在自然语言处理(NLP)和计算机视觉(CV)等多个领域中都得到了成功应用。例如,在自然语言处理中,Monarch Mixer、Mamba、Hyena Hierarchy和GLU等模型都采用了星操作;

2024-06-16 09:08:39 1245

原创 Vision-LSTM(ViL)实战:使用Vision-LSTM(ViL)实现图像分类任务(二)

训练部分。

2024-06-13 21:15:15 1468

原创 EVA-CLIP:在规模上改进CLIP的训练技术

对比性语言-图像预训练,简称CLIP,因其在各种场景中的潜力而备受关注。在本文中,我们提出了EVA-CLIP,一系列模型,这些模型显著提高了CLIP训练的效率和有效性。我们的方法结合了新的表示学习、优化和增强技术,使得EVA-CLIP在参数数量相同的情况下,与之前的CLIP模型相比,取得了更优的性能,但训练成本却显著降低。值得注意的是,我们最大的50亿参数的EVA-02-CLIP-E/14+模型,仅通过90亿个样本的训练,就在ImageNet-1K验证集上实现了**82.0%

2024-06-11 12:47:44 1034

原创 有没有硅基生命?AGI在哪里?

例如,如果一个经过训练的图像识别模型突然遇到一种它从未见过的物体,它可能无法正确识别或分类这个物体,因为它的权重值是基于训练数据中的模式优化的,而不是基于对未知事物的泛化能力。此外,数据的偏见也可能导致AI模型的偏见。同时,[硅基生命的诞生涉及到构建一种全新的生命形式,这需要解决一系列复杂的科学问题,如硅基生物分子的构建、生命活动的机制等,这些问题都超出了当前科学的认知范围]。这表明,至少在可预见的未来,人类仍然是AI发展不可或缺的一部分,我们的角色不仅仅是数据的提供者,更是AI智能的引导者和监督者。

2024-06-11 07:29:36 557

原创 Vision-LSTM(ViL)实战:使用Vision-LSTM(ViL)实现图像分类任务(一)

论文链接:https://arxiv.org/pdf/2406.04303Vision-LSTM(ViL)架构的核心是xLSTM块。每个xLSTM块都包含一个输入门、一个遗忘门、一个输出门和一个内部记忆单元。与传统的LSTM相比,xLSTM引入了指数门控机制,使得模型能够更好地处理长序列数据。同时,xLSTM采用可并行化的矩阵内存结构,提高了模型的计算效率。在ViL中,我们将多个xLSTM块堆叠在一起,形成一个深层的网络结构。

2024-06-10 21:10:12 563

原创 Vision-LSTM: xLSTM 作为通用视觉主干

尽管Transformer最初是为自然语言处理引入的,但它现在已经被广泛用作计算机视觉中的通用主干结构。最近,长短期记忆(LSTM)已被扩展为一种可扩展且性能优越的架构——xLSTM,它通过指数门控和可并行化的矩阵内存结构克服了LSTM长期以来存在的限制。在本报告中,我们介绍了Vision-LSTM(ViL),它是将xLSTM构建块应用于计算机视觉的一种适配。ViL由一系列xLSTM块组成,其中奇数块从上到下处理补丁标记的序列,而偶数块则从下到上处理。

2024-06-10 16:55:00 695

原创 MobileNetV4实战:使用 MobileNetV4实现图像分类任务(二)

训练部分。

2024-06-09 07:43:10 1017

原创 MASA:匹配一切、分割一切、跟踪一切

在复杂场景中跨视频帧稳健地关联相同对象是许多应用的关键,特别是多目标跟踪(MOT)。当前方法主要依赖于标注的特定领域视频数据集,这限制了学习到的相似度嵌入的跨域泛化能力。我们提出了MASA,一种新颖的方法用于稳健的实例关联学习,该方法能够在不同领域内的视频中匹配任何对象,而无需跟踪标签。MASA利用Segment Anything Model(SAM)丰富的对象分割结果,通过详尽的数据变换来学习实例级别的对应关系。我们将SAM的输出视为密集的对象区域提案,并从庞大的图像集合中学习匹配这些区域。

2024-06-08 11:23:56 1824

原创 MiniCPM:揭示端侧大语言模型的无限潜力

随着开发具有高达数万亿参数的大型语言模型(LLMs)的兴趣激增,关于资源效率和实际成本的担忧也随之而来,特别是考虑到实验的巨大成本。这一情形突显了探索小型语言模型(SLMs)作为资源高效替代方案的潜力。在此背景下,我们介绍了MiniCPM,特别是其1.2B和2.4B非嵌入参数变体,这些变体不仅在各自的类别中表现出色,而且在能力上与7B-13B的LLMs不相上下。尽管我们专注于SLMs,但我们的方法在模型和数据维度上都表现出可扩展性,为未来LLM的研究提供了可能。

2024-06-07 07:28:11 784

原创 FFA-Net:用于单图像去雾的特征融合注意力网络

论文链接:https://arxiv.org/pdf/1911.07559v2在这篇论文中,我们提出了一种端到端的特征融合注意力网络(FFA-Net)来直接恢复无雾图像。FFA-Net架构由三个关键组件组成:一种新颖的特征注意力(FA)模块结合了通道注意力与像素注意力机制,考虑到不同通道特征包含完全不同的加权信息,且雾在图像的不同像素上分布不均匀。FA模块对不同的特征和像素进行非等权重处理,这在处理不同类型的信息时提供了额外的灵活性,扩展了卷积神经网络(CNNs)的表示能力。

2024-06-05 22:00:00 1791

EfficientMod实战:使用EfficientMod实现图像分类任务

论文提出了一种名为“高效调制(EfficientMod)”的新型设计,旨在提升视觉网络在准确性和效率之间的权衡。作者重新审视了现有的调制机制,该机制通过卷积上下文建模和特征投影层处理输入,并通过逐元素乘法和多层感知机(MLP)块融合特征。为了进一步提升效率,作者设计了EfficientMod块,作为他们网络的基本构建块。 EfficientMod的优势在于其能够利用调制机制的卓越表示能力,同时通过简化设计来减少计算冗余和延迟。与传统的自注意力机制相比,EfficientMod的计算复杂度与图像大小呈线性关系,而不是与标记数量呈立方关系,这使得它在处理大规模图像时更加高效。此外,与现有的高效卷积网络如FocalNet和VAN相比,EfficientMod块更为简单,但保留了它们的主要优点,如使用大核卷积块进行上下文建模和通过调制来增强特征表示。 https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/140520113

2024-07-20

RDNet实战:使用RDNet实现图像分类任务

论文提出的模型主要基于对传统DenseNet架构的改进和复兴,通过一系列创新设计,旨在提升模型性能并优化其计算效率,提出了RDNet模型。该模型的主要特点和改进点: ### 1. 强调并优化连接操作(Concatenation) 论文首先强调了DenseNet中连接操作(Concatenation)的重要性,并通过广泛的实验验证了连接操作在性能上能够超越传统的加法快捷连接(Additive Shortcut)。这一发现促使研究者们重新审视并优化DenseNet的连接机制。

2024-07-09

YoloV8改进策略-注意力篇-Block改进-附结构图-自研基于xLSTM的注意力

本文使用Vision-LSTM的xLSTM改进YoloV8的Bottleneck结构,增加自研的注意力机制,取得了不错的得分。如果大家想发顶会,或者比较好的期刊,可以优先考虑! 包含完整代码和PDF文章

2024-07-01

YoloV8摔倒检测完整代码

YoloV8摔倒检测完整代码,包含代码和数据集!打开就可以使用! 搜集了多个数据集。

2024-06-24

StarNet实战:使用StarNet实现图像分类任务

论文主要集中在介绍和分析一种新兴的学习范式——星操作(Star Operation),这是一种通过元素级乘法融合不同子空间特征的方法,通过元素级乘法(类似于“星”形符号的乘法操作)将不同子空间的特征进行融合,从而在多个研究领域中展现出出色的性能和效率。 星操作在自然语言处理(NLP)和计算机视觉(CV)等多个领域中都得到了成功应用。例如,在自然语言处理中,Monarch Mixer、Mamba、Hyena Hierarchy和GLU等模型都采用了星操作;在计算机视觉中,FocalNet、HorNet和VAN等模型也利用了星操作进行特征融合。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139712515

2024-06-17

Vision-LSTM(ViL)实战:使用Vision-LSTM(ViL)实现图像分类任务

Vision-LSTM(ViL)架构的核心是xLSTM块。每个xLSTM块都包含一个输入门、一个遗忘门、一个输出门和一个内部记忆单元。与传统的LSTM相比,xLSTM引入了指数门控机制,使得模型能够更好地处理长序列数据。同时,xLSTM采用可并行化的矩阵内存结构,提高了模型的计算效率。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139582259

2024-06-11

MobileNetV4实战:使用MobileNetV4实现图像分类任务

MobileNetV4,作为新一代移动设备神经网络架构,凭借其创新的通用倒置瓶颈UIB块和Mobile MQA注意力块,实现了计算效率和运行速度的显著提升。该架构通过精炼的神经架构搜索NAS方法,创建了多个卓越性能的移动设备模型。新型知识蒸馏技术进一步提高了模型准确性,而Mobile MQA块相较于传统多头注意力,在移动加速器上实现了显著的推理加速。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139452661

2024-06-09

EfficientVMamba实战:使用 EfficientVMamba实现图像分类任务

作者研究了轻量级模型设计的新方法,通过引入视觉状态空间模型(SSM)以提高效率和性能。提出了一种名为EcientVMamba的高效模型变体,结合选择性扫描和有效跳跃采样,同时利用全局和局部表示特征。EcientVMamba在多种视觉任务中取得了具有竞争力的结果,并降低了计算复杂度。文章还探讨了SSMs在视觉任务中的应用,并指出现有轻量级模型在保持全局表示能力方面的挑战。 本文使用EcientVMamba模型实现图像分类任务,模型选择最小的EcientVMamba_T,在植物幼苗分类任务ACC达到了93%+,达到了ViM的水平。。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/137253836

2024-04-02

TransNext-Demo.zip

TransNext-Demo.zip

2024-03-16

Hiera-MAE-Demo.zip

https://wanghao.blog.csdn.net/article/details/136443023?spm=1001.2014.3001.5502

2024-03-05

YoloV8改进策略:CoordConv给卷积加上坐标,从而使其具备了空间感知能力.zip

YoloV8改进策略:CoordConv给卷积加上坐标,从而使其具备了空间感知能力.zip

2024-02-21

MogaNet实战:使用MogaNet实现图像分类任务

作者多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。提出了一种新的纯卷积神经网络架构族,称为MogaNet。MogaNet具有出色的可扩展性,在ImageNet和其他多种典型视觉基准测试中,与最先进的模型相比,其参数使用更高效,且具有竞争力的性能。具体来说,MogaNet在ImageNet上实现了80.0%和87.8%的Top-1准确率,分别使用了5.2M和181M参数,优于ParC-Net-S和ConvNeXt-L,同时节省了59%的浮点运算和17M的参数。源代码可在GitHub上(https://github.com/Westlake-AI/MogaNet)获取。 文章链接:https://wanghao.blog.csdn.net/article/details/136102061?spm=1001.2014.3001.5502

2024-02-12

YoloV8改进-三元注意力,小参数大能力,即插即用,涨点自如

注意力机制在计算机视觉领域得到了广泛的研究和应用,利用构建通道或空间位置之间的依赖关系的能力,有效地应用于各种计算机视觉任务。本文研究了轻量级但有效的注意力机制,并提出了一种新的计算注意力权重的方法——三元组注意力,通过一个三分支结构捕捉跨维度交互。对于输入张量,三元组注意力通过旋转操作和残差变换建立跨维度的依赖关系,并以极小的计算开销编码了跨通道和空间信息。这种方法既简单又高效,可以轻松地插入经典的主干网络中作为附加模块。在各种具有挑战性的任务中,如ImageNet-1k图像分类和MSCOCO和PASCAL VOC数据集上的目标检测,证明了该方法的有效性。此外,通过可视化检查GradCAM和GradCAM++结果,提供了对三元组注意力性能的深入见解。本文方法的实证评估支持了在计算注意力权重时捕捉跨维度依赖关系的重要性的直觉。

2024-02-05

Vim实战:使用Vim实现图像分类任务

Vim作为一种高效的视觉模型,具有计算和内存效率高、处理高分辨率图像能力强等优点。这使得Vim成为下一代视觉基础模型的理想选择。 本文使用Vim模型实现图像分类任务,模型选择最小的vim_tiny_patch16_224_bimambav2_final_pool_mean_abs_pos_embed_rope_also_residual_with_cls_token(这个方法的名字比较长。。。。。),在植物幼苗分类任务ACC达到了93%+。 文章链接: https://wanghao.blog.csdn.net/article/details/135921108?spm=1001.2014.3001.5502

2024-01-30

FlashInternImage实战:使用FlashInternImage实现图像分类任务

将DCNv3替换为DCNv4创建的FlashInternImage模型可实现高达80%的速度提升和进一步性能改进,无需其他修改。DCNv4在速度和效率上的优势,结合其在各种视觉任务中的稳健性能,使其成为未来视觉模型的潜在基础构建块。 文章链接: https://wanghao.blog.csdn.net/article/details/135873073?spm=1001.2014.3001.5502

2024-01-27

UniRepLKNet实战:使用UniRepLKNet实现图像分类任务

大核卷积神经网络(ConvNets)近年来受到广泛关注,但仍存在两个关键问题需要进一步研究。首先,目前的大型卷积神经网络架构大多遵循传统卷积神经网络或Transformer的设计原则,而大核ConvNets的架构设计仍未得到充分解决。其次,尽管Transformer已在多种模态中占据主导地位,但仍需研究卷积神经网络是否也具备超越视觉领域的强大通用感知能力。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/135512795

2024-01-13

TransXNet实战:使用TransXNet实现图像分类任务

在ImageNet-1K图像分类任务中,TransXNet-T相比Swin-T在top-1准确率上提高了0.3%,同时计算成本更低。此外,TransXNet-S和TransXNet-B展示了出色的模型扩展性,分别实现了83.8%和84.6%的top-1准确率,且计算成本合理。此外,我们的网络架构在各种密集预测任务中展现出了强大的泛化能力,优于其他先进的网络结构,且计算成本更低。总之,D-Mixer和TransXNet作为一种高效且具有强大泛化能力的网络结构,为计算机视觉领域提供了新的解决方案。 这篇文章使用TransXNet完成植物分类任务,模型采用transxnet_t向大家展示如何使用TransXNet。transxnet_t在这个数据集上实现了96+%的ACC

2023-12-19

Hiera实战:使用Hiera实现图像分类任务

现代层次视觉变换器在追求监督分类表现时增加了几个特定于视觉的组件。 这些组件虽然带来了有效的准确性和吸引人的FLOP计数,但增加的复杂性实际上使这些变换器比普通ViT更快。作者认为这种额外的体积是不必要的。 通过使用强大的视觉预训练任务(MAE)进行预训练,可以从最先进的多阶段视觉变换器中去除所有花里胡哨的东西,同时不会丢失准确性。 在此过程中,作者创建了Hiera,这是一种极其简单的层次视觉变换器,它比以前的模型更准确,同时在推理和训练过程中都明显更快。 在各种任务上评估了Hiera对于图像和视频识别的表现。 代码和模型可以在https://github.com/facebookresearch/hiera上获得。 这篇文章使用Hiera完成植物分类任务,模型采用hiera_tiny_224向大家展示如何使用Hiera。 原文链接:https://wanghao.blog.csdn.net/article/details/134642935

2023-12-07

RevCol实战:使用RevCol实现图像分类任务

可逆柱状结构(RevCol)是一种网络结构,它受到GLOM(Global Columnar Memory)的启发。RevCol由N个子网络(或称为列)组成,每个子网络的结构和功能都是相同的。这种结构可以有效地解决信息崩溃的问题,通过在前面的列中添加额外的监督,以保持特征和输入图像之间的互信息。此外,RevCol可以逐渐解耦语义和低级信息,从而提取和利用任务相关信息来进一步提高性能。在实现上,对于中间监督,采用了加权求和的方式将两个损失合并,对于所有变体的RevCol,通过实验确定将监督头添加到特定的列中。 这篇文章使用RevCol完成植物分类任务,模型采用revcol_tiny向大家展示如何使用RevCol。revcol_tiny在这个数据集上实现了96+%的ACC,

2023-11-25

Sgformer实战:使用Sgformer实现图像分类任务

Sgformer实战:使用Sgformer实现图像分类任务

2023-09-11

nougat的权重文件

nougat权重文件

2023-09-05

定时任务库的详解与魅力应用:探索schedule的无尽可能性.pdf

定时任务库的详解与魅力应用:探索schedule的无尽可能性

2023-08-30

FastVIT实战:使用FastVIT实现图像分类

第一步 执行makedata.py 创建训练集和验证集 第二步 执行train.py训练 第三步 执行export_model.py 导出模型 第四步 执行test.py 测试 非常简单,适合初学者

2023-08-21

DERT:论文详细翻译

DERT:论文详细翻译

2023-08-15

VGGNet剪枝实战:使用VGGNet训练、稀疏训练、剪枝、微调等,剪枝出只有3M的模型

在BN层网络中加入稀疏因子,训练使得BN层稀疏化,对稀疏训练的后的模型中所有BN层权重进行统计排序,获取指定保留BN层数量即取得排序后权重阈值thres。遍历模型中的BN层权重,制作各层mask(权重>thres值为1,权重<thres值为0)。剪枝操作,根据各层的mask构建新模型结构(各层保留的通道数),获取BN层权重mask非零值的索引,非零索引对应的原始conv层、BN层、linear层各通道的权重、偏置等值赋值给新模型各层。加载剪枝后模型,进行fine-tune。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/132054977

2023-08-07

EMO实战:使用EMO实现图像分类任务

EMO实战:使用EMO实现图像分类任务

2023-07-31

MobileViG-基于图的稀疏注意移动视觉应用.pdf

论文翻译

2023-07-25

MobileViG实战:使用MobileViG实现图像分类任务

MobileViG实战:使用MobileViG实现图像分类任务

2023-07-17

FasterViT实战:使用FasterViT实现图像分类任务

FasterViT实战:使用FasterViT实现图像分类任务

2023-07-10

pytorch-CNN网络汇总.zip

pytorch_CNN网络汇总

2023-07-04

InceptionNext实战:使用InceptionNext实现图像分类任务

论文翻译:https://wanghao.blog.csdn.net/article/details/131347001?spm=1001.2014.3001.5502 官方源码:https://github.com/sail-sg/inceptionnext 这是一篇来自颜水成团队的论文。作者提出InceptionNext,将大核深度卷积分解为沿通道维度的四个平行分支,即小方形核、两个正交带核和一个单位映射。通过这种新的Inception深度卷积,构建了一系列网络,不仅享有高吞吐量,而且保持有竞争力的性能。例如,InceptionNeXt-T实现了比convnext - t高1.6倍的训练吞吐量,并在ImageNet- 1K上实现了0.2%的top-1精度提高。 https://wanghao.blog.csdn.net/article/details/131387184?spm=1001.2014.3001.5502

2023-06-26

CloFormer实战:使用CloFormer实现图像分类任务

CloFormer实战:使用CloFormer实现图像分类任务

2023-06-13

VanillaNet实战:使用VanillaNet实现图像分类

VanillaNet实战:使用VanillaNet实现图像分类 论文翻译:https://blog.csdn.net/m0_47867638/article/details/131057152 官方源码:https://github.com/huawei-noah/VanillaNet VanillaNet是华为在2023年发布的一种极简风格的CNN网络,采用了最普通的CNN网络,却达到了很好的效果。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/68817ad3e0f544b59d6b517834dcb672.png) 这篇文章使用VanillaNet完成植物分类任务,模型采用VanillaNet10向大家展示如何使用VanillaNet。由于没有预训练模型,VanillaNet10在这个数据集上实现了87%的ACC。 https://blog.csdn.net/m0_47867638/article/details/131216849?spm=1001.2014.3001.5502

2023-06-13

BiFormer实战:使用BiFormer实现图像分类任务

BiFormer实战:使用BiFormer实现图像分类任务

2023-05-03

SeaFormer实战:使用SeaFormer实现图像分类任务

SeaFormer是一个轻量级的Transformers模型,最小的SeaFormer_T只有6M大小。设计了一种具有压缩轴向和细节增强的注意力模块,使其能够更好的在移动端应用。 通过这篇文章能让你学到: 如何使用数据增强,包括transforms的增强、CutOut、MixUp、CutMix等增强手段? 如何实现SeaFormer模型实现训练? 如何使用pytorch自带混合精度? 如何使用梯度裁剪防止梯度爆炸? 如何使用DP多显卡训练? 如何绘制loss和acc曲线? 如何生成val的测评报告? 如何编写测试脚本测试测试集? 如何使用余弦退火策略调整学习率? 如何使用AverageMeter类统计ACC和loss等自定义变量? 如何理解和统计ACC1和ACC5? 如何使用EMA? 如果使用Grad-CAM 实现热力图可视化? 原文链接:https://blog.csdn.net/m0_47867638/article/details/130440291?spm=1001.2014.3001.5501

2023-04-29

InternImageNet实战:使用InternImageNet实现图像分类任务

InternImageNet实战:使用InternImageNet实现图像分类任务

2023-04-03

FasterNet实战:使用FasterNet实现图像分类任务

FasterNet全新的神经网络家族,在多个处理平台上运行速度更快,精度更高,优于MobileVit等网络,基于新提出新的Partial卷积(PConv),大型网络FasterNet-L达到了83.5%的top-1精度,与Swin-B相当,同时在GPU上具有更高推断吞吐量,以及在CPU上节省42%的计算时间。 原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/129723967

2023-03-24

转market1501数据集代码

转market1501数据集代码

2023-03-15

ConvNeXt V2实战:使用ConvNeXt V2实现图像分类任务(一)

这篇文章主要讲解如何使用ConvNeXt V2完成图像分类任务,接下来我们一起完成项目的实战。本例选用的模型是convnextv2_base,在植物幼苗数据集上实现了96%的准确率。

2023-03-02

PoolFormer实战:使用PoolFormer实现图像分类任务.zip

MetaFormer是颜水成大佬的一篇Transformer的论文,该篇论文的贡献主要有两点:第一、将Transformer抽象为一个通用架构的MetaFormer,并通过经验证明MetaFormer架构在Transformer/ mlp类模型取得了极大的成功。 第二、通过仅采用简单的非参数算子pooling作为MetaFormer的极弱token混合器,构建了一个名为PoolFormer。 文章链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/128494941

2023-01-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除