- 博客(1233)
- 资源 (166)
- 收藏
- 关注
原创 基于python opencv 多进程处理图像
该函数将作为多进程池中的工作单元。# 读取图像# 转换为灰度图像# 可以在这里添加更多的图像处理步骤。
2024-07-26 19:00:00
140
原创 python重命名图片
函数接受一个图片路径作为参数,并使用当前时间的时间戳来重命名该文件。变量的值为你想要重命名的图片的实际路径。此外,该脚本假定你具有对指定目录的写权限。,这样可以保证文件名的唯一性(在大多数情况下)。批量将一个文件夹下面的文件重命名。
2024-07-26 19:00:00
191
原创 MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection
近年来,随着基础模型的发展,红外小目标检测(ISTD)取得了显著进展。具体来说,将卷积神经网络(CNNs)与转换器(transformers)相结合的模型能够成功地提取局部和全局特征。然而,转换器的缺点也被继承了下来,即序列长度的二次计算复杂度。受最近具有线性复杂度的远距离建模基础模型Mamba的启发,本文探讨了该状态空间模型在ISTD任务中的有效性和效率方面的潜力。然而,由于缺乏对检测小目标至关重要的局部特征的充分利用,直接应用Mamba模型只能达到次优性能。
2024-07-26 06:16:00
229
原创 学习在测试时学习(Learning at Test Time): 具有表达性隐藏状态的循环神经网络(RNNs)
https://arxiv.org/pdf/2407.04620自注意力机制在长文本语境中表现良好,但其复杂度为二次方。现有的循环神经网络(RNN)层具有线性复杂度,但其在长文本语境中的性能受到隐藏状态表达能力的限制。我们提出了一种新的序列建模层类,该类具有线性复杂度和高表达能力的隐藏状态。核心思想是将隐藏状态本身视为一个机器学习模型,而其更新规则则是自监督学习的一个步骤。由于隐藏状态甚至在测试序列上通过训练进行更新,因此我们的层被称为测试时训练(Test-Time Training,TTT)层。我们考虑
2024-07-23 20:00:00
878
原创 ReLU-KAN:仅需要矩阵加法、点乘和ReLU*的新型Kolmogorov-Arnold网络
摘要由于基函数(B样条)计算的复杂性,Kolmogorov-Arnold网络(KAN)在GPU上的并行计算能力受到限制。本文提出了一种新的ReLU-KAN实现方法,该方法继承了KAN的核心思想。通过采用ReLU(修正线性单元)和逐点乘法,我们简化了KAN基函数的设计,并优化了计算过程以实现高效的CUDA计算。所提出的ReLU-KAN架构可以轻松地部署在现有的深度学习框架(如PyTorch)中,用于推理和训练。实验结果表明,与具有4层网络的传统KAN相比,ReLU-KAN实现了20倍的速度提升。此外,ReL
2024-07-21 16:25:42
305
原创 Mamba中的Mamba:在标记化Mamba模型中的集中式Mamba跨扫描高光谱图像分类
高光谱图像(HSI)分类在遥感(RS)领域至关重要,尤其是随着深度学习技术的不断进步。顺序模型,如循环神经网络(RNNs)和Transformer,已被定制用于此任务,并提供了独特的视角。然而,它们面临几个挑战:1)RNNs在聚合中心特征方面存在困难,并且对干扰像素敏感;2)Transformer需要广泛的计算资源,并且在HSI训练样本有限时往往表现不佳。为了解决这些问题,最近的进展引入了状态空间模型(SSM)和Mamba,它们在线性序列处理中以其轻量级和并行扫描能力而闻名,从而在RNNs和Transfor
2024-07-20 16:51:44
1155
原创 EfficientMod实战:使用EfficientMod实现图像分类任务(一)
EMA是一种加权移动平均技术,其中每个新的平均值都是前一个平均值和当前值的加权和。在深度学习中,EMA被用于模型参数的更新,以减缓参数在训练过程中的快速波动,从而得到更加平滑和稳定的模型表现。
2024-07-18 19:21:40
771
原创 视觉网络的有效调制
https://arxiv.org/pdf/2403.19963摘要在这项工作中,我们提出了高效调制(EfficientMod),这是一种用于高效视觉网络的新型设计。我们重新审视了调制机制,该机制通过卷积上下文建模和特征投影层处理输入,并通过逐元素乘法和多层感知机(MLP)块融合特征。我们证明了调制机制特别适用于高效网络,并通过提出高效调制(EfficientMod)块来进一步定制调制设计,该块被视为我们网络的基本构建块。得益于调制机制的卓越表示能力和所提出的高效设计,我们的网络能够在准确性和效率之间实现更
2024-07-16 22:00:00
977
原创 python 循环优化
上面的循环是最长见的,但是计算速度比较慢。那么如何优化呢?要优化这段代码以提高执行速度,主要思路是减少循环的次数和避免在循环内部进行不必要的操作。在你的代码中,你正在遍历一个二维数组(可能是图像或矩阵的密度预测),并统计那些值大于或等于0.1的元素,同时记录这些元素的坐标。
2024-07-16 22:00:00
539
原创 PDF公式转Latex
PDF文档中包含大量知识信息,然而提取高质量的PDF内容并非易事。布局检测:使用LayoutLMv3模型进行区域检测,如图像表格标题文本等;公式检测:使用YOLOv8进行公式检测,包含行内公式和行间公式;公式识别:使用UniMERNet进行公式识别;光学字符识别:使用PaddleOCR进行文本识别;由于文档类型的多样性,现有开源的布局检测和公式检测很难处理多样性的PDF文档,为此我们内容采集多样性数据进行标注和训练,使得在各类文档上取得精准的检测效果,细节参考布局检测和公式检测部分。
2024-07-13 06:58:38
1501
1
原创 self.initialize_options() error: can‘t create or remove files in install directory
用管理员打开powershell窗口执行即可!命令安装的时候出现了这个问题。
2024-07-12 22:22:35
153
原创 从局部到全局:一种面向查询聚焦摘要的图RAG方法
使用大型语言模型(LLM)来“提取”源文本中表示的实体、关系和声明的描述,这本身已经是一种抽象摘要的形式,它依赖于LLM来创建可能由文本本身暗示但未明确表述的概念的独立且有意义的摘要(例如,隐含关系的存在)。为了将所有这样的实例级摘要转换为每个图元素(即实体节点、关系边和声明协变量)的描述性文本块,需要对匹配的实例组进行另一轮LLM摘要。此阶段的一个潜在问题是,LLM可能无法在同一文本格式中一致地提取对同一实体的引用,从而导致实体元素重复,进而在实体图中出现重复节点。
2024-07-10 19:47:37
919
原创 RDNet实战:使用RDNet实现图像分类任务(一)
论文提出的模型主要基于对传统DenseNet架构的改进和复兴,通过一系列创新设计,旨在提升模型性能并优化其计算效率,提出了RDNet模型。
2024-07-09 18:24:16
1035
原创 DenseNets再探索:超越ResNets和ViTs的范式转变
摘要:本文重新探讨了密集连接的卷积网络(DenseNets),并揭示了其在当前主流的ResNet风格架构之上的被低估的有效性。我们认为,DenseNets的潜力被忽视的原因在于未得到充分研究的训练方法以及传统设计元素未能完全展现其能力。我们的初步研究表明,通过拼接实现的密集连接非常强大,证明了DenseNets可以通过复兴来与现代架构竞争。我们系统地改进了次优组件——包括架构调整、块重新设计以及改进的训练策略,旨在拓宽DenseNets并提升内存效率,同时保持拼接的快捷连接。我们的模型采用简单的架构元素,
2024-07-02 20:11:26
428
原创 Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
我们介绍了Cambrian-1,这是一系列以视觉为中心的多模态大型语言模型(MLLMs)。尽管更强大的语言模型可以增强多模态能力,但视觉组件的设计选择往往没有得到充分的探索,并且与视觉表示学习研究脱节。这种差距阻碍了现实世界场景中准确的感官定位。我们的研究使用LLMs和视觉指令调优作为接口来评估各种视觉表示,基于超过20个视觉编码器的实验,为不同的模型和架构(基于自监督、强监督或两者的组合)提供了新的见解。
2024-07-01 19:38:01
1051
原创 python Flask methods
在 Flask 中,装饰器用于定义 URL 路由和与之关联的视图函数。当你想指定某个 URL 可以接受哪些 HTTP 方法时,你可以使用methods参数。methods是一个列表,它可以包含任何有效的 HTTP 方法。Falsk文章中的描述:链接:https://flask.palletsprojects.com/en/3.0.x/patterns/methodoverrides/GETPOSTPUTDELETEHEADOPTIONSPATCHCONNECTTRACE。
2024-06-28 20:58:34
1006
原创 无需向量量化的自回归图像生成
传统观点认为,用于图像生成的自回归模型通常伴随着向量量化的标记。我们观察到,尽管离散值空间可以方便地表示分类分布,但它对于自回归建模来说并不是必需的。在这项工作中,我们提出使用扩散过程来建模每个标记的概率分布,这使得我们可以在连续值空间中应用自回归模型。我们定义了一个扩散损失函数来建模每个标记的概率,而不是使用分类交叉熵损失。这种方法消除了对离散值标记器的需求。我们在包括标准自回归模型和广义掩码自回归(MAR)变体在内的广泛案例中评估了其有效性。
2024-06-28 18:47:40
1665
1
原创 CUDA11.8安装pytorch1.13.0
记录一下,CUDA11.8是否可以安装pytorch1.13.0。本机环境是CUDA11.8,这个一个长期稳定环境。但是,有些库需要用低版本的pytorch,最高支持1.13.0。我直接安装pytorch1.13.0,可以安装,运行命令也没有问题!
2024-06-27 09:25:42
391
原创 conda环境在PowerShell不显示
powershell配置anaconda及解决【无法加载文件C:\Users\xxx\Documents\WindowsPowerShell\profile.ps1,因为在此系统上禁止运行脚本】的问题。
2024-06-26 15:50:21
256
1
原创 ModuleNotFoundError: No module named ‘bs4‘
【代码】ModuleNotFoundError: No module named ‘bs4‘
2024-06-25 17:58:16
143
原创 Transformers是SSMs:通过结构化状态空间对偶性的广义模型和高效算法(二)
文章目录6、针对SSD模型的硬件高效算法6.1、对角块6.2、低秩块6.3、计算成本7、Mamba-2 架构7.1、块设计7.2、序列变换的多头模式7.3、线性注意力驱动的SSD扩展8、系统优化对于SSMs8.1、张量并行8.2、序列并行性8.3、可变长度9、实证验证9.1、合成任务:联想记忆9.2、语言建模9.2.1、缩放定律9.2.3、混合模型:将SSD层与MLP和注意力层结合9.3、速度基准测试9.4、架构消融实验9.4.1、块设计9.4.3 注意力核近似10、相关工作和讨论10.1、状态空间模型10
2024-06-23 08:56:13
593
原创 Transformers是SSMs:通过结构化状态空间对偶性的广义模型和高效算法(一)
文章目录摘要1、引言2、背景与概述2.1、结构化状态空间模型2.2、注意力机制2.3、结构化矩阵2.4、概述:结构化状态空间对偶性2.5、符号3、状态空间模型是结构化矩阵3.1、状态空间模型的矩阵变换形式3.2、半可分离矩阵3.2.1、顺序半可分离(SSS)表示3.2.2、1-半可分矩阵:标量SSM递推3.3、状态空间模型是半可分矩阵3.4、通过结构化矩阵算法计算状态空间模型3.4.1、线性(递归)模式3.4.2、二次(朴素)模式3.4.3、总结4.1、注意力框架4.1.1、注意力4.1.2、自注意力4.1
2024-06-23 08:55:18
1164
原创 如何调用讯飞星火认知大模型的API以利用其卓越功能
讯飞星火认知大模型是由科大讯飞构建的一款先进的人工智能模型。这款模型在处理自然语言理解和生成方面具有卓越的能力,能够提供高效、精准的信息交流和数据分析服务。本文向大家讲解如何调用讯飞星火的API,首先介绍python的调用方式,这是一个普遍使用的方式,然后,再讲解如何使用其他的调用方式。该模型通过深度学习技术和大量数据训练,具备了强大的语言理解、文本生成和对话交互等功能。它能够根据用户的具体需求,提供个性化的信息服务,包括但不限于语音识别、文本分析、自动翻译以及智能问答等。
2024-06-20 22:04:01
1376
原创 pytorch基础——张量的创建与基本操作
在PyTorch中,所有的数据都是通过张量(Tensor)来表示的。张量是一个多维数组,可以包含标量、向量、矩阵等数据类型。
2024-06-19 21:00:00
236
原创 Vision Transformer with Sparse Scan Prior
https://arxiv.org/pdf/2405.13335v1In recent years, Transformers have achieved remarkable progress in computer vision tasks. However, their global modeling often comes with substantial computational overhead, in stark contrast to the human eye’s efficient
2024-06-18 19:10:04
721
原创 AI大佬都在说下一个爆点是智能体,建议开发者抢占先机!
现在AI时代的智能体跟互联网时代的网站类似,因为它背后的大模型能力越来越强,门槛足够低,就能基于它做出更多智能体,未来会有几百万,甚至更大量的智能体出现。最近有朋友在跟我说正在一些平台上学AI Agent课程,我还有点吃惊,这些课主要是教开发者学企业级Agent从设计、开发到部署的流程,促使他们充电的主要原因是看到现在很多企业都有Agent的开发需求,比如能做报告分析的工具类Agent、可以在金融场景对话的对话类Agent ,还有多模态类Agent 等等,学了对转行很有帮助。他提出了2点判断,一是。
2024-06-18 19:06:26
554
1
原创 StarNet实战:使用StarNet实现图像分类任务(一)
论文主要集中在介绍和分析一种新兴的学习范式——星操作(Star Operation),这是一种通过元素级乘法融合不同子空间特征的方法,通过元素级乘法(类似于“星”形符号的乘法操作)将不同子空间的特征进行融合,从而在多个研究领域中展现出出色的性能和效率。星操作在自然语言处理(NLP)和计算机视觉(CV)等多个领域中都得到了成功应用。例如,在自然语言处理中,Monarch Mixer、Mamba、Hyena Hierarchy和GLU等模型都采用了星操作;
2024-06-16 09:08:39
1245
原创 EVA-CLIP:在规模上改进CLIP的训练技术
对比性语言-图像预训练,简称CLIP,因其在各种场景中的潜力而备受关注。在本文中,我们提出了EVA-CLIP,一系列模型,这些模型显著提高了CLIP训练的效率和有效性。我们的方法结合了新的表示学习、优化和增强技术,使得EVA-CLIP在参数数量相同的情况下,与之前的CLIP模型相比,取得了更优的性能,但训练成本却显著降低。值得注意的是,我们最大的50亿参数的EVA-02-CLIP-E/14+模型,仅通过90亿个样本的训练,就在ImageNet-1K验证集上实现了**82.0%
2024-06-11 12:47:44
1034
原创 有没有硅基生命?AGI在哪里?
例如,如果一个经过训练的图像识别模型突然遇到一种它从未见过的物体,它可能无法正确识别或分类这个物体,因为它的权重值是基于训练数据中的模式优化的,而不是基于对未知事物的泛化能力。此外,数据的偏见也可能导致AI模型的偏见。同时,[硅基生命的诞生涉及到构建一种全新的生命形式,这需要解决一系列复杂的科学问题,如硅基生物分子的构建、生命活动的机制等,这些问题都超出了当前科学的认知范围]。这表明,至少在可预见的未来,人类仍然是AI发展不可或缺的一部分,我们的角色不仅仅是数据的提供者,更是AI智能的引导者和监督者。
2024-06-11 07:29:36
557
原创 Vision-LSTM(ViL)实战:使用Vision-LSTM(ViL)实现图像分类任务(一)
论文链接:https://arxiv.org/pdf/2406.04303Vision-LSTM(ViL)架构的核心是xLSTM块。每个xLSTM块都包含一个输入门、一个遗忘门、一个输出门和一个内部记忆单元。与传统的LSTM相比,xLSTM引入了指数门控机制,使得模型能够更好地处理长序列数据。同时,xLSTM采用可并行化的矩阵内存结构,提高了模型的计算效率。在ViL中,我们将多个xLSTM块堆叠在一起,形成一个深层的网络结构。
2024-06-10 21:10:12
563
原创 Vision-LSTM: xLSTM 作为通用视觉主干
尽管Transformer最初是为自然语言处理引入的,但它现在已经被广泛用作计算机视觉中的通用主干结构。最近,长短期记忆(LSTM)已被扩展为一种可扩展且性能优越的架构——xLSTM,它通过指数门控和可并行化的矩阵内存结构克服了LSTM长期以来存在的限制。在本报告中,我们介绍了Vision-LSTM(ViL),它是将xLSTM构建块应用于计算机视觉的一种适配。ViL由一系列xLSTM块组成,其中奇数块从上到下处理补丁标记的序列,而偶数块则从下到上处理。
2024-06-10 16:55:00
695
原创 MASA:匹配一切、分割一切、跟踪一切
在复杂场景中跨视频帧稳健地关联相同对象是许多应用的关键,特别是多目标跟踪(MOT)。当前方法主要依赖于标注的特定领域视频数据集,这限制了学习到的相似度嵌入的跨域泛化能力。我们提出了MASA,一种新颖的方法用于稳健的实例关联学习,该方法能够在不同领域内的视频中匹配任何对象,而无需跟踪标签。MASA利用Segment Anything Model(SAM)丰富的对象分割结果,通过详尽的数据变换来学习实例级别的对应关系。我们将SAM的输出视为密集的对象区域提案,并从庞大的图像集合中学习匹配这些区域。
2024-06-08 11:23:56
1824
原创 MiniCPM:揭示端侧大语言模型的无限潜力
随着开发具有高达数万亿参数的大型语言模型(LLMs)的兴趣激增,关于资源效率和实际成本的担忧也随之而来,特别是考虑到实验的巨大成本。这一情形突显了探索小型语言模型(SLMs)作为资源高效替代方案的潜力。在此背景下,我们介绍了MiniCPM,特别是其1.2B和2.4B非嵌入参数变体,这些变体不仅在各自的类别中表现出色,而且在能力上与7B-13B的LLMs不相上下。尽管我们专注于SLMs,但我们的方法在模型和数据维度上都表现出可扩展性,为未来LLM的研究提供了可能。
2024-06-07 07:28:11
784
原创 FFA-Net:用于单图像去雾的特征融合注意力网络
论文链接:https://arxiv.org/pdf/1911.07559v2在这篇论文中,我们提出了一种端到端的特征融合注意力网络(FFA-Net)来直接恢复无雾图像。FFA-Net架构由三个关键组件组成:一种新颖的特征注意力(FA)模块结合了通道注意力与像素注意力机制,考虑到不同通道特征包含完全不同的加权信息,且雾在图像的不同像素上分布不均匀。FA模块对不同的特征和像素进行非等权重处理,这在处理不同类型的信息时提供了额外的灵活性,扩展了卷积神经网络(CNNs)的表示能力。
2024-06-05 22:00:00
1791
EfficientMod实战:使用EfficientMod实现图像分类任务
2024-07-20
RDNet实战:使用RDNet实现图像分类任务
2024-07-09
YoloV8改进策略-注意力篇-Block改进-附结构图-自研基于xLSTM的注意力
2024-07-01
StarNet实战:使用StarNet实现图像分类任务
2024-06-17
Vision-LSTM(ViL)实战:使用Vision-LSTM(ViL)实现图像分类任务
2024-06-11
MobileNetV4实战:使用MobileNetV4实现图像分类任务
2024-06-09
EfficientVMamba实战:使用 EfficientVMamba实现图像分类任务
2024-04-02
Hiera-MAE-Demo.zip
2024-03-05
YoloV8改进策略:CoordConv给卷积加上坐标,从而使其具备了空间感知能力.zip
2024-02-21
MogaNet实战:使用MogaNet实现图像分类任务
2024-02-12
YoloV8改进-三元注意力,小参数大能力,即插即用,涨点自如
2024-02-05
Vim实战:使用Vim实现图像分类任务
2024-01-30
FlashInternImage实战:使用FlashInternImage实现图像分类任务
2024-01-27
UniRepLKNet实战:使用UniRepLKNet实现图像分类任务
2024-01-13
TransXNet实战:使用TransXNet实现图像分类任务
2023-12-19
Hiera实战:使用Hiera实现图像分类任务
2023-12-07
RevCol实战:使用RevCol实现图像分类任务
2023-11-25
FastVIT实战:使用FastVIT实现图像分类
2023-08-21
VGGNet剪枝实战:使用VGGNet训练、稀疏训练、剪枝、微调等,剪枝出只有3M的模型
2023-08-07
InceptionNext实战:使用InceptionNext实现图像分类任务
2023-06-26
VanillaNet实战:使用VanillaNet实现图像分类
2023-06-13
SeaFormer实战:使用SeaFormer实现图像分类任务
2023-04-29
FasterNet实战:使用FasterNet实现图像分类任务
2023-03-24
ConvNeXt V2实战:使用ConvNeXt V2实现图像分类任务(一)
2023-03-02
PoolFormer实战:使用PoolFormer实现图像分类任务.zip
2023-01-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人