AI浩

分享人工智能知识，包括：计算机视觉、NLP以及机器学习等领域。注重基础与实践，尽最大的努力让每个初学者看懂学会。

原创 EfficientFormer实战：使用EfficientFormerV2实现图像分类任务（二）

训练部分。

2024-09-21 20:17:17 875

原创 EfficientFormer实战：使用EfficientFormerV2实现图像分类任务（一）

EMA是一种加权移动平均技术，其中每个新的平均值都是前一个平均值和当前值的加权和。在深度学习中，EMA被用于模型参数的更新，以减缓参数在训练过程中的快速波动，从而得到更加平滑和稳定的模型表现。

2024-09-19 18:56:24 1039

原创 EfficientFormerV2：重新思考视觉变换器以实现与MobileNet相当的尺寸和速度。

随着视觉变换器（ViTs）在计算机视觉任务中的成功，近期的研究尝试优化ViTs的性能和复杂度，以实现在移动设备上的高效部署。提出了多种方法来加速注意力机制，改进低效设计，或结合适用于移动设备的轻量级卷积形成混合架构。然而，ViT及其变体仍然比轻量级CNNs有更高的延迟或更多的参数，即使是多年前的MobileNet也是如此。在实践中，延迟和大小对于在资源受限的硬件上有效部署至关重要。在这项工作中，我们探讨了一个核心问题，变换器模型能否像MobileNet一样快速运行并保持类似的大小？

2024-09-18 19:02:21 989

原创 General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

传统的OCR系统（OCR-1.0）越来越无法满足人们对智能处理人造光学字符的需求。在本文中，我们将所有人造光学信号（例如，普通文本、数学/分子公式、表格、图表、乐谱，甚至是几何形状）统称为“字符”，并提出了通用OCR理论以及一个优秀的模型，即GOT，以促进OCR-2.0的到来。GOT拥有5.8亿参数，是一个统一的、优雅的、端到端的模型，由高压缩编码器和长上下文解码器组成。作为一个OCR-2.0模型，GOT可以在各种OCR任务下处理上述所有“字符”。

2024-09-18 09:03:32 968

原创 OCR 通用端到端模型GOT

在人工智能领域，光学字符识别（OCR）技术已经取得了显著的进展。随着技术的不断进步，我们正迈向OCR 2.0时代。本文将介绍由Vary团队开发的通用端到端模型GOT，这一模型在OCR领域具有革命性的潜力。

2024-09-14 18:43:17 1308

原创 Conda和pip 清空缓存

【代码】Conda和pip 清空缓存。

2024-09-13 10:25:05 422

原创 Open-Vocabulary SAM: 分割并交互式识别两万类别。

摘要CLIP和Segment Anything Model（SAM）是杰出的视觉基础模型（VFMs）。SAM在多个领域的分割任务中表现出色，而CLIP以其零样本识别能力而闻名。本文深入探索了将这两种模型整合到一个统一框架中。具体来说，我们介绍了Open-Vocabulary SAM，这是一个受SAM启发的模型，旨在同时进行交互式分割和识别，利用两个独特的知识迁移模块：SAM2CLIP和CLIP2SAM。前者通过蒸馏和可学习的变换器适配器将SAM的知识适应到CLIP中，而后者将CLIP的知识转移到SAM中，增

2024-09-10 19:48:00 894

原创 Sapiens：人类视觉模型的基础

我们介绍了 Sapiens，这是一个针对四个基本的以人为中心的视觉任务的模型系列 - 二维姿态估计、身体部位分割、深度估计和表面法线预测。我们的模型原生支持1K高分辨率推理，并且通过简单地对超过3亿张野外人类图像上预训练的模型进行微调，非常容易适应个别任务。我们观察到，在相同的计算预算下，对精选的人类图像数据集进行自监督预训练可以显著提高多样化的以人为中心的任务的性能。产生的模型即使在标记数据稀缺或完全合成的情况下，也表现出对野外数据的显著泛化能力。

2024-09-09 21:08:24 561

原创 SAM 2:分割图像和视频中的任何内容

我们提出了“Segment Anything Model 2”（SAM 2），这是一种基础模型，旨在解决图像和视频中的可提示视觉分割问题。我们构建了一个数据引擎，该引擎通过用户交互改进模型和数据，以收集迄今为止最大的视频分割数据集。我们的模型采用带有流式内存的简单变换器架构，适用于实时视频处理。使用我们的数据进行训练的SAM 2在广泛的任务中表现出色。在视频分割方面，我们观察到比先前方法更高的准确性，同时所需的交互次数减少了3倍。

2024-09-08 08:35:56 783

原创 SAM2（Segment Anything Model 2）新一代分割一切大模型实战总结

Segment Anything Model 2（SAM 2）作为Meta公司发布的Segment Anything Model（SAM）的升级版本，在图像和视频分割领域展现出了显著的优点和特性。论文连接：https://arxiv.org/pdf/2408.00714。

2024-09-05 19:33:49 1496

原创 SimD：基于相似度距离的小目标检测标签分配

AbstractC. Results。

2024-09-04 07:39:50 978

原创 GCViT实战：使用GCViT实现图像分类任务（二）

训练部分。

2024-09-03 05:54:05 961

原创 GCViT实战：使用GCViT实现图像分类任务（一）

2024-09-03 05:49:04 1200

原创 Unified-IoU：用于高质量对象检测

目标检测是计算机视觉领域的重要部分，而目标检测的效果直接由预测框的回归精度决定。作为模型训练的关键，交并比（IoU，Intersection over Union）极大地展示了当前预测框与真实框之间的差异。后续研究人员不断在IoU中加入更多考量因素，如中心距离、纵横比等。然而，仅仅细化几何差异存在上限；新的考量指标与IoU本身之间存在潜在联系，两者之间的直接加减可能导致“过度考量”的问题。基于此，我们提出了一种新的IoU损失函数，称为统一IoU（UIoU），它更关注于不同质量预测框之间的权重分配。

2024-09-02 20:32:23 955

原创在视觉转换器中，每个阶段你只需要更少的注意力

摘要视觉转换器（Vision Transformers，ViTs）的出现标志着计算机视觉领域的一次重大范式转变。ViTs通过自注意力模块捕获图像的全局信息，这些模块在图像块化的标记之间进行点积计算。虽然自注意力模块使ViTs能够捕获长距离依赖关系，但其计算复杂度与标记数量呈二次方增长，这严重阻碍了ViTs的实际应用。此外，深层ViTs中的自注意力机制也容易受到注意力饱和问题的影响。因此，我们反对在每一层中计算注意力分数的必要性，并提出了少注意力视觉转换器（Less-Attention Vision Tra

2024-08-26 20:10:31 923

原创 LaViT：Less-Attention Vision Transformer的特性与优点

随着计算机视觉领域的发展，视觉Transformer（ViTs）逐渐成为一项重要技术。尽管ViTs在捕捉图像中的长距离依赖关系方面表现出色，但其沉重的计算负担和潜在的注意力饱和问题一直是实际应用的障碍。为解决这些问题，微软提出了Less-Attention Vision Transformer（LaViT），旨在通过引入一种新的注意力机制来提升视觉Transformer的效率和性能。

2024-08-26 08:26:06 1022 1

原创全局上下文视觉转换器（Global Context Vision Transformers）

我们提出了全局上下文视觉转换器（GC ViT），这是一种新颖的架构，旨在提高计算机视觉中的参数和计算利用率。我们的方法利用全局上下文自注意力模块与标准的局部自注意力相结合，以有效且高效的方式对长程和短程空间交互进行建模，而无需执行昂贵的操作，如计算注意力掩码或移动局部窗口。此外，我们还解决了ViT中归纳偏差缺失的问题，并提出在我们的架构中利用修改后的融合倒置残差块。我们提出的GC ViT在图像分类、目标检测和语义分割任务中均取得了最先进的结果。

2024-08-24 21:05:29 793

原创 pytorch，半精度判断，半精度和全精度之间的转化。

在PyTorch中，判断一个张量（Tensor）x是否是半精度（即类型）的，你可以使用x.dtype属性来获取张量的数据类型，然后将其与进行比较。在这个例子中，x被创建为半精度（）的张量，而y被创建为全精度（）的张量。通过比较它们的dtype属性与，我们可以判断它们是否是半精度的。dtype属性返回的是一个对象，它是PyTorch中用于表示数据类型的一个枚举类。通过将dtype属性与（或任何其他值）进行比较，你可以判断任何PyTorch张量的数据类型。

2024-08-22 23:00:00 534

原创 FouriDown: Factoring Down-Sampling into Shuffling and Superposing

为了克服这种偏差限制，我们提出了一种在傅里叶域中的新型下采样范式，简称FouriDown，它统一了现有的下采样技术。然而，根据信号采样定理，现有的下采样技术，如步长卷积、高斯下采样和最近邻下采样[1,4,5,6]，不可避免地降低了离散信号的采样频率，导致高频信号被意外地折叠到低频区域，从而产生频率混叠现象。因此，如图1所示，我们致力于将不同的下采样方法统一起来，并实现一种最优的方法，即在傅里叶域中通过可学习和上下文自适应的参数化函数来统一下采样建模规则。在对应的角落位置上进行操作，而理想低通滤波器则利用。

2024-08-22 22:22:29 827

原创注意力机制中的三种掩码技术及其PyTorch实现

在深度学习中，特别是处理序列数据时，注意力机制是一种非常关键的技术，广泛应用于各种先进的神经网络架构中，如Transformer模型。为了确保模型能够正确处理序列数据，掩码技术发挥了重要作用。本文将介绍三种常见的掩码技术：填充掩码（Padding Mask）、序列掩码（Sequence Mask）和前瞻掩码（Look-ahead Mask），并提供相应的PyTorch代码实现。

2024-08-22 20:00:00 456

原创 Improving Point-based Crowd Counting and Localization Based on Auxiliary Point Guidance

摘要。由于人群计数和定位在计算机视觉中的广泛应用，它们变得日益重要。虽然基于点的策略已被广泛用于人群计数方法中，但它们面临一个重大挑战，即缺乏有效的学习策略来指导匹配过程。这一缺陷导致将点建议匹配到目标点的过程中存在不稳定性，从而对整体性能产生不利影响。为了解决这一问题，我们引入了一种有效的方法来稳定基于点的方法中的建议-目标匹配。我们提出了辅助点引导（APG）来为建议的选择和优化提供清晰有效的指导，从而解决匹配不确定性的核心问题。此外，我们还开发了隐式特征插值（IFI）方法，以在多种人群场景中实现自适应特

2024-08-21 22:45:00 455

原创 error: failed to push some refs to ‘https://gitlab.xxxx.org.cn/xxxx/xxxxx.git‘ hint: Updates were re

应该是，要先拉一下代码，再推一次代码，拉代码使用git pull。其中“-f”是覆盖提交的参数。

2024-08-20 23:30:00 257

原创 github 增加一个分支并将代码上传到分支

在GitHub上增加一个分支并将代码上传到该分支是一个常见的操作，特别是在进行新功能开发、修复bug或者实验性修改时。

2024-08-20 23:30:00 357

原创 ECCV 2024亮点：APGCC技术刷新人群计数与定位的SOTA

APGCC技术的提出，不仅为人群计数和定位领域带来了新的突破，也为计算机视觉技术的进一步发展提供了新的思路。随着技术的不断进步，我们期待APGCC在未来的智能监控和城市管理等方面发挥更大的作用。APGCC论文APGCC主页如果你对这项技术感兴趣，或者想要了解更多关于计算机视觉的最新研究，不妨关注我们的公众号。我们将为你提供更多AI/CV领域的重磅干货，让你第一时间掌握行业动态。

2024-08-20 21:30:00 981

原创 error: failed to push some refs to ‘https://gitlab.bdnrc.org.cn/ganzhi/cv_algo_program.git‘ hint: Up

指令：git remote add origin 远程库地址。不存在origin远程仓库。

2024-08-20 20:45:00 133

原创 Python中的join()方法：线程与进程的异同分析

join()是Python中线程（）和进程（）对象的一个方法。它的作用是让当前执行线程或进程等待调用join()的线程或进程结束。这在同步程序执行流程中非常有用。

2024-08-19 19:45:00 1126

原创关于MMCV的奇葩错误

项目中用到了MMCV，Pytorch的版本是1.13.1，所以不能安装太高的版本。记录一下遇到的奇葩问题，大家有遇到的，可以按照我的方法试试，更换一下安装包的版本。如果解决不了，那我也没有办法！发现不能解决问题，反而一直在重启进程，被Killed后，显存还是被占用。后来，我觉得可能是MMCV版本的问题，我改成了新版本。这明明在本地都没有问题，为啥到服务器就有问题了呢？结果出现了版本不兼容的问题。安装完成后就可以正常运行。

2024-08-16 19:00:00 149

原创 Ubuntu 批量杀死进程

【代码】Ubuntu 批量杀死进程。

2024-08-15 20:30:00 1429

原创 python 使用正则表达式判断图片路径是否是超链接

在Python中，判断一个给定的字符串（假设为图片路径）是否是网页链接（URL），你可以通过检查该字符串是否符合URL的基本格式来实现。虽然这个方法不能保证链接一定指向图片，但它能判断该字符串是否是一个有效的网页链接。然而，它不能确保该URL是有效的（例如，域名可能不存在，或者IP地址可能无法访问）。如果你的目的是确保URL不仅格式正确，而且指向一个图片，那么你需要进行额外的HTTP请求来检查响应的内容类型（例如，通过。函数，它可以用来解析URL，但直接用来判断一个字符串是否为URL可能不够直观。

2024-08-14 20:15:00 399

原创 UserWarning: On January 1, 2023, MMCV will release v2.0.0, in which it will remove components relate

在使用mmcv-full的时候出现了下面的警告，但是安装2.0以上版本又会出现不兼容的问题。

2024-08-14 06:13:01 295

原创 TCFormer：通过标记聚类Transformer实现视觉识别

摘要Transformer在计算机视觉领域得到了广泛应用，并取得了显著成功。大多数最先进的方法将图像分割成规则网格，并用视觉标记表示每个网格区域。然而，固定的标记分布忽略了不同图像区域的语义含义，导致性能次优。为了解决这个问题，我们提出了标记聚类Transformer（TCFormer），它基于语义含义生成动态视觉标记。我们的动态标记具有两个关键特性：（1）使用相同的视觉标记表示具有相似语义含义的图像区域，即使这些区域不相邻；（2）专注于具有有价值细节的区域，并使用精细的标记来表示它们。

2024-08-09 06:54:59 925

原创 module ‘pkgutil‘ has no attribute ‘ImpImporter‘. Did you mean: ‘zipimporter‘?

使用 pip uninstall -y setuptools 来卸载，再通过 pip install setuptools 重新安装即可。

2024-08-08 10:40:26 296

原创 Crowd-SAM：SAM作为拥挤场景中目标检测的智能标注器

问题定义。如图1所示，我们的目标是在标记数据很少的情况下，检测拥挤场景中的对象（如行人）。我们将此问题表述为一类小样本检测任务。常见的小样本流程是将数据分为基础集和新集。不同的是，我们直接使用目标类的数据进行模型训练，因为基础模型已经在大规模数据上进行了训练。特别是，我们采用分割掩码作为中间结果，这些结果可以很容易地转换为边界框。在训练和评估过程中，仅提供边界框标注。对SAM自动生成器的初步研究。提示数量会影响SAM的性能，我们针对拥挤场景分析了这一问题。

2024-08-06 22:00:00 1041

原创 GroupMamba实战：使用GroupMamba实现图像分类任务（二）

训练部分。

2024-08-06 05:33:13 986

原创 python 线程池处理文件

使用多线程来加速文件复制的过程，可以使用Python的concurrent.futures模块中的ThreadPoolExecutor。为了使用多线程来加速文件复制的过程，你可以使用Python的模块中的。这个模块允许你轻松地并行执行多个任务。

2024-08-01 21:15:00 342

原创手把手教你实现基于丹摩智算的YoloV8自定义数据集的训练、测试。

摘要DAMODEL（丹摩智算）是专为AI打造的智算云，致力于提供丰富的算力资源与基础设施助力AI应用的开发、训练、部署。官网链接：https://www.damodel.com/console/overview。

2024-07-31 12:30:18 4745 10

原创 LeYOLO，一种用于目标检测的新型可扩展且高效的CNN架构

倒置瓶颈（Inverted Bottleneck），最初由MobileNetV2[25, 54]提出，因其轻量级计算和简单性而成为许多最新先进模型[62, 63, 18, 65, 43, 38, 69]的精髓。在FLOP计算方面，要实现超越深度可分离卷积的效果水平是复杂的。逐点卷积解决了缺少通道间相关性的问题，这是无法回避的难题。然而，在我们的倒置瓶颈块实验中，我们观察到优化通道数可以有效地减少计算需求，特别是在大空间特征图尺寸下。实际上，如果一个块的扩展比等于一，或者通过连接效应，输入通道Cin。

2024-07-30 21:45:00 762

原创权重共享的理解

在PyTorch中，权重共享是通过将多个层或模块的参数设置为同一个变量来实现的。这意味着这些层或模块在训练过程中会更新相同的权重，从而共享相同的特征表示。假设我们想要构建一个简单的网络，其中两个全连接层共享相同的权重和偏置。# 如果提供了权重和偏置，则直接使用else:else:创建一个共享权重的网络# 初始化权重和偏置# 创建两个共享权重的全连接层。

2024-07-30 18:12:52 1166

原创 GroupMamba：参数高效且准确的组视觉状态空间模型

状态空间模型（SSM）的最新进展展示了在具有次二次复杂性的长距离依赖建模中的有效性能。然而，纯基于SSM的模型在稳定性和在计算机视觉任务中实现最佳性能方面仍面临挑战。本文解决了将基于SSM的模型扩展到计算机视觉领域的挑战，特别是大型模型尺寸的不稳定性和低效性。为此，我们引入了一个调制组曼巴层（Modulated Group Mamba layer），该层将输入通道分为四组，并独立地对每组应用我们提出的基于SSM的高效视觉单选择扫描（VSSS）块，每个VSSS块在四个空间方向之一中进行扫描。

2024-07-29 21:30:00 435

原创 GroupMamba实战：使用GroupMamba实现图像分类任务（一）

2024-07-29 17:31:40 1320

EfficientFormer实战：使用EfficientFormerV2实现图像分类任务

EfficientFormerV2是一种通过重新思考ViT设计选择和引入细粒度联合搜索策略而开发出的新型移动视觉骨干网络。它结合了卷积和变换器的优势，通过一系列高效的设计改进和搜索方法，实现了在移动设备上既轻又快且保持高性能的目标。这一成果为在资源受限的硬件上有效部署视觉变换器模型提供了新的思路原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/142367223

2024-09-19

GCViT实战：使用GCViT实现图像分类任务

GC ViT（全局上下文视觉转换器）是一种创新的深度学习架构，旨在提升计算机视觉任务中的参数和计算效率。它通过将全局上下文自注意力模块与标准的局部自注意力相结合，有效地建模长程和短程空间交互，同时避免了传统方法中的昂贵操作，如计算注意力掩码或移动局部窗口。GC ViT解决了Vision Transformer（ViT）中归纳偏差缺失的问题，并通过引入改进的融合倒置残差块来增强性能。在多个视觉任务（如图像分类、目标检测和语义分割）中，GC ViT均取得了最先进的结果。原文链接：https://blog.csdn.net/m0_47867638/article/details/141654892

2024-09-02

CAS-ViT实战：使用CAS-ViT实现图像分类任务

CAS-ViT（Convolutional Additive Self-attention Vision Transformer）通过一系列创新，成功实现了计算与效率的平衡。其核心在于提出了一种新颖的加性相似度函数和卷积加性标记混合器（Convolutional Additive Token Mixer, CATM），这一设计显著降低了计算开销。原文链接：https://blog.csdn.net/m0_47867638/article/details/141404169

2024-08-22

GroupMamba实战：使用GroupMamba实现图像分类任务

状态空间模型（SSM）的最新进展展示了在具有次二次复杂性的长距离依赖建模中的有效性能。GroupMamba解决了将基于SSM的模型扩展到计算机视觉领域的挑战，特别是大型模型尺寸的不稳定性和低效性。GroupMamba在ImageNet-1K的图像分类、MS-COCO的目标检测和实例分割以及ADE2OK的语义分割方面，相比现有方法取得了更优的性能。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/140775861

2024-07-31

EfficientMod实战：使用EfficientMod实现图像分类任务

论文提出了一种名为“高效调制（EfficientMod）”的新型设计，旨在提升视觉网络在准确性和效率之间的权衡。作者重新审视了现有的调制机制，该机制通过卷积上下文建模和特征投影层处理输入，并通过逐元素乘法和多层感知机（MLP）块融合特征。为了进一步提升效率，作者设计了EfficientMod块，作为他们网络的基本构建块。 EfficientMod的优势在于其能够利用调制机制的卓越表示能力，同时通过简化设计来减少计算冗余和延迟。与传统的自注意力机制相比，EfficientMod的计算复杂度与图像大小呈线性关系，而不是与标记数量呈立方关系，这使得它在处理大规模图像时更加高效。此外，与现有的高效卷积网络如FocalNet和VAN相比，EfficientMod块更为简单，但保留了它们的主要优点，如使用大核卷积块进行上下文建模和通过调制来增强特征表示。 https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/140520113

2024-07-20

RDNet实战：使用RDNet实现图像分类任务

论文提出的模型主要基于对传统DenseNet架构的改进和复兴，通过一系列创新设计，旨在提升模型性能并优化其计算效率，提出了RDNet模型。该模型的主要特点和改进点： ### 1. 强调并优化连接操作（Concatenation）论文首先强调了DenseNet中连接操作（Concatenation）的重要性，并通过广泛的实验验证了连接操作在性能上能够超越传统的加法快捷连接（Additive Shortcut）。这一发现促使研究者们重新审视并优化DenseNet的连接机制。

2024-07-09

YoloV8改进策略-注意力篇-Block改进-附结构图-自研基于xLSTM的注意力

本文使用Vision-LSTM的xLSTM改进YoloV8的Bottleneck结构，增加自研的注意力机制，取得了不错的得分。如果大家想发顶会，或者比较好的期刊，可以优先考虑！包含完整代码和PDF文章

2024-07-01

YoloV8摔倒检测完整代码

YoloV8摔倒检测完整代码，包含代码和数据集！打开就可以使用！搜集了多个数据集。

2024-06-24

StarNet实战：使用StarNet实现图像分类任务

论文主要集中在介绍和分析一种新兴的学习范式——星操作（Star Operation），这是一种通过元素级乘法融合不同子空间特征的方法，通过元素级乘法（类似于“星”形符号的乘法操作）将不同子空间的特征进行融合，从而在多个研究领域中展现出出色的性能和效率。星操作在自然语言处理（NLP）和计算机视觉（CV）等多个领域中都得到了成功应用。例如，在自然语言处理中，Monarch Mixer、Mamba、Hyena Hierarchy和GLU等模型都采用了星操作；在计算机视觉中，FocalNet、HorNet和VAN等模型也利用了星操作进行特征融合。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139712515

2024-06-17

Vision-LSTM（ViL）实战：使用Vision-LSTM（ViL）实现图像分类任务

Vision-LSTM（ViL）架构的核心是xLSTM块。每个xLSTM块都包含一个输入门、一个遗忘门、一个输出门和一个内部记忆单元。与传统的LSTM相比，xLSTM引入了指数门控机制，使得模型能够更好地处理长序列数据。同时，xLSTM采用可并行化的矩阵内存结构，提高了模型的计算效率。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139582259

2024-06-11

MobileNetV4实战：使用MobileNetV4实现图像分类任务

MobileNetV4，作为新一代移动设备神经网络架构，凭借其创新的通用倒置瓶颈UIB块和Mobile MQA注意力块，实现了计算效率和运行速度的显著提升。该架构通过精炼的神经架构搜索NAS方法，创建了多个卓越性能的移动设备模型。新型知识蒸馏技术进一步提高了模型准确性，而Mobile MQA块相较于传统多头注意力，在移动加速器上实现了显著的推理加速。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139452661

2024-06-09

EfficientVMamba实战：使用 EfficientVMamba实现图像分类任务

作者研究了轻量级模型设计的新方法，通过引入视觉状态空间模型（SSM）以提高效率和性能。提出了一种名为EcientVMamba的高效模型变体，结合选择性扫描和有效跳跃采样，同时利用全局和局部表示特征。EcientVMamba在多种视觉任务中取得了具有竞争力的结果，并降低了计算复杂度。文章还探讨了SSMs在视觉任务中的应用，并指出现有轻量级模型在保持全局表示能力方面的挑战。本文使用EcientVMamba模型实现图像分类任务，模型选择最小的EcientVMamba_T，在植物幼苗分类任务ACC达到了93%+，达到了ViM的水平。。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/137253836

2024-04-02

TransNext-Demo.zip

2024-03-16

Hiera-MAE-Demo.zip

https://wanghao.blog.csdn.net/article/details/136443023?spm=1001.2014.3001.5502

2024-03-05

YoloV8改进策略：CoordConv给卷积加上坐标，从而使其具备了空间感知能力.zip

2024-02-21

MogaNet实战：使用MogaNet实现图像分类任务

作者多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。提出了一种新的纯卷积神经网络架构族，称为MogaNet。MogaNet具有出色的可扩展性，在ImageNet和其他多种典型视觉基准测试中，与最先进的模型相比，其参数使用更高效，且具有竞争力的性能。具体来说，MogaNet在ImageNet上实现了80.0%和87.8%的Top-1准确率，分别使用了5.2M和181M参数，优于ParC-Net-S和ConvNeXt-L，同时节省了59%的浮点运算和17M的参数。源代码可在GitHub上(https://github.com/Westlake-AI/MogaNet)获取。文章链接：https://wanghao.blog.csdn.net/article/details/136102061?spm=1001.2014.3001.5502

2024-02-12

YoloV8改进-三元注意力，小参数大能力，即插即用，涨点自如

注意力机制在计算机视觉领域得到了广泛的研究和应用，利用构建通道或空间位置之间的依赖关系的能力，有效地应用于各种计算机视觉任务。本文研究了轻量级但有效的注意力机制，并提出了一种新的计算注意力权重的方法——三元组注意力，通过一个三分支结构捕捉跨维度交互。对于输入张量，三元组注意力通过旋转操作和残差变换建立跨维度的依赖关系，并以极小的计算开销编码了跨通道和空间信息。这种方法既简单又高效，可以轻松地插入经典的主干网络中作为附加模块。在各种具有挑战性的任务中，如ImageNet-1k图像分类和MSCOCO和PASCAL VOC数据集上的目标检测，证明了该方法的有效性。此外，通过可视化检查GradCAM和GradCAM++结果，提供了对三元组注意力性能的深入见解。本文方法的实证评估支持了在计算注意力权重时捕捉跨维度依赖关系的重要性的直觉。

2024-02-05

Vim实战：使用Vim实现图像分类任务

Vim作为一种高效的视觉模型，具有计算和内存效率高、处理高分辨率图像能力强等优点。这使得Vim成为下一代视觉基础模型的理想选择。本文使用Vim模型实现图像分类任务，模型选择最小的vim_tiny_patch16_224_bimambav2_final_pool_mean_abs_pos_embed_rope_also_residual_with_cls_token（这个方法的名字比较长。。。。。），在植物幼苗分类任务ACC达到了93%+。文章链接： https://wanghao.blog.csdn.net/article/details/135921108?spm=1001.2014.3001.5502

2024-01-30

FlashInternImage实战：使用FlashInternImage实现图像分类任务

将DCNv3替换为DCNv4创建的FlashInternImage模型可实现高达80%的速度提升和进一步性能改进，无需其他修改。DCNv4在速度和效率上的优势，结合其在各种视觉任务中的稳健性能，使其成为未来视觉模型的潜在基础构建块。文章链接： https://wanghao.blog.csdn.net/article/details/135873073?spm=1001.2014.3001.5502

2024-01-27

UniRepLKNet实战：使用UniRepLKNet实现图像分类任务

大核卷积神经网络（ConvNets）近年来受到广泛关注，但仍存在两个关键问题需要进一步研究。首先，目前的大型卷积神经网络架构大多遵循传统卷积神经网络或Transformer的设计原则，而大核ConvNets的架构设计仍未得到充分解决。其次，尽管Transformer已在多种模态中占据主导地位，但仍需研究卷积神经网络是否也具备超越视觉领域的强大通用感知能力。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/135512795

2024-01-13

TransXNet实战：使用TransXNet实现图像分类任务

在ImageNet-1K图像分类任务中，TransXNet-T相比Swin-T在top-1准确率上提高了0.3%，同时计算成本更低。此外，TransXNet-S和TransXNet-B展示了出色的模型扩展性，分别实现了83.8%和84.6%的top-1准确率，且计算成本合理。此外，我们的网络架构在各种密集预测任务中展现出了强大的泛化能力，优于其他先进的网络结构，且计算成本更低。总之，D-Mixer和TransXNet作为一种高效且具有强大泛化能力的网络结构，为计算机视觉领域提供了新的解决方案。这篇文章使用TransXNet完成植物分类任务，模型采用transxnet_t向大家展示如何使用TransXNet。transxnet_t在这个数据集上实现了96+%的ACC

2023-12-19

Hiera实战：使用Hiera实现图像分类任务

现代层次视觉变换器在追求监督分类表现时增加了几个特定于视觉的组件。这些组件虽然带来了有效的准确性和吸引人的FLOP计数，但增加的复杂性实际上使这些变换器比普通ViT更快。作者认为这种额外的体积是不必要的。通过使用强大的视觉预训练任务(MAE)进行预训练，可以从最先进的多阶段视觉变换器中去除所有花里胡哨的东西，同时不会丢失准确性。在此过程中，作者创建了Hiera，这是一种极其简单的层次视觉变换器，它比以前的模型更准确，同时在推理和训练过程中都明显更快。在各种任务上评估了Hiera对于图像和视频识别的表现。代码和模型可以在https://github.com/facebookresearch/hiera上获得。这篇文章使用Hiera完成植物分类任务，模型采用hiera_tiny_224向大家展示如何使用Hiera。原文链接：https://wanghao.blog.csdn.net/article/details/134642935

2023-12-07

RevCol实战：使用RevCol实现图像分类任务

可逆柱状结构（RevCol）是一种网络结构，它受到GLOM（Global Columnar Memory）的启发。RevCol由N个子网络（或称为列）组成，每个子网络的结构和功能都是相同的。这种结构可以有效地解决信息崩溃的问题，通过在前面的列中添加额外的监督，以保持特征和输入图像之间的互信息。此外，RevCol可以逐渐解耦语义和低级信息，从而提取和利用任务相关信息来进一步提高性能。在实现上，对于中间监督，采用了加权求和的方式将两个损失合并，对于所有变体的RevCol，通过实验确定将监督头添加到特定的列中。这篇文章使用RevCol完成植物分类任务，模型采用revcol_tiny向大家展示如何使用RevCol。revcol_tiny在这个数据集上实现了96+%的ACC，

2023-11-25

Sgformer实战：使用Sgformer实现图像分类任务

2023-09-11

nougat的权重文件

nougat权重文件

2023-09-05

定时任务库的详解与魅力应用：探索schedule的无尽可能性.pdf

定时任务库的详解与魅力应用：探索schedule的无尽可能性

2023-08-30

FastVIT实战：使用FastVIT实现图像分类

第一步执行makedata.py 创建训练集和验证集第二步执行train.py训练第三步执行export_model.py 导出模型第四步执行test.py 测试非常简单，适合初学者

2023-08-21

DERT：论文详细翻译

2023-08-15

VGGNet剪枝实战：使用VGGNet训练、稀疏训练、剪枝、微调等，剪枝出只有3M的模型

在BN层网络中加入稀疏因子，训练使得BN层稀疏化，对稀疏训练的后的模型中所有BN层权重进行统计排序，获取指定保留BN层数量即取得排序后权重阈值thres。遍历模型中的BN层权重，制作各层mask（权重>thres值为1，权重<thres值为0）。剪枝操作，根据各层的mask构建新模型结构（各层保留的通道数），获取BN层权重mask非零值的索引，非零索引对应的原始conv层、BN层、linear层各通道的权重、偏置等值赋值给新模型各层。加载剪枝后模型，进行fine-tune。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/132054977

2023-08-07

EMO实战：使用EMO实现图像分类任务

2023-07-31

MobileViG实战：使用MobileViG实现图像分类任务

2023-07-17

FasterViT实战：使用FasterViT实现图像分类任务

2023-07-10

pytorch-CNN网络汇总.zip

pytorch_CNN网络汇总

2023-07-04

InceptionNext实战：使用InceptionNext实现图像分类任务

论文翻译：https://wanghao.blog.csdn.net/article/details/131347001?spm=1001.2014.3001.5502 官方源码：https://github.com/sail-sg/inceptionnext 这是一篇来自颜水成团队的论文。作者提出InceptionNext，将大核深度卷积分解为沿通道维度的四个平行分支，即小方形核、两个正交带核和一个单位映射。通过这种新的Inception深度卷积，构建了一系列网络，不仅享有高吞吐量，而且保持有竞争力的性能。例如，InceptionNeXt-T实现了比convnext - t高1.6倍的训练吞吐量，并在ImageNet- 1K上实现了0.2%的top-1精度提高。 https://wanghao.blog.csdn.net/article/details/131387184?spm=1001.2014.3001.5502

2023-06-26

CloFormer实战：使用CloFormer实现图像分类任务

2023-06-13

VanillaNet实战：使用VanillaNet实现图像分类

VanillaNet实战：使用VanillaNet实现图像分类论文翻译：https://blog.csdn.net/m0_47867638/article/details/131057152 官方源码：https://github.com/huawei-noah/VanillaNet VanillaNet是华为在2023年发布的一种极简风格的CNN网络，采用了最普通的CNN网络，却达到了很好的效果。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/68817ad3e0f544b59d6b517834dcb672.png) 这篇文章使用VanillaNet完成植物分类任务，模型采用VanillaNet10向大家展示如何使用VanillaNet。由于没有预训练模型，VanillaNet10在这个数据集上实现了87%的ACC。 https://blog.csdn.net/m0_47867638/article/details/131216849?spm=1001.2014.3001.5502

2023-06-13

BiFormer实战：使用BiFormer实现图像分类任务

2023-05-03

SeaFormer实战：使用SeaFormer实现图像分类任务

SeaFormer是一个轻量级的Transformers模型，最小的SeaFormer_T只有6M大小。设计了一种具有压缩轴向和细节增强的注意力模块，使其能够更好的在移动端应用。通过这篇文章能让你学到：如何使用数据增强，包括transforms的增强、CutOut、MixUp、CutMix等增强手段？如何实现SeaFormer模型实现训练？如何使用pytorch自带混合精度？如何使用梯度裁剪防止梯度爆炸？如何使用DP多显卡训练？如何绘制loss和acc曲线？如何生成val的测评报告？如何编写测试脚本测试测试集？如何使用余弦退火策略调整学习率？如何使用AverageMeter类统计ACC和loss等自定义变量？如何理解和统计ACC1和ACC5？如何使用EMA？如果使用Grad-CAM 实现热力图可视化？原文链接：https://blog.csdn.net/m0_47867638/article/details/130440291?spm=1001.2014.3001.5501

2023-04-29

InternImageNet实战：使用InternImageNet实现图像分类任务

2023-04-03

FasterNet实战：使用FasterNet实现图像分类任务

FasterNet全新的神经网络家族，在多个处理平台上运行速度更快，精度更高，优于MobileVit等网络，基于新提出新的Partial卷积(PConv)，大型网络FasterNet-L达到了83.5%的top-1精度，与Swin-B相当，同时在GPU上具有更高推断吞吐量，以及在CPU上节省42%的计算时间。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/129723967

2023-03-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人