- 博客(1273)
- 资源 (166)
- 收藏
- 关注
原创 EfficientFormer实战:使用EfficientFormerV2实现图像分类任务(一)
EMA是一种加权移动平均技术,其中每个新的平均值都是前一个平均值和当前值的加权和。在深度学习中,EMA被用于模型参数的更新,以减缓参数在训练过程中的快速波动,从而得到更加平滑和稳定的模型表现。
2024-09-19 18:56:24 1039
原创 EfficientFormerV2:重新思考视觉变换器以实现与MobileNet相当的尺寸和速度。
随着视觉变换器(ViTs)在计算机视觉任务中的成功,近期的研究尝试优化ViTs的性能和复杂度,以实现在移动设备上的高效部署。提出了多种方法来加速注意力机制,改进低效设计,或结合适用于移动设备的轻量级卷积形成混合架构。然而,ViT及其变体仍然比轻量级CNNs有更高的延迟或更多的参数,即使是多年前的MobileNet也是如此。在实践中,延迟和大小对于在资源受限的硬件上有效部署至关重要。在这项工作中,我们探讨了一个核心问题,变换器模型能否像MobileNet一样快速运行并保持类似的大小?
2024-09-18 19:02:21 989
原创 General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
传统的OCR系统(OCR-1.0)越来越无法满足人们对智能处理人造光学字符的需求。在本文中,我们将所有人造光学信号(例如,普通文本、数学/分子公式、表格、图表、乐谱,甚至是几何形状)统称为“字符”,并提出了通用OCR理论以及一个优秀的模型,即GOT,以促进OCR-2.0的到来。GOT拥有5.8亿参数,是一个统一的、优雅的、端到端的模型,由高压缩编码器和长上下文解码器组成。作为一个OCR-2.0模型,GOT可以在各种OCR任务下处理上述所有“字符”。
2024-09-18 09:03:32 968
原创 OCR 通用端到端模型GOT
在人工智能领域,光学字符识别(OCR)技术已经取得了显著的进展。随着技术的不断进步,我们正迈向OCR 2.0时代。本文将介绍由Vary团队开发的通用端到端模型GOT,这一模型在OCR领域具有革命性的潜力。
2024-09-14 18:43:17 1308
原创 Open-Vocabulary SAM: 分割并交互式识别两万类别。
摘要CLIP和Segment Anything Model(SAM)是杰出的视觉基础模型(VFMs)。SAM在多个领域的分割任务中表现出色,而CLIP以其零样本识别能力而闻名。本文深入探索了将这两种模型整合到一个统一框架中。具体来说,我们介绍了Open-Vocabulary SAM,这是一个受SAM启发的模型,旨在同时进行交互式分割和识别,利用两个独特的知识迁移模块:SAM2CLIP和CLIP2SAM。前者通过蒸馏和可学习的变换器适配器将SAM的知识适应到CLIP中,而后者将CLIP的知识转移到SAM中,增
2024-09-10 19:48:00 894
原创 Sapiens:人类视觉模型的基础
我们介绍了 Sapiens,这是一个针对四个基本的以人为中心的视觉任务的模型系列 - 二维姿态估计、身体部位分割、深度估计和表面法线预测。我们的模型原生支持1K高分辨率推理,并且通过简单地对超过3亿张野外人类图像上预训练的模型进行微调,非常容易适应个别任务。我们观察到,在相同的计算预算下,对精选的人类图像数据集进行自监督预训练可以显著提高多样化的以人为中心的任务的性能。产生的模型即使在标记数据稀缺或完全合成的情况下,也表现出对野外数据的显著泛化能力。
2024-09-09 21:08:24 561
原创 SAM 2:分割图像和视频中的任何内容
我们提出了“Segment Anything Model 2”(SAM 2),这是一种基础模型,旨在解决图像和视频中的可提示视觉分割问题。我们构建了一个数据引擎,该引擎通过用户交互改进模型和数据,以收集迄今为止最大的视频分割数据集。我们的模型采用带有流式内存的简单变换器架构,适用于实时视频处理。使用我们的数据进行训练的SAM 2在广泛的任务中表现出色。在视频分割方面,我们观察到比先前方法更高的准确性,同时所需的交互次数减少了3倍。
2024-09-08 08:35:56 783
原创 SAM2(Segment Anything Model 2)新一代分割一切大模型实战总结
Segment Anything Model 2(SAM 2)作为Meta公司发布的Segment Anything Model(SAM)的升级版本,在图像和视频分割领域展现出了显著的优点和特性。论文连接:https://arxiv.org/pdf/2408.00714。
2024-09-05 19:33:49 1496
原创 GCViT实战:使用GCViT实现图像分类任务(一)
EMA是一种加权移动平均技术,其中每个新的平均值都是前一个平均值和当前值的加权和。在深度学习中,EMA被用于模型参数的更新,以减缓参数在训练过程中的快速波动,从而得到更加平滑和稳定的模型表现。
2024-09-03 05:49:04 1200
原创 Unified-IoU:用于高质量对象检测
目标检测是计算机视觉领域的重要部分,而目标检测的效果直接由预测框的回归精度决定。作为模型训练的关键,交并比(IoU,Intersection over Union)极大地展示了当前预测框与真实框之间的差异。后续研究人员不断在IoU中加入更多考量因素,如中心距离、纵横比等。然而,仅仅细化几何差异存在上限;新的考量指标与IoU本身之间存在潜在联系,两者之间的直接加减可能导致“过度考量”的问题。基于此,我们提出了一种新的IoU损失函数,称为统一IoU(UIoU),它更关注于不同质量预测框之间的权重分配。
2024-09-02 20:32:23 955
原创 在视觉转换器中,每个阶段你只需要更少的注意力
摘要视觉转换器(Vision Transformers,ViTs)的出现标志着计算机视觉领域的一次重大范式转变。ViTs通过自注意力模块捕获图像的全局信息,这些模块在图像块化的标记之间进行点积计算。虽然自注意力模块使ViTs能够捕获长距离依赖关系,但其计算复杂度与标记数量呈二次方增长,这严重阻碍了ViTs的实际应用。此外,深层ViTs中的自注意力机制也容易受到注意力饱和问题的影响。因此,我们反对在每一层中计算注意力分数的必要性,并提出了少注意力视觉转换器(Less-Attention Vision Tra
2024-08-26 20:10:31 923
原创 LaViT:Less-Attention Vision Transformer的特性与优点
随着计算机视觉领域的发展,视觉Transformer(ViTs)逐渐成为一项重要技术。尽管ViTs在捕捉图像中的长距离依赖关系方面表现出色,但其沉重的计算负担和潜在的注意力饱和问题一直是实际应用的障碍。为解决这些问题,微软提出了Less-Attention Vision Transformer(LaViT),旨在通过引入一种新的注意力机制来提升视觉Transformer的效率和性能。
2024-08-26 08:26:06 1022 1
原创 全局上下文视觉转换器(Global Context Vision Transformers)
我们提出了全局上下文视觉转换器(GC ViT),这是一种新颖的架构,旨在提高计算机视觉中的参数和计算利用率。我们的方法利用全局上下文自注意力模块与标准的局部自注意力相结合,以有效且高效的方式对长程和短程空间交互进行建模,而无需执行昂贵的操作,如计算注意力掩码或移动局部窗口。此外,我们还解决了ViT中归纳偏差缺失的问题,并提出在我们的架构中利用修改后的融合倒置残差块。我们提出的GC ViT在图像分类、目标检测和语义分割任务中均取得了最先进的结果。
2024-08-24 21:05:29 793
原创 pytorch,半精度判断,半精度和全精度之间的转化。
在PyTorch中,判断一个张量(Tensor)x是否是半精度(即类型)的,你可以使用x.dtype属性来获取张量的数据类型,然后将其与进行比较。在这个例子中,x被创建为半精度()的张量,而y被创建为全精度()的张量。通过比较它们的dtype属性与,我们可以判断它们是否是半精度的。dtype属性返回的是一个对象,它是PyTorch中用于表示数据类型的一个枚举类。通过将dtype属性与(或任何其他值)进行比较,你可以判断任何PyTorch张量的数据类型。
2024-08-22 23:00:00 534
原创 FouriDown: Factoring Down-Sampling into Shuffling and Superposing
为了克服这种偏差限制,我们提出了一种在傅里叶域中的新型下采样范式,简称FouriDown,它统一了现有的下采样技术。然而,根据信号采样定理,现有的下采样技术,如步长卷积、高斯下采样和最近邻下采样[1,4,5,6],不可避免地降低了离散信号的采样频率,导致高频信号被意外地折叠到低频区域,从而产生频率混叠现象。因此,如图1所示,我们致力于将不同的下采样方法统一起来,并实现一种最优的方法,即在傅里叶域中通过可学习和上下文自适应的参数化函数来统一下采样建模规则。在对应的角落位置上进行操作,而理想低通滤波器则利用。
2024-08-22 22:22:29 827
原创 注意力机制中的三种掩码技术及其PyTorch实现
在深度学习中,特别是处理序列数据时,注意力机制是一种非常关键的技术,广泛应用于各种先进的神经网络架构中,如Transformer模型。为了确保模型能够正确处理序列数据,掩码技术发挥了重要作用。本文将介绍三种常见的掩码技术:填充掩码(Padding Mask)、序列掩码(Sequence Mask)和前瞻掩码(Look-ahead Mask),并提供相应的PyTorch代码实现。
2024-08-22 20:00:00 456
原创 Improving Point-based Crowd Counting and Localization Based on Auxiliary Point Guidance
摘要。由于人群计数和定位在计算机视觉中的广泛应用,它们变得日益重要。虽然基于点的策略已被广泛用于人群计数方法中,但它们面临一个重大挑战,即缺乏有效的学习策略来指导匹配过程。这一缺陷导致将点建议匹配到目标点的过程中存在不稳定性,从而对整体性能产生不利影响。为了解决这一问题,我们引入了一种有效的方法来稳定基于点的方法中的建议-目标匹配。我们提出了辅助点引导(APG)来为建议的选择和优化提供清晰有效的指导,从而解决匹配不确定性的核心问题。此外,我们还开发了隐式特征插值(IFI)方法,以在多种人群场景中实现自适应特
2024-08-21 22:45:00 455
原创 error: failed to push some refs to ‘https://gitlab.xxxx.org.cn/xxxx/xxxxx.git‘ hint: Updates were re
应该是,要先拉一下代码,再推一次代码,拉代码使用git pull。其中“-f”是覆盖提交的参数。
2024-08-20 23:30:00 257
原创 github 增加一个分支 并将代码上传到分支
在GitHub上增加一个分支并将代码上传到该分支是一个常见的操作,特别是在进行新功能开发、修复bug或者实验性修改时。
2024-08-20 23:30:00 357
原创 ECCV 2024亮点:APGCC技术刷新人群计数与定位的SOTA
APGCC技术的提出,不仅为人群计数和定位领域带来了新的突破,也为计算机视觉技术的进一步发展提供了新的思路。随着技术的不断进步,我们期待APGCC在未来的智能监控和城市管理等方面发挥更大的作用。APGCC论文APGCC主页如果你对这项技术感兴趣,或者想要了解更多关于计算机视觉的最新研究,不妨关注我们的公众号。我们将为你提供更多AI/CV领域的重磅干货,让你第一时间掌握行业动态。
2024-08-20 21:30:00 981
原创 error: failed to push some refs to ‘https://gitlab.bdnrc.org.cn/ganzhi/cv_algo_program.git‘ hint: Up
指令:git remote add origin 远程库地址。不存在origin远程仓库。
2024-08-20 20:45:00 133
原创 Python中的join()方法:线程与进程的异同分析
join()是Python中线程()和进程()对象的一个方法。它的作用是让当前执行线程或进程等待调用join()的线程或进程结束。这在同步程序执行流程中非常有用。
2024-08-19 19:45:00 1126
原创 关于MMCV的奇葩错误
项目中用到了MMCV,Pytorch的版本是1.13.1,所以不能安装太高的版本。记录一下遇到的奇葩问题,大家有遇到的,可以按照我的方法试试,更换一下安装包的版本。如果解决不了,那我也没有办法!发现不能解决问题,反而一直在重启进程,被Killed后,显存还是被占用。后来,我觉得可能是MMCV版本的问题,我改成了新版本。这明明在本地都没有问题,为啥到服务器就有问题了呢?结果出现了版本不兼容的问题。安装完成后就可以正常运行。
2024-08-16 19:00:00 149
原创 python 使用正则表达式判断图片路径是否是超链接
在Python中,判断一个给定的字符串(假设为图片路径)是否是网页链接(URL),你可以通过检查该字符串是否符合URL的基本格式来实现。虽然这个方法不能保证链接一定指向图片,但它能判断该字符串是否是一个有效的网页链接。然而,它不能确保该URL是有效的(例如,域名可能不存在,或者IP地址可能无法访问)。如果你的目的是确保URL不仅格式正确,而且指向一个图片,那么你需要进行额外的HTTP请求来检查响应的内容类型(例如,通过。函数,它可以用来解析URL,但直接用来判断一个字符串是否为URL可能不够直观。
2024-08-14 20:15:00 399
原创 UserWarning: On January 1, 2023, MMCV will release v2.0.0, in which it will remove components relate
在使用mmcv-full的时候出现了下面的警告,但是安装2.0以上版本又会出现不兼容的问题。
2024-08-14 06:13:01 295
原创 TCFormer:通过标记聚类Transformer实现视觉识别
摘要Transformer在计算机视觉领域得到了广泛应用,并取得了显著成功。大多数最先进的方法将图像分割成规则网格,并用视觉标记表示每个网格区域。然而,固定的标记分布忽略了不同图像区域的语义含义,导致性能次优。为了解决这个问题,我们提出了标记聚类Transformer(TCFormer),它基于语义含义生成动态视觉标记。我们的动态标记具有两个关键特性:(1)使用相同的视觉标记表示具有相似语义含义的图像区域,即使这些区域不相邻;(2)专注于具有有价值细节的区域,并使用精细的标记来表示它们。
2024-08-09 06:54:59 925
原创 module ‘pkgutil‘ has no attribute ‘ImpImporter‘. Did you mean: ‘zipimporter‘?
使用 pip uninstall -y setuptools 来卸载,再通过 pip install setuptools 重新安装即可。
2024-08-08 10:40:26 296
原创 Crowd-SAM:SAM作为拥挤场景中目标检测的智能标注器
问题定义。如图1所示,我们的目标是在标记数据很少的情况下,检测拥挤场景中的对象(如行人)。我们将此问题表述为一类小样本检测任务。常见的小样本流程是将数据分为基础集和新集。不同的是,我们直接使用目标类的数据进行模型训练,因为基础模型已经在大规模数据上进行了训练。特别是,我们采用分割掩码作为中间结果,这些结果可以很容易地转换为边界框。在训练和评估过程中,仅提供边界框标注。对SAM自动生成器的初步研究。提示数量会影响SAM的性能,我们针对拥挤场景分析了这一问题。
2024-08-06 22:00:00 1041
原创 python 线程池处理文件
使用多线程来加速文件复制的过程,可以使用Python的concurrent.futures模块中的ThreadPoolExecutor。为了使用多线程来加速文件复制的过程,你可以使用Python的模块中的。这个模块允许你轻松地并行执行多个任务。
2024-08-01 21:15:00 342
原创 手把手教你实现基于丹摩智算的YoloV8自定义数据集的训练、测试。
摘要DAMODEL(丹摩智算)是专为AI打造的智算云,致力于提供丰富的算力资源与基础设施助力AI应用的开发、训练、部署。官网链接:https://www.damodel.com/console/overview。
2024-07-31 12:30:18 4745 10
原创 LeYOLO,一种用于目标检测的新型可扩展且高效的CNN架构
倒置瓶颈(Inverted Bottleneck),最初由MobileNetV2[25, 54]提出,因其轻量级计算和简单性而成为许多最新先进模型[62, 63, 18, 65, 43, 38, 69]的精髓。在FLOP计算方面,要实现超越深度可分离卷积的效果水平是复杂的。逐点卷积解决了缺少通道间相关性的问题,这是无法回避的难题。然而,在我们的倒置瓶颈块实验中,我们观察到优化通道数可以有效地减少计算需求,特别是在大空间特征图尺寸下。实际上,如果一个块的扩展比等于一,或者通过连接效应,输入通道Cin。
2024-07-30 21:45:00 762
原创 权重共享的理解
在PyTorch中,权重共享是通过将多个层或模块的参数设置为同一个变量来实现的。这意味着这些层或模块在训练过程中会更新相同的权重,从而共享相同的特征表示。假设我们想要构建一个简单的网络,其中两个全连接层共享相同的权重和偏置。# 如果提供了权重和偏置,则直接使用else:else:创建一个共享权重的网络# 初始化权重和偏置# 创建两个共享权重的全连接层。
2024-07-30 18:12:52 1166
原创 GroupMamba:参数高效且准确的组视觉状态空间模型
状态空间模型(SSM)的最新进展展示了在具有次二次复杂性的长距离依赖建模中的有效性能。然而,纯基于SSM的模型在稳定性和在计算机视觉任务中实现最佳性能方面仍面临挑战。本文解决了将基于SSM的模型扩展到计算机视觉领域的挑战,特别是大型模型尺寸的不稳定性和低效性。为此,我们引入了一个调制组曼巴层(Modulated Group Mamba layer),该层将输入通道分为四组,并独立地对每组应用我们提出的基于SSM的高效视觉单选择扫描(VSSS)块,每个VSSS块在四个空间方向之一中进行扫描。
2024-07-29 21:30:00 435
原创 GroupMamba实战:使用GroupMamba实现图像分类任务(一)
EMA是一种加权移动平均技术,其中每个新的平均值都是前一个平均值和当前值的加权和。在深度学习中,EMA被用于模型参数的更新,以减缓参数在训练过程中的快速波动,从而得到更加平滑和稳定的模型表现。
2024-07-29 17:31:40 1320
EfficientFormer实战:使用EfficientFormerV2实现图像分类任务
2024-09-19
GCViT实战:使用GCViT实现图像分类任务
2024-09-02
CAS-ViT实战:使用CAS-ViT实现图像分类任务
2024-08-22
GroupMamba实战:使用GroupMamba实现图像分类任务
2024-07-31
EfficientMod实战:使用EfficientMod实现图像分类任务
2024-07-20
RDNet实战:使用RDNet实现图像分类任务
2024-07-09
YoloV8改进策略-注意力篇-Block改进-附结构图-自研基于xLSTM的注意力
2024-07-01
StarNet实战:使用StarNet实现图像分类任务
2024-06-17
Vision-LSTM(ViL)实战:使用Vision-LSTM(ViL)实现图像分类任务
2024-06-11
MobileNetV4实战:使用MobileNetV4实现图像分类任务
2024-06-09
EfficientVMamba实战:使用 EfficientVMamba实现图像分类任务
2024-04-02
Hiera-MAE-Demo.zip
2024-03-05
YoloV8改进策略:CoordConv给卷积加上坐标,从而使其具备了空间感知能力.zip
2024-02-21
MogaNet实战:使用MogaNet实现图像分类任务
2024-02-12
YoloV8改进-三元注意力,小参数大能力,即插即用,涨点自如
2024-02-05
Vim实战:使用Vim实现图像分类任务
2024-01-30
FlashInternImage实战:使用FlashInternImage实现图像分类任务
2024-01-27
UniRepLKNet实战:使用UniRepLKNet实现图像分类任务
2024-01-13
TransXNet实战:使用TransXNet实现图像分类任务
2023-12-19
Hiera实战:使用Hiera实现图像分类任务
2023-12-07
RevCol实战:使用RevCol实现图像分类任务
2023-11-25
FastVIT实战:使用FastVIT实现图像分类
2023-08-21
VGGNet剪枝实战:使用VGGNet训练、稀疏训练、剪枝、微调等,剪枝出只有3M的模型
2023-08-07
InceptionNext实战:使用InceptionNext实现图像分类任务
2023-06-26
VanillaNet实战:使用VanillaNet实现图像分类
2023-06-13
SeaFormer实战:使用SeaFormer实现图像分类任务
2023-04-29
FasterNet实战:使用FasterNet实现图像分类任务
2023-03-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人