- 博客(808)
- 资源 (3)
- 收藏
- 关注
转载 D-FINE:在DETR中将回归任务作为分布来细化
导读我们的方法显著增强了各种DETR模型的性能,最多提高了5.3% 的AP,而额外的参数和训练成本几乎可以忽略不计。摘要我们介绍了D-FINE,这是一种强大的实时目标检测器,通过重新定义DETR模型中的边界框回归任务实现了卓越的定位精度。D-FINE包含两个关键组件:细粒度分布精炼(Fine-grained Distribution Refinement, FDR)和全局最优定位自蒸馏(Globa...
2025-01-14 10:01:25
42
转载 InfoBatch:通过无偏数据裁剪来加速并实现无损训练
导读作为一个即插即用且架构无关的框架,InfoBatch在分类、语义分割、视觉预训练以及指令微调任务上始终能够获得无损训练结果。摘要数据裁剪旨在以较低的整体成本获得无损性能。一种常见的方法是过滤掉对训练贡献较小的样本。然而,这种方法可能会导致相对于原始数据的梯度期望偏差。为了解决这个问题,我们提出了InfoBatch,这是一个新颖的框架,旨在通过无偏动态数据裁剪实现无损训练加速。具体来说,Info...
2025-01-13 10:00:58
28
转载 DEIM: 在DETR中使用多对一匹配的策略加快收敛
导读与RT-DETRv2配合使用时,DEIM仅需在NVIDIA 4090 GPU上训练一天就能达到53.2%的平均精度(AP)。摘要我们介绍了一种名为DEIM的创新且高效的训练框架,旨在加速基于Transformer架构(如DETR)在实时目标检测中的收敛速度。为了缓解DETR模型中一对一(O2O)匹配所固有的稀疏监督问题,DEIM采用了密集的一对一(Dense O2O)匹配策略。该方法通过引入额...
2025-01-03 09:01:28
93
转载 Frozen-DETR: 使用冻结的基础大模型来增强DETR的能力
导读通过这种新颖的范式,我们在COCO验证集上,使用R50作为检测器的主干网络并训练12个epoch后,分别整合一个或两个基础模型,将最先进的基于查询的检测器DINO的AP(平均精度)从49.0%提升到了51.9%(+2.9% AP),进一步提升到了53.8%(+4.8% AP)摘要最近的视觉基础模型(vision foundation models)能够提取通用表示,并在各种任务中展现出令人印象...
2024-12-24 09:00:22
36
转载 基于拓扑集合约束的动态蛇形卷积用于准确分割管状结构,如血管和道路
导读在本研究中,我们注意到管状结构的特殊性,并利用这一知识指导我们的DSCNet同时在三个阶段增强感知能力:特征提取、特征融合和损失约束。摘要准确分割拓扑管状结构,如血管和道路,在各个领域中至关重要,确保了下游任务的准确性和效率。然而,许多因素使得这一任务变得复杂,包括细小的局部结构和多变的整体形态。在本研究中,我们注意到管状结构的特殊性,并利用这一知识指导我们的DSCNet同时在三个阶段增强感知...
2024-11-11 12:00:35
117
转载 LDConv:线性可变形卷积,将参数数量增长修正为线性增长
导读LDConv将标准卷积和可变形卷积的参数数量增长趋势修正为线性增长。摘要基于卷积操作的神经网络在深度学习领域取得了显著的成果,但标准卷积操作存在两个固有的缺陷。一方面,卷积操作局限于局部窗口,因此无法捕捉来自其他位置的信息,并且其采样形状固定不变。另一方面,卷积核的大小固定为k×k,即固定的正方形形状,参数的数量往往随着尺寸的增大而呈平方增长。虽然可变形卷积(Deformable Conv)解...
2024-11-07 12:00:47
1203
转载 基于拓扑几何约束的动态蛇形卷积用于管状结构分割
导读在本研究中,我们注意到管状结构的特殊性,并利用这一知识指导我们的DSCNet同时在三个阶段增强感知能力:特征提取、特征融合和损失约束。摘要准确分割拓扑管状结构,如血管和道路,在各个领域中至关重要,确保了下游任务的准确性和效率。然而,许多因素使得这一任务变得复杂,包括细小的局部结构和多变的整体形态。在本研究中,我们注意到管状结构的特殊性,并利用这一知识指导我们的DSCNet同时在三个阶段增强感知...
2024-11-06 12:04:38
136
转载 使用不确定性来进行大规模数据集裁剪
导读我们提出了一种简单而有效的数据集裁剪方法,该方法通过探索预测的不确定性以及训练的动力学特性。广泛的实验结果表明,我们的方法超越了现有技术,并在ImageNet-1K和ImageNet-21K上实现了75%的无损压缩比。摘要许多学习任务的最先进水平,例如图像分类,都是通过收集更大的数据集并在此基础上训练更大的模型来提升的。然而,随之而来的计算成本增加正变得难以承受。在本文中,我们研究了如何对大规...
2024-11-05 12:04:37
68
转载 数据裁剪在目标ReID上的应用方法,减少35%数据量,几乎不影响准确率(<0.1%)...
导读通过充分利用训练过程中的logit历史记录,我们的方法提供了一个更准确和全面的量化样本重要性的指标,同时还能纠正错误标记的样本和识别异常值。此外,我们的方法具有很高的效率,相比于现有方法,它能够将重要性评分估计的成本降低10倍。摘要先前的研究已经证明,在训练过程中,并非数据集中的每个样本都具有同等的重要性。数据裁剪的目标是在移除较不重要或信息量较少的样本的同时,仍能达到与使用原始(未裁剪)数据...
2024-11-04 12:02:12
121
转载 并不是所有数据都有用:一种端到端的自适应数据集裁剪框架,可以提升模型表现和效率...
导读即使在裁剪高达10-30%的训练数据之后,AdaPruner仍能显著提高模型性能。值得注意的是,这些改进伴随着内存和计算成本的大幅节省。定性和定量实验表明,AdaPruner在很大程度上优于其他最先进的数据集裁剪方法。摘要尽管深度神经网络在各种任务中展现了卓越的表现,它们通常需要大量的训练数据。由于现实世界数据集中存在冗余和偏差,并非所有训练数据都能对模型性能产生贡献。为了解决这一问题,引入了...
2024-11-01 12:02:53
84
转载 数据集裁剪:通过检查泛化能力的影响来裁剪数据集
导读所提出的方法在CIFAR-10数据集上修剪了40%的训练样本,使收敛时间减半,同时测试准确率仅降低了1.3%,这一表现优于之前的基于评分的样本选择方法。摘要深度学习的巨大成功在很大程度上依赖于日益增长的训练数据规模,这带来了巨大的计算和基础设施成本。这引发了一些关键问题:所有的训练数据是否都对模型的性能有贡献?每个单独的训练样本或子训练集如何影响模型的泛化能力?如何从整个训练数据中构建最小的子...
2024-10-31 12:02:52
81
转载 超越scaling laws:通过数据裁剪来降低资源消耗,同时不影响甚至提升模型效果...
导读本文关注的是错误率随数据集规模的变化,并展示理论上如果能够获得一个高质量的数据裁剪度量标准,该标准可以对应该丢弃哪些训练样本以达到任何裁剪后的数据集大小进行排序,我们就可以超越幂律缩放,甚至可能将其减少到指数缩放。Beyond neural scaling laws: beating power law scaling via data pruning摘要广泛观察到的神经网络缩放定律表明,随着...
2024-10-30 12:03:36
113
转载 ESOD:在高分辨率图上进行小目标检测的高效方法
导读在本文中,我们提出了重用检测器主干网络来进行特征级别的目标搜索和区域切割的方法,这可以避免冗余的特征提取并降低计算成本。结合一个稀疏检测头,我们能够对高分辨率输入(例如1080P或更高)上的小物体进行检测,从而实现更高的性能。摘要扩大输入图像是促进小物体检测的一种直接且有效的方法。然而,简单的图像放大在计算和GPU内存方面都代价高昂。实际上,小物体通常稀疏分布并且局部聚类。因此,大量的特征提取...
2024-10-29 12:00:19
405
转载 理解DETR应用到自然图像和医疗图像之间的差异
导读我们的分析表明,来自自然图像领域的常用设计选择,如复杂的编码器架构、多尺度特征融合、查询初始化和迭代边界框精炼,并未改善,有时甚至削弱了医学影像中的目标检测性能。相反,更简单和更浅层的架构通常能达到等同或更优的结果。摘要基于Transformer的检测器在处理自然图像的计算机视觉任务中已经取得了成功。这类模型的代表,如可变形DETR,是通过复杂的工程策略优化的,这些策略专门针对自然场景的典型特...
2024-10-28 12:00:50
97
转载 Grounding DINO:将DINO与有基础的预训练相结合以实现开放集目标检测
导读Grounding DINO在COCO零样本检测基准上达到了52.5的平均精度(AP)。它在ODinW零样本基准上创下了平均26.1 AP的新纪录。摘要在本文中,我们开发了一种开集目标检测器,称为Grounding DINO,通过将基于Transformer的检测器DINO与基于grounded的预训练相结合,能够根据人类输入(如类别名称或指代表达)检测任意目标。开集目标检测的关键解决方案是在...
2024-10-25 12:00:18
612
转载 通用OCR理论:使用统一的端到端模型构建OCR-2.0,可处理普通文本、数学/分子公式、表格、图表、乐谱,甚至是几何形状...
导读作为OCR-2.0模型,GOT能够在各种OCR任务中处理上述所有类型的“字符”。包括:普通文本、数学/分子公式、表格、图表、乐谱,甚至是几何形状。摘要传统的光学字符识别系统(OCR-1.0)越来越难以满足人们对人造光学字符智能处理的需求。在本文中,我们将所有的人造光学信号(例如,普通文本、数学/分子公式、表格、图表、乐谱,甚至是几何形状)统称为“字符”,并提出了通用OCR理论以及一个优秀的模型...
2024-10-22 12:02:29
206
转载 语义分割25种损失函数综述和展望
导读本综述提供了对25种用于图像分割的损失函数的全面且统一的回顾。我们提供了一种新颖的分类法,并详细审查了这些损失函数如何在图像分割中被定制和利用,强调了它们的重要特征和应用,并进行了系统的分类。摘要语义图像分割,即将图像中的每个像素分类到特定的类别中,是许多视觉理解系统中的重要组成部分。作为评估统计模型性能的主要标准,损失函数对于塑造基于深度学习的分割算法的发展以及提高其整体性能至关重要。为了帮...
2024-10-18 18:00:50
425
转载 POINTOBB-V2:更简单,更快速,更强大的单点监督定向目标检测
导读广泛的对比实验表明,我们的方法比先前的最先进方法PointOBB在DOTAv1.0/v1.5/v2.0数据集上实现了15.58倍的训练速度提升和11.60%/25.15%/21.19%的精度提升。摘要单点监督定向目标检测已经引起了关注并在社区内取得了初步进展。与依赖一次性样本或强大的预训练模型(如SAM)的方法不同,PointOBB因其无先验特征而展现出潜力。在本文中,我们提出了PointOB...
2024-10-15 12:01:00
447
转载 RT-DETRv3:使用启发式密集正样本监督信号辅助训练
导读RT-DETRv3 显著优于现有的实时检测器,包括RT-DETR系列和YOLO系列。例如,RT-DETRv3-R18 在保持相同延迟的情况下,实现了48.1%的AP(比RT-DETR-R18/RT-DETRv2-R18 提高了1.6%/1.4%),并且只需一半的训练周期即可达到相当的性能。摘要RT-DETR 是首个实时的基于Transformer的端到端目标检测器。其高效性来源于框架设计和匈牙...
2024-10-09 12:00:39
354
转载 LowFormer: 为硬件高效设计的卷积Transformer主干网络
导读我们将宏观设计与微观设计相结合,创建了一种新的硬件高效骨干网络家族,称为LowFormer。LowFormer在吞吐量和延迟方面实现了显著的速度提升,同时达到了与当前最先进的高效骨干网络相似或更好的精度。摘要高效视觉骨干网络的研究正在演进为卷积与Transformer模块的混合模型。从架构和组件层面智能地结合这两种方法对于在速度与精度之间取得平衡至关重要。大多数研究集中在最大化精度,并使用MA...
2024-09-29 12:01:14
241
转载 使用AC-YOLOv5进行自动化织物缺陷检测
导读我们提出了一种基于ACYOLOv5的新型纺织缺陷检测方法。将空洞空间金字塔池化(ASPP)模块引入YOLOv5主干网络中,提出了squeeze-and-excitation(CSE)通道注意力模块,并将其引入到YOLOv5主干网络中。摘要面对复杂纺织纹理背景下检测问题以及不同尺寸和类型的缺陷,常用的目标检测网络在处理目标尺寸方面存在局限性,并且其稳定性和抗干扰能力相对较弱。因此,当目标类型更加...
2024-09-26 12:01:13
386
转载 DEYO: 使用YOLO的DETR|逐步训练的策略
导读我们设计了一种创新的训练方法,称为逐步训练(step-by-step training)。具体来说,在训练的第一阶段,我们使用经典的检测器(采用一对多匹配策略预训练)来初始化端到端检测器的骨干网络和颈部网络。在训练的第二阶段,我们将端到端检测器的骨干网络和颈部网络冻结,从而需要从头开始训练解码器。摘要DETRs 的训练范式严重依赖于在 ImageNet 数据集上预训练其骨干网络。然而,图像分类...
2024-09-25 12:01:27
242
转载 DFAM-DETR: 在DETR上加入基于可变形卷积的注意力机制来提升细长物体检测
导读我们提出了一种基于可变形特征的注意力机制(DFAM),以提高可变形DETR对细长物体检测的准确性和效率。摘要物体检测是计算机视觉中最重要方面之一,并在多个领域取得了显著成果。值得注意的是,关于细长物体检测的研究相对较少。卷积神经网络(CNN)广泛应用于物体检测,但由于其固定的几何结构和采样点,在细长物体检测上的表现较差。相比之下,可变形DETR能够获取从全局到局部的特征。尽管它在细长物体检测的...
2024-09-24 12:00:25
305
转载 对细长物体检测中的问题的诊断和提升方法
导读我们在本工作中系统地研究了细长物体检测的问题。为此,建立了一个分析框架,设计了专门的基准测试和评估协议,以便可以检查和比较不同的算法和模块。我们的研究表明,有效的细长物体检测并不依赖于(1)基于锚点的定位;(2)特别设计的框表示方法。相反,提高细长物体检测的关键在于特征适应。摘要在本文中,我们关注的是具有极端长宽比的特定类型物体的检测,即细长物体。在现实世界的情景中,细长物体实际上非常常见,并...
2024-09-23 12:00:36
391
转载 一种细长物体的自适应标签分配策略
导读本文提出了一种适用于细长物体检测的自适应标签分配方案。具体来说,提出了中心轴先验用于正训练样本,使正训练样本的最终位置分布更加合理。其次,建议进一步增加细长物体的正训练样本数量,以解决细长物体与常规物体之间正训练样本不平衡的问题。摘要细长物体具有较大的纵横比并且通常是定向的,这导致当前通用检测器在细长物体检测任务上的性能较差。因此,本文提出了一种适用于细长物体检测的自适应标签分配方案。具体来说...
2024-09-20 12:00:43
115
转载 在目标检测中大物体的重要性
导读实验表明,对大型物体赋予更大的权重可以提高所有尺寸物体的检测分数,从而整体提升目标检测器的性能(在COCO val 2017数据集上使用InternImage-T模型,小物体检测精度提高2个百分点,中等物体提高2个百分点,大物体提高4个百分点)。摘要目标检测模型是一类重要的机器学习算法,旨在识别并精确定位图像或视频中的物体。然而,由于物体的大小差异以及用于训练的图像和标签的质量,这项任务有时会...
2024-09-19 09:24:08
261
转载 PETDet: 通过增强候选目标来提升二阶段细粒度目标检测的能力
导读带有ResNet-50-FPN的PETDet在FAIR1M-v2.0上的AP达到了48.81%,大幅超越了强大的基线Oriented R-CNN,提升了4.91%。摘要细粒度目标检测(Fine-grained Object Detection, FGOD)在传统目标检测的基础上增加了细粒度识别的能力。在最近的两阶段FGOD方法中,区域提议(region proposal)作为连接检测与细粒度识...
2024-09-18 12:02:10
896
转载 替换一行代码,通过正交映射来增强细粒度目标检测的能力
导读本文介绍了正射映射(OM),这是一种简单而有效的方法,旨在解决FGOD中固有的语义混淆问题。我们的方法可以无缝集成到现有的目标检测框架中,仅需替换一行代码即可。摘要细粒度目标检测(FGOD)是高分辨率航拍图像分析中的一个关键任务。本文介绍了正射映射(OM),这是一种简单而有效的方法,旨在解决FGOD中固有的语义混淆问题。OM通过解耦分类分支最后一层的特征与基于类别的正交向量基,在特征空间中引入...
2024-09-14 12:00:22
337
转载 TinyDet: 轻量级通用小目标物体检测器
导读小目标检测性能尤为出色,TinyDet-S和TinyDet-M的AP值是ThunderNet的两倍。摘要小目标检测要求检测头在图像特征图上扫描大量位置,这对计算和能量效率型轻量级通用检测器来说极其困难。为了在有限的计算资源下准确检测小目标,我们提出了一种计算复杂度极低的两阶段轻量级检测框架,并将其命名为TinyDet。该框架支持高分辨率特征图用于密集锚定,以便更好地覆盖小目标,提出了稀疏连接卷...
2024-09-13 12:00:20
635
转载 使用全卷积网络来解析直线的实时直线检测器
导读我们介绍了一种单阶段的全卷积线条解析网络(F-Clip),该网络能够从图像中检测线条段。所提出的网络非常简单且灵活,并且可以根据不同应用在速度与精度之间做出优雅的权衡。摘要我们介绍了一种单阶段的全卷积线条解析网络(F-Clip),该网络能够从图像中检测线条段。所提出的网络非常简单且灵活,并且可以根据不同应用在速度与精度之间做出优雅的权衡。F-Clip通过预测每条线的中心位置、长度和角度来端到端...
2024-09-12 12:01:15
424
转载 ELSD: 高效的直线分割检测器和描述器
导读我们提出了新颖的高效线段检测与描述器,用于同时在图像中检测线段并提取其描述符。我们设计了一种单阶段紧凑型模型,并提出使用中点、角度和长度作为线段的最小化表示形式,这也保证了中心对称性。摘要我们提出了新颖的高效线段检测与描述器(Efficient Line Segment Detector and Descriptor,简称ELSD),用于同时在图像中检测线段并提取其描述符。不同于传统流水线分别...
2024-09-11 12:00:45
510
转载 LW-DETR: 用轻量Transform来代替YOLO的实时目标检测
导读在本文中,我们介绍了一种轻量级检测Transformer(LW-DETR),其在实时目标检测方面优于YOLO系列模型。该架构简单地堆叠了一个ViT编码器、一个投影器和一个浅层DETR解码器。摘要在本文中,我们介绍了一种轻量级检测Transformer(LW-DETR),其在实时目标检测方面优于YOLO系列模型。该架构简单地堆叠了一个ViT编码器、一个投影器和一个浅层DETR解码器。我们的方法利...
2024-09-10 12:00:37
704
转载 DQ-DETR:使用动态query数量的DETR来做小目标检测
导读使用固定数量查询的DETR类方法使得它们不适合应用于大多包含微小目标且不同图像之间实例数量不平衡的航空数据集。DQ-DETR利用类别计数模块预测的密度图来动态调整目标查询的数量及其位置信息。摘要尽管之前的DETR类方法在通用目标检测任务上取得了成功,但对于微小目标检测来说仍然是一个挑战,因为这些方法中的目标查询的位置信息并未针对检测微小目标进行定制,而微小目标的尺度远小于常规目标。此外,使用固...
2024-09-09 12:00:42
997
转载 RT-DETRv2技术报告:修改训练策略,无损提升性能
导读在可变形注意力中为不同尺度的特征设置不同的采样点数,提出了一种可选的离散采样算子来替代 RT-DETR 中特有的 grid_sample 算子,提出了动态数据增强和自适应超参数定制,以在不损失速度的情况下提升性能。摘要在本报告中,我们介绍了RT-DETRv2,这是一种改进的实时检测Transformer(RT-DETR)。RT-DETRv2 在先前的实时检测器 RT-DETR 的基础上进行了改...
2024-09-06 12:05:08
1330
转载 小目标检测:使用去噪FPN的Transformer RCNN
导读在本文中,我们提出了一种新的框架,即去噪特征金字塔网络结合Trans R-CNN(简称DNTR),以提升微小物体检测的性能。摘要尽管计算机视觉领域取得了显著进展,但微小物体的精确检测仍然是一个重大挑战,这主要是由于这些物体在图像数据中的像素表示极为有限。这一挑战在地质科学和遥感领域尤为突出,因为高保真度的微小物体检测可以促进从城市规划到环境监测等一系列应用的发展。在本文中,我们提出了一种新的框...
2024-09-04 12:00:13
919
转载 通过学习采样来学习上采样
导读我们提出了DySample,一个极其轻量级且高效的动态上采样器。在五个密集预测任务上超越了其他上采样器,包括语义分割、目标检测、实例分割、全景分割和单目深度估计。摘要我们提出了DySample,一个极其轻量级且高效的动态上采样器。虽然最近基于内核的动态上采样器如CARAFE、FADE和SAPA展现出了显著的性能提升,但它们引入了大量的计算负担,主要是由于耗时的动态卷积以及用于生成动态内核的额外...
2024-09-03 12:00:31
524
转载 小目标物体检测方法:基于距离相似度的标签分配策略
导读该策略不仅考虑了位置和形状的相似性,而且还能够自适应地学习超参数,确保它可以适应不同的数据集及数据集中各种大小的物体。摘要小物体检测正成为计算机视觉中最具挑战性的任务之一,这是因为物体尺寸有限以及信息不足。标签分配策略是影响物体检测准确性的一个关键因素。尽管存在一些针对小物体有效的标签分配策略,但大多数策略侧重于降低对边界框的敏感度以增加正样本的数量,并且具有一些需要设置的固定超参数。然而,更...
2024-09-02 12:01:07
555
原创 Relation DETR:探索显式的位置先验关系在目标检测中的作用
导读在DETR中加入位置关系先验,在相同的配置下,Relation-DETR相比于DINO实现了显著的性能提升(+2.0% AP),并在COCO val2017上达到了最先进的性能(1×设置下达到51.7% AP,2×设置下达到52.1% AP),并且具有更快的收敛速度(仅训练2个周期即可达到超过40% AP)。摘要本文提出了一种增强DETR(DEtection TRansformer)收敛性和性...
2024-08-30 12:01:22
2832
转载 Hyper-YOLO:在目标检测中加入超图计算
导读使用超图计算的方法来进行高阶特征的交互。摘要我们介绍了一种新的物体检测方法Hyper-YOLO,该方法集成了超图计算来捕捉视觉特征之间的复杂高阶相关性。传统的YOLO模型虽然强大,但在其颈部设计中存在局限性,这限制了跨层级特征的整合以及高阶特征间相互关系的利用。为了解决这些挑战,我们提出了基于超图计算的语义收集与分散框架(Hypergraph Computation Empowered Sem...
2024-08-29 13:25:53
1284
转载 Unified-IoU:进行高质量的目标检测
导读我们提出了一种新的IoU损失函数,称为Unified-IoU(UIoU),该函数更加关注不同质量预测框之间的权重分配。具体来说,通过一种新颖的方式动态转移模型对低质量预测框的关注到高质量预测框上,以增强模型在高精度或密集数据集上的检测性能,并实现训练速度上的平衡。摘要目标检测是计算机视觉领域的重要组成部分,而预测框的回归准确性直接决定了目标检测的效果。作为模型训练的关键,交并比(IoU, In...
2024-08-28 12:01:27
401
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人