- 博客(23)
- 收藏
- 关注
原创 2025 | CVPR LLMDet: LearningStrongOpen-VocabularyObjectDetectorsundertheSupervision of Large Languag
最近的开放词汇检测器借助丰富的区域级标注数据取得了令人瞩目的性能。通过为每张图像生成图像级详细描述,与大型语言模型协同训练的开放词汇检测器能够进一步提升性能。为实现这一目标,本文首先收集了一个数据集——GroundingCap-1M,其中每张图像都配有相关的接地标签和图像级详细描述。利用该数据集,对开放词汇检测器进行微调,训练目标包括标准的接地损失和描述生成损失。借助大型语言模型,为每个感兴趣的区域生成区域级短描述,并为整个图像生成图像级长描述。
2025-12-14 05:46:44
926
原创 arXiv | 2025 Anomaly-Aware YOLO: A Frugal yet Robust Approach to Infrared Small Target Detection
论文作者:Alina Ciocarlana, Sylvie Le Hégarat-Mascleb, Sidonie Lefebvrec发布年份:2025模型代码:即将公开发布期刊:arXiv。
2025-11-30 17:37:12
944
原创 【arXiv2025】Real-Time Object Detection Meets DINOv3
发布期刊:arXiv论文作者:Shihua Huang, Yongjie Hou, , Longfei Liu, Xuanlong Yu, Xi Shen发布年份:2025模型代码:• 我们提出了DEIMv2,它提供了八种模型尺寸,适用于GPU、边缘设备和移动设备部署。• 对于更大的模型,我们利用DINOv3获取强大的语义特征,并引入STA以将其高效集成到实时目标检测中。• 对于超轻量级模型,我们利用专家知识对HGNetv2-B0的深度和宽度进行有效剪枝,以满足严格的计算约束。• 除了骨干网络,
2025-10-24 18:08:48
1076
原创 【CVPR】DEIM: DETR with Improved Matching for Fast Convergence
论文作者:Shihua Huang Zhichao Lu Xiaodong Cun Yongjun Yu Xiao Zhou4 Xi Shen发布年份:2025发布期刊:CVPR模型代码:• 我们提出了DEIM,这是一种用于实时目标检测的简单且灵活的训练框架。• DEIM通过分别利用密集O2O和MAL提高匹配的数量和质量,从而加速收敛。• 借助我们的方法,现有的实时DETR模型在将训练成本减半的同时,还能实现更优性能。具体而言,我们的方法性能超过YOLO系列模型,与D-FINE中的高效模型结合后,
2025-10-24 17:46:00
1184
原创 【CVPR】SAIST: Segment Any Infrared Small Target Model Guided by Contrastive Language-ImagePretraining
论文期刊:CVPR论文作者:Mingjin Zhang, Xiaolong Li, Fei Gao, Jie Guo, Xinbo Gao, Jing Zhang发布年份:2025论文代码:未公开。
2025-10-24 17:04:11
1192
原创 【TNNLS2025】YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-Time Object Detection
论文作者:Yuming Chen , Xinbin Yuan , Jiabao Wang , Ruiqi Wu, Xiang Li , Qibin Hou , Member, IEEE, and Ming-Ming Cheng , Senior Member, IEEE发布年份:2025代码链接:1.MS-Block和全局查询学习(GQL):作者提出了一种新的多分支构建块,称为MS-Block,用于增强多尺度特征学习。它利用全局查询来动态指导跨阶段的空间表示,减少冗余的空间信息,并提高多尺度特征的多样性
2025-10-16 22:21:23
973
原创 【论文阅读Drones2025】YOLO-SMUG: An Efficient and Lightweight Infrared Object Detection Model for Unmanned
论文作者:Xinzhe Luo and Xiaogang Zhu发布年份:2025代码:未公开。
2025-09-26 00:16:24
925
原创 【论文阅读】YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception
YOLO系列模型凭借其卓越的精度和计算效率,在实时目标检测领域占据主导地位。然而,YOLO11及更早版本的卷积架构,以及YOLOv12中引入的基于区域的自注意力机制,均局限于局部信息聚合和成对关联建模,缺乏捕捉全局多对多高阶关联的能力,这限制了其在复杂场景下的检测性能。本文提出了一种精确且轻量的目标检测器YOLOv13。
2025-09-16 22:36:20
2188
原创 【CVPR】DETRs Beat YOLOs on Real-time Object Detection
YOLO 系列由于在速度和精度之间进行了合理的权衡,已成为最受欢迎的实时目标检测框架。然而,作者发现非极大值抑制(NMS)对 YOLO 的速度和精度有负面影响。最近,基于端到端 Transformer 的检测器(DETR,全称为Detection Transformer)为消除 NMS 提供了一种替代方案。尽管如此,高昂的计算成本限制了它们的实用性,并阻碍了它们充分发挥排除 NMS 的优势。在本文中提出了实时检测 Transformer(RT-DETR),据所知,这是首个解决上述困境的实时端到端目标检测器。
2025-09-14 18:04:25
696
原创 【论文阅读】Mamba YOLO: A Simple Baseline for Object Detection with State Space Model
在深度学习技术的快速发展推动下,YOLO系列为实时目标检测器树立了新的标杆。此外,基于Transformer的结构已成为该领域最强大的解决方案,极大地扩展了模型的感受野,并实现了显著的性能提升。然而,这种提升是有代价的,自注意力机制的二次复杂度增加了模型的计算负担。为解决这一问题,我们提出了一种简单而有效的基线方法,称为Mamba YOLO。我们的贡献如下:1)我们提出ODMamba骨干网络引入具有线性复杂度的状态空间模型(SSM),以解决自注意力的二次复杂度问题。
2025-09-03 10:35:58
954
原创 【论文阅读】YOLOv12: Attention-Centric Real-Time Object Detectors
长期以来,增强YOLO框架的网络架构一直至关重要,但尽管注意力机制在建模能力上已被证明具有优越性,相关研究仍集中在基于CNN的改进上。这是因为基于注意力的模型在速度上无法与基于CNN的模型相媲美。本文提出了一种以注意力为核心的YOLO框架,即YOLOv12,该框架在保持与以往基于CNN的框架速度相当的同时,还能充分利用注意力机制带来的性能优势。YOLOv12在精度上超越了所有主流的实时目标检测器,同时速度也具有竞争力。
2025-09-02 18:31:35
1066
原创 VM虚拟机安装ubuntu系统,anaconda,pytorch,pycharm及linux常见命令汇总
本文是使用VM虚拟机安装ubuntu系统,anaconda,pytorch,pycharm的相关教程,后面还有linux常见命令汇总。
2025-08-20 15:06:27
807
原创 【论文阅读】Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism
近年来,YOLO系列模型已成为实时目标检测领域的主流方法。许多研究通过修改架构、扩充数据和设计新的损失函数,将基准提升到了更高水平。然而,我们发现尽管特征金字塔网络(FPN)和路径聚合网络(PANet)有所缓解,先前的模型仍存在信息融合问题。因此,本研究提出了一种先进的聚集-分发(GD)机制,该机制通过卷积和自注意力操作实现。这种新设计的模型名为Gold-YOLO,它增强了多尺度特征融合能力,并在所有模型尺度上实现了延迟和精度之间的理想平衡。
2025-08-14 19:00:51
1082
原创 【论文阅读】DEYO: DETR with YOLO for End-to-End Object Detection
DETRs的训练范式在很大程度上依赖于在ImageNet数据集上对其主干网络进行预训练。然而,图像分类任务提供的有限监督信号以及一对一匹配策略,导致DETRs的颈部网络预训练不足。此外,训练早期匹配的不稳定性导致DETRs的优化目标不一致。为了解决这些问题,本文设计了一种创新的训练方法,称为逐步训练。具体来说,在训练的第一阶段,采用经典检测器,使用一对多匹配策略进行预训练,以初始化端到端检测器的主干和颈部。在训练的第二阶段,冻结端到端检测器的主干和颈部,需要从头开始训练解码器。
2025-07-16 16:59:47
1092
原创 【红外目标检测】红外行人车辆数据集汇总(持续更新中)
下载链接: 链接: https://pan.baidu.com/s/1oM3E-KRrOD2_QV9zAY_0cQ。下载链接:https://www.flir.com/oem/adas/adas-dataset-form/图像尺寸:红外图像:640×512 像素,可见光图像:1024×768 像素。图像尺寸:红外图像:640×512 像素,可见光图像:1024×768 像素。图像尺寸:红外图像:640×512 像素,可见光图像:1024×768 像素。图像类型:红外图像与可见光图像。
2025-07-14 17:40:49
1291
原创 Machines | 2023 YOLO-v1 到 YOLO-v8,有关YOLO系列的一篇综述
自 2015 年问世以来,目标检测算法 YOLO(You Only Look Once)的各个变体迅速发展,2023 年 1 月发布了最新版本 YOLO-v8。YOLO 系列变体基于有限但高效的计算参数,遵循实时和高分类性能的原则。随着这些变体不断发展,以满足工业表面缺陷检测领域中自动化质量检测的需求,如快速检测、高精度以及在受限边缘设备上的部署需求,这一原则在所有 YOLO 变体中愈发凸显。本文首次从工业制造的角度,对 YOLO 从最初版本到最新版本(YOLO-v8)的演进进行了深入综述。
2025-07-07 14:54:40
1153
1
原创 【论文阅读】【CVPR2023】DETRs with Hybrid Matching
一对一集合匹配是 DETR 实现其端到端能力的关键设计,这使得目标检测无需手工设计的非极大值抑制(NMS)来去除重复检测。这种端到端特性对于 DETR 的通用性很重要,并且已被推广到更广泛的视觉任务中。然而,注意到被分配为正样本的查询数量很少,而且一对一集合匹配显著降低了正样本的训练效率。本文提出了一种简单而有效的方法,该方法基于混合匹配方案,在训练期间将原始的一对一匹配分支与辅助的一对多匹配分支相结合。本文的混合策略已被证明能显著提高准确率。
2025-06-30 16:42:50
828
1
原创 【论文阅读】【CVPR2024】YOLO-World: Real-Time Open-Vocabulary Object Detection
You Only Look Once (YOLO) 系列探测器已成为高效实用的工具。但是,它们对预定义和训练的对象类别的依赖限制了它们在开放场景中的适用性。为了解决这一限制,本文引入了 YOLO-World,这是一种创新方法,通过视觉语言建模和大规模数据集上的预训练,通过开放词汇检测功能增强了 YOLO。本文提出了一种新的可重新参数化的 VisionLanguage 路径聚合网络 (RepVL-PAN) 和区域文本对比损失,以促进视觉和语言信息之间的交互。本文方法擅长以零样本方式高效检测各种物体。
2025-06-22 21:06:05
1242
1
原创 【论文阅读】【CVPR】DETRs Beat YOLOs on Real-time Object Detection
YOLO 系列由于在速度和精度之间进行了合理的权衡,已成为最受欢迎的实时目标检测框架。然而,作者发现非极大值抑制(NMS)对 YOLO 的速度和精度有负面影响。最近,基于端到端 Transformer 的检测器(DETR,全称为Detection Transformer)为消除 NMS 提供了一种替代方案。尽管如此,高昂的计算成本限制了它们的实用性,并阻碍了它们充分发挥排除 NMS 的优势。在本文中提出了实时检测 Transformer(RT-DETR),据所知,这是首个解决上述困境的实时端到端目标检测器。
2025-05-24 23:48:11
1030
1
原创 【论文阅读】EFLNet: Enhancing Feature Learning Network forInfrared Small Target Detection
单帧红外小目标检测被认为是一项具有挑战性的任务,由于目标与背景之间的极度不平衡,边界框回归对红外小目标极为敏感,目标信息在高级语义层中容易丢失。本文提出了一种增强特征学习网络 (EFLNet) 来解决这些问题。首先,注意到红外图像中目标和背景之间存在着极度不平衡的情况,这使得模型更关注背景特征而不是目标特征。为了解决这个问题,本文提出了一种新的自适应阈值焦点损失 (ATFL) 函数,该函数将目标和背景解耦,并利用自适应机制来调整损失权重,以迫使模型将更多的注意力分配给目标特征。
2025-05-22 23:08:00
2063
1
原创 【论文阅读】Pinwheel-shaped Convolution and Scale-based Dynamic Loss forInfrared Small Target Detection
近年来,基于卷积神经网络(CNN)的红外小目标检测方法取得了出色的性能。然而,这些方法通常采用标准卷积,忽略了红外小目标像素分布的空间特征。因此,我们提出了一种新颖的风车状卷积(PConv),以取代骨干网络下层的标准卷积。PConv 更符合红外小目标类似高斯的空间分布,改进了特征提取,显著扩大了感受野,且仅带来极小的参数增加。此外,尽管最近的损失函数结合了尺度和位置损失,但它们没有充分考虑这些损失在不同目标尺度上的敏感性变化,限制了对弱小目标的检测性能。
2025-05-17 15:36:21
2126
1
原创 【论文阅读】Infrared Small Target Detection with Scale and Location Sensit
论文标题:具有尺度和位置灵敏度的红外小目标检测作者:Qiankun Liu Rui Liu Bolun Zheng Hongkui Wang Ying Fu发布年份:2024。
2025-05-09 20:06:05
836
1
原创 【论文阅读】Learning Contrast-Enhanced Shape-Biased Representations for Infrared Small Target Detection
本文提出了一种对比-形状编码器,通过中心差分卷积(CDC)和大核卷积(LKC)来增强红外小目标的对比度并提取形状保持的特征。:本文设计了一个形状可重构解码器,通过融合低层边缘信息和高层语义特征来重建目标形状。解码器采用门控ResNet块和形状融合器,能够有效抑制背景噪声并增强目标轮廓的细节。:本文提出了一种端到端的学习框架,通过同时优化分割一致性和轮廓一致性来学习形状偏置表示。
2025-05-05 21:04:53
136
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅