
CV-目标检测专栏
文章平均质量分 92
关于图像处理的目标检测专栏
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
江大白 | 无人机小目标检测YOLOMG,复杂场景运动检测,多场景数据集SOTA(附论文及源码)
本文提出了一种用于检测极小型无人机的端到端框架。作者生成运动差异图以捕捉小物体的运动特征,并通过双模态自适应融合网络将其与RGB图像融合。为了评估YOLOMG的有效性,作者引入了ARD100数据集,该数据集具有复杂背景、突然的相机运动、低光照条件和微型无人机等特点。在ARD100和NPS-Drones数据集上的实验表明,YOLOMG能够有效地检测小型无人机,并超越了现有方法。原创 2025-05-29 15:23:18 · 977 阅读 · 0 评论 -
OpenCV与AI深度学习 | 实战 | 用Google Gemini实现目标检测(完整代码+步骤)
多模态 LLM 的一个更被低估的功能是它们能够生成边界框来检测对象。我记得我们向一些朋友展示您可以使用 Moondream 和 Qwen VL 检测物体,他们非常震撼。原创 2025-05-28 17:09:26 · 752 阅读 · 0 评论 -
CVHub | 目标检测和语义分割该如何走下去?清华团队为视觉大一统模型指明了方向。
在计算机视觉领域从"任务特化"向"统一开放"的演进历程中,我们见证了从手工特征工程到深度学习范式,再从闭集假设到开放世界理解的多次技术跨越。原创 2025-05-26 13:44:25 · 1119 阅读 · 0 评论 -
菜鸟学Python | 如何用DeepSeek做海报
DeepSeek功能非常强大,主要是推理能力和理解能力很强,今天小编给大家分享一下如何用deepseek做海拔,这个其实对于设计行业或许新媒体行业是非常刚需的,现在有了deepseek 可以非常轻松的搞定,一起来看一下。原创 2025-05-24 01:30:00 · 931 阅读 · 0 评论 -
集智书童 | YOLOv12-BoT-SORT-ReID 开源 | Strong-Baseline架构,无特征增强问鼎反无人机挑战赛
本文提出了一种基于热红外视频的多无人机跟踪任务强 Baseline 。通过将YOLOv12与BoT-SORT集成,Strong-Baseline在 Baseline 之上有了显著提升。在实验结果中讨论的训练和推理过程中的额外策略表明,Strong-Baseline有潜力在Track 3性能中排名前三。作者还确定了与初始试验相比影响性能的关键因素:模型大小贡献约0.003,跟踪缓冲区大小影响分数约0.0001,图像输入大小提供了最显著的影响,分数增加约0.1,ReID模块增加约0.01。虽然Strong-Ba原创 2025-05-24 01:30:00 · 1685 阅读 · 0 评论 -
集智书童 | HGO-YOLO 突破硬件限制 | 仅 4.6MB 参数实现 87.4% 精度+56 FPS 实时检测
准确且实时的目标检测对于异常行为检测至关重要,尤其是在硬件受限的场景中,平衡准确性和速度对于提升检测性能至关重要。本研究提出了一种名为HGO-YOLO的模型,该模型将HGNetv2架构集成到YOLOv8中。这种组合通过GhostConv简化模型复杂性的同时,扩大了感受野并捕捉了更广泛的特征。作者引入了一个轻量级的检测Head,OptiConvDetect,它通过参数共享有效地构建了检测Head。原创 2025-05-22 17:12:27 · 938 阅读 · 0 评论 -
江大白 | 2万字长文,YOLOv1-YOLOv11的十年全面进化综述!(建议收藏)
在这篇综述中,探讨了从初代YOLOv1到最新的YOLOv11模型的发展历程。通过回顾这十年的进步,我们突出了每个版本的关键改进及其在公共安全、汽车技术、医疗保健、工业制造和零售五个重要应用领域的影响。本文概述了每次迭代在检测速度、准确性和计算效率方面的显著增强,同时也解决了早期版本所面临的特定挑战和限制。此外,我们识别了当前YOLO模型能力的不足,并提出了未来研究的潜在方向。我们预测,YOLO的发展将向多模态数据处理转变,利用大语言模型和自然语言处理的进步来增强目标检测系统。这种融合有望拓宽YOLO模型的实原创 2025-05-14 17:05:00 · 1010 阅读 · 0 评论 -
OpenCV与AI深度学习 | 使用 YOLOv10 实现姿态检测
姿态估计就是从给定的输入图像中识别出称为关键点的特殊坐标。如上图所示,人体关节、面部特征就是关键点。从技术上讲,人工智能算法必须从大量带注释的图像中学习这些关键点的物理表征,然后在新的未见过的图像上预测这些关键点。原创 2025-05-09 15:06:02 · 718 阅读 · 0 评论 -
我爱计算机视觉 | 2025 TPAMI综述 | 全新视角红外与可见光图像融合完整理解与入门!附GitHub最全开源对比方法结果!
红外与可见光图像融合,正站在从理论研究走向实际应用的关键十字路口。本综述不仅系统梳理了当前主流方法与数据集,也首次从“数据-融合-任务”的完整链路出发,搭建起了一个统一的研究框架。我们希望这份工作,能为研究者提供参考,为工程实践者带来启发,也为未来的发展方向提供一些思路。欢迎关注本文的 GitHub 项目,共同完善红外与可见光融合技术的知识地图!原创 2025-04-20 00:15:00 · 847 阅读 · 0 评论 -
集智书童 | DETR家族再添大将 | 清华&重大提出MI-DETR,并行多时间Query突破级联解码的瓶颈
基于对现有DETR-like模型中广泛采用的级联解码器架构特性的分析,本文提出了一种新的解码器架构。级联解码器架构限制了目标 Query 在级联方向上的更新,仅允许目标 Query 从图像特征中学习相对有限的信息。然而,自然场景中目标检测的挑战(例如,极小、严重遮挡和与背景混淆混合)要求目标检测模型充分利用图像特征,这促使作者提出了一种具有并行多时间 Query (MI)机制的新解码器架构。原创 2025-04-12 17:00:02 · 1021 阅读 · 3 评论 -
机器学习算法那些事 | 有位大佬逐模块解析了detr结构
Transformer在计算机视觉领域大方异彩,是Transformer在目标检测领域的成功应用。利用Transformer中attention机制能够有效建模图像中的长程关系(long range dependency),简化目标检测的pipeline,构建端到端的目标检测器。原创 2025-04-08 16:11:32 · 1234 阅读 · 0 评论 -
OpenCV与AI深度学习 | 如何在自定义数据集上训练 RF-DETR
RF-DETR于 2025 年 3 月 19 日发布,是 Roboflow 开发的基于 Transformer 的对象检测模型架构。RF-DETR 实现了最先进的性能,在 COCO 和新推出的 RF100-VL 数据集上均击败了 LW-DETR 和 YOLOv11 等模型。RF100-VL 是一个基准,旨在验证具有检测能力的模型在一系列领域的通用性。原创 2025-04-08 10:12:42 · 977 阅读 · 0 评论 -
*阿旭算法与机器学习 | 【实战】使用GroundingDino实现零样本自动标注【附源码】
GroundingDino通过使用文本提示,在对象检测注释方面实现了重大飞跃。在本教程中,我们探索了如何使用模型自动标记图像或整个数据集。然而,在训练后续模型之前,手动检查和验证这些注释是至关重要的。原创 2025-04-06 00:30:00 · 718 阅读 · 0 评论 -
码科智能 | 边缘设备也能跑SOTA实时物体检测模型?DINOv2预训练+DETR端到端的黄金组合,第一个超60AP的模型!
今天Roboflow就开源了SOTA 实时物体检测模型RF-DETR,其在现实世界数据集上的表现优于所有现有的物体检测模型,并且是第一个在 COCO 数据集上进行基准测试时达到 60+ 平均精度的实时模型。原创 2025-03-30 03:00:00 · 742 阅读 · 0 评论 -
小白玩转Python | 简化目标检测:使用 Grounding DINO 对自定义数据集进行标注
对于像 YOLO 这样的模型,使用带有标注图像数据集进行训练有时可能会有点令人望而却步。如果你需要处理自定义数据,并围绕其定义标注,那可能会有些耗时。但我找到了完美的解决方案——Grounding DINO!这种方法的突破之处在于,它将基于 Transformer 的检测器 DINO 与基础预训练相结合,可以从有限的人类输入中检测到任意对象。这篇简易指南向你解释了如何有效地将你的自定义数据集格式化为 PASCAL VOC 格式,并且让你惊讶地发现,在你的目标检测项目中,这些数据集可以轻松而有效地使用。原创 2025-03-27 22:17:20 · 754 阅读 · 0 评论 -
量子位 | 目标检测新SOTA,端侧实时识别,沈向洋罕见转发点赞
目标检测领域,迎来了新进展——Grounding DINO 1.5,IDEA研究院团队出品,在端侧就可实现实时识别。这一进展获得AI大佬沈向洋转发,他一般都是一年一转的节奏。此次发布主要有两个版本:Pro和Edge。Pro版更强,Edge版更快。它仍然保留了上一个版本。原创 2025-03-26 17:29:45 · 665 阅读 · 0 评论 -
集智书童 | DM-YOLO 小目标检测新SOTA | 轻量化+动态上采样,参数减38%、精度升4.1%,边缘设备实时部署
小目标检测尤其困难,因为它们像素计数低、背景复杂、拍摄角度多变,这使得模型难以提取有效特征。虽然一些大规模模型提供了高精度,但它们的长时间推理时间使得它们不适合在边缘设备上进行实时部署。另一方面,为低计算能力设计的模型通常检测精度较差。本文专注于小目标检测,并探索在低计算约束下的目标检测方法。基于YOLOv8模型,作者提出了一种新的网络架构,称为FDM-YOLO。作者的研究包括以下关键贡献:作者通过分析YOLOv8检测Head的输出引入了FDM-YOLO。作者添加了一个高分辨率层并移除了大目标检测层,以更好原创 2025-03-18 21:21:53 · 1411 阅读 · 0 评论 -
江大白 | YOLOv12论文详解:以注意力机制为核心的实时目标检测算法(附论文和源码)
YOLOv12 是 YOLO 系列中的一个重大突破,首次摆脱了传统卷积神经网络的约束,将注意力机制直接融入目标检测框架,创新性的使用区域注意力、R-ELAN 和 FlashAttention,在提高检测精度(mAP)的同时保持实时推理性能。原创 2025-03-06 09:42:36 · 1382 阅读 · 0 评论 -
计算机视觉之家 | 如何使用 YOLOv12 实现目标检测
在研究了YOLOv8、YOLOv9、YOLOv10甚至YOLOv11之后,我们很高兴地推出 YOLO 系列的最新版本:YOLOv12!这个新版本采用了以注意力为中心的架构,改变了实时对象检测的方式。它还为准确性和效率树立了新标准。原创 2025-03-02 02:00:00 · 1213 阅读 · 0 评论 -
集智书童 | YOLOv12 正式开源 | 中科院大学携 LLM Trick 让YOLO家族改头换面后依然是效率之王
提升YOLO框架的网络架构一直至关重要,尽管注意力机制在建模能力方面已被证明具有优越性,但长期以来一直专注于基于CNN的改进。这是因为基于注意力的模型无法与基于CNN的模型的速度相匹配。本文提出了一种以注意力为中心的YOLO框架,即YOLOv12,该框架在匹配先前基于CNN的模型速度的同时,利用了注意力机制的性能优势。原创 2025-02-20 12:07:23 · 1257 阅读 · 0 评论 -
OpenCV与AI深度学习 | 使用 MoveNet Lightning 和 OpenCV 实现实时姿势检测
在本文中,我们将探讨如何使用 TensorFlow Lite 的 MoveNet Lightning 模型和 OpenCV 构建实时姿势检测系统。这个项目使我们能够使用网络摄像头检测身体关节并动态地可视化运动。原创 2025-02-13 17:50:43 · 440 阅读 · 0 评论 -
计算机视觉研究院 | YOLO-S:小目标检测的轻量级、精确的类YOLO网络
研究者提出了YOLO-S,一个简单、快速、高效的网络。它利用了一个小的特征提取器,以及通过旁路和级联的跳过连接,以及一个重塑直通层来促进跨网络的特征重用,并将低级位置信息与更有意义的高级信息相结合。原创 2025-02-06 01:30:00 · 2184 阅读 · 0 评论 -
OpenCV与AI深度学习 | 初学者指南 -- 什么是迁移学习?
假设您有一个想要用计算机视觉解决的问题,但可用于建立新模型的图像却很少。您该怎么办?您可以等待收集更多数据,但如果您想捕捉的特征很难找到(例如,野生珍稀动物、产品缺陷),这可能是站不住脚的。原创 2025-01-24 21:00:15 · 1116 阅读 · 0 评论 -
集智书童 | CCi-YOLOv8n,突破检测极限,效率与精度双飞跃 !
城市和森林区域发生的火灾对安全构成严重威胁,凸显了更有效检测技术的必要性。为解决这些挑战,作者提出了一种增强的YOLOv8模型——CGi-YOLOv8n,该模型针对检测小火灾和烟雾进行了定向改进。原创 2025-01-21 17:55:04 · 979 阅读 · 0 评论 -
OpenCV与AI深度学习 | 使用Python和OpenCV实现火焰检测(附源码)
如题原创 2025-01-16 17:49:45 · 1022 阅读 · 0 评论 -
OpenCV与AI深度学习 | 干货 | 深度学习模型训练和部署的基本步骤
训练深度学习模型的过程需要管理许多不同的步骤和组件。从数据准备到模型评估,每个步骤对于确保模型的成功都至关重要。原创 2025-01-09 17:57:42 · 1490 阅读 · 0 评论 -
集智书童 | 清华大学/NVIDIA/斯坦福等在没有3D数据的情况下训练一个开放词汇的单目3D物体检测模型 !
作者提出了一种新的开放式无词汇单目3D目标检测框架,称为OVM3D-Det,该框架仅使用RGB图像训练检测器,使其既具有成本效益又具有可扩展性,可以访问公开的数据。与传统方法不同,OVM3D-Det不需要高精度的激光雷达或3D传感器数据作为输入或生成3D边界框。原创 2025-01-06 17:41:03 · 1168 阅读 · 0 评论 -
机器学习AI算法工程 | YOLO-World开集目标检测,可直接上手
关于Demo:尽管YOLO-World官方给出了在线试用的Demo:https://huggingface.co/spaces/stevengrove/YOLO-World ,但还是不如在自己电脑上离线运行一遍来得直接。恰好,近期Ultralytics(YOLOv8)也新增了对YOLO-World的支持,我们不如直接体验一把。原创 2025-01-02 17:22:55 · 636 阅读 · 0 评论 -
OpenCV与AI深度学习 | 基于YOLOv8实现高级目标检测和区域计数
物体检测是计算机视觉的基石。这需要识别和精确定位图像或视频中的物体。在此基础上,使用 Ultralytics YOLOv8 进行基于区域的物体计数可通过量化指定区域中的物体来增强物体检测。此类进步具有变革性的应用,从准确计算城市人行横道上的行人到通过计算货架上的产品来完善库存管理。原创 2025-01-01 22:11:40 · 546 阅读 · 0 评论 -
极市平台 | 行人、车辆、动物等ReID最新综述!武大等全面总结Transformer方法 | IJCV 2024
研究人员对基于Transformer的Re-ID研究进行了全面回顾和深入分析,将现有工作分类为图像/视频Re-ID、数据/标注受限的Re-ID、跨模态Re-ID以及特殊Re-ID场景,提出了Transformer基线UntransReID,设计动物Re-ID的标准化基准测试,为未来Re-ID研究提供新手册。原创 2024-12-31 17:00:29 · 1210 阅读 · 0 评论 -
OpenCV与AI深度学习 | 一文带你读懂YOLOv1~YOLOv11(建议收藏!)
YOLO (You Only Look Once) 是一系列实时对象检测机器学习算法。对象检测是一项计算机视觉任务,它使用神经网络对图像中的对象进行定位和分类。这项任务的应用范围很广,从医学成像到自动驾驶汽车。多种机器学习算法用于对象检测,其中一种是卷积神经网络 (CNN)。原创 2024-12-31 16:53:04 · 1132 阅读 · 0 评论 -
菜鸟学Python | Python 数据分析核心库大全!
今天我们来聊点干货:Python 数据分析核心库大全。今天就是是帮大家整理出在数据分析工作中不可或缺的那些 Python 库。不管你是刚入门的数据分析小白,还是已经在分析路上“卷”了好几年,这些库总有你能用得上的宝贝,(建议看到最后)!原创 2024-12-29 07:00:00 · 1348 阅读 · 0 评论 -
集智书童 | MITA-YOLO: 一种改进的间接视觉 YOLOv8方法用于目标检测,很酷!
火势可能导致文化遗产建筑遭受严重破坏,因此及时的火警检测至关重要。传统的密集布线和钻孔可能对这些结构造成损害,因此减少摄像头的数量以最小化这种影响具有挑战性。此外,由于噪声敏感性和火灾高发区的管理者专业知识的保护,避免误报至关重要。为了满足这些需求,作者提出了一种基于间接视觉的火警检测方法,称为Mirror Target YOLO(MITA-YOLO)。原创 2024-12-25 15:25:48 · 868 阅读 · 0 评论 -
极市平台 | 超越YOLO11和D-FINE!DEIM:最强实时目标检测算法
本文介绍了一种改进的DETR目标检测框架DEIM,通过增加正样本数量和优化匹配质量的损失函数,显著加快了DETR模型的收敛速度,并在多个数据集上提升了性能,成为当前最优的实时目标检测方案。DEIM通过Dense O2O和MAL两项技术改进,解决了DETR在监督信号和匹配质量上的不足,使其在实时目标检测领域的表现超越了YOLO系列模型。原创 2024-12-24 10:53:19 · 2560 阅读 · 0 评论 -
江大白 | 基于AI,低空经济的无人机检测识别研究综述(建议收藏!)
近年来,无人机产业和应用发展迅速,深度学习在无人机检测与识别中的应用也取得了显著进展。本文对基于深度学习的无人机检测与识别技术进行了详细综述,包括视觉、音频、雷达和射频等多种方法。原创 2024-12-23 16:18:23 · 4232 阅读 · 0 评论 -
OpenCV与AI深度学习 | 水下检测+扩散模型:或成明年CVPR最大惊喜!
扩散模型:是一类生成模型,通过逐步向数据中添加噪声并训练模型逆向还原的方式,生成新的样本或重建原始数据。原创 2024-12-15 21:55:29 · 980 阅读 · 0 评论 -
OpenCV与AI深度学习 | 基于YoloV8的药丸/片剂类型识别
想象一下这个场景:你手里有一颗药丸,但你不太确定它是什么。也许标签已经磨损,或者您在药柜中发现它松动了。正确识别药物对您的安全和健康至关重要。这就是计算机视觉的用武之地。原创 2024-12-12 16:56:30 · 1185 阅读 · 0 评论 -
江大白 | 使用零样本目标检测识别物体(附代码)
这个代码示例展示了零样本目标检测在动态环境中识别物体的强大功能,比如冰箱内部。通过指定自定义标签,你可以将检测定制到广泛的应用中,而无需为每个特定任务重新训练模型。Hugging Face的transformers库和像Google的OWL-ViT这样的预训练模型,使得实施强大的目标检测变得非常简单,几乎不需要设置。原创 2024-12-11 18:48:13 · 1407 阅读 · 0 评论 -
江大白 | 为什么卷积现在不火了:CNN研究热度降温的深层原因分析!
卷积神经网络一度掀起了深度学习的革命,但纵观近年论文与研究热点不难发现CNN的相关研究正在减少。本文从深度学习技术的发展与应用角度深入剖析了这种变化的深层原因,希望对大家有所帮助。原创 2024-12-08 00:15:00 · 998 阅读 · 0 评论 -
arXiv每日学术速递 | DINO-X:一种用于开放世界目标检测和理解的统一视觉模型(建议收藏!)
DINO-X是一个统一的以对象为中心的视觉模型,支持各种开放世界感知和对象级理解任务,包括开放世界目标检测和分割、短语定位、视觉提示计数、姿态估计、免提示目标检测和识别、密集区域标题生成等。原创 2024-12-04 17:14:25 · 2243 阅读 · 0 评论