- 博客(173)
- 收藏
- 关注
原创 突破微小目标检测瓶颈:智能无人机在蓝莓产量估算中的解决方案
【导读】本文提出了一种使用搭载计算机视觉的智能无人机估算蓝莓产量的方法。系统利用两个YOLO模型:一个检测灌木丛,另一个检测浆果。它们协同工作,智能控制无人机位置和角度,安全获取灌木近景图,实现精准的浆果计数和产量估算。实验展示了模型在裁剪图像上的良好效果,并讨论了部署时的采样策略、小目标(蓝莓)标注及模型评估的挑战。>>更多资讯可加入CV技术群获取了解哦~目录一、相关工作二、处理流程分层采样单株灌木检测灌木侧视图像采集三、数据集数据采集浆果数据集数据标注千款模型+海量数据,开箱即用!四、YOLO目标检测训
2025-06-12 16:55:56
76
原创 数据集分享 | 火焰检测数据集
这个日常生活火焰烟雾数据集,是现代 AI 技术赋能公共安全与灾害预防的一个典型范例。它不仅为开发更智能、更灵敏的火灾预警算法提供了宝贵素材,也推动了计算机视觉技术在复杂真实场景下的落地应用。如果您正在研究智能安防、火灾预警、目标检测或异常监测相关课题。需要寻找一个贴近实际、标签清晰、场景丰富的视觉数据集来验证算法。对“用 AI 守护安全”这一使命充满热情。那么这个数据集绝对是您不可错过的选择!📍。
2025-06-12 09:59:03
218
原创 YOLO-FireAD:通过混合注意力与双池化融合实现高精度实时火灾检测
为了验证YOLO-FireAD的性能,对比实验将YOLO-FireAD与YOLOv8n、YOLOv9t、YOLOv10n、YOLO11n、YOLOv12n以及YOLOv8n的改进模型,并在 fire_detection 数据集上分析模型性能,通过 P、R、F1score、mAP50、mAP50-75、mAP50-95、参数数量、FLOPs 和模型大小等指标评估模型性能,随着迭代次数的增加,各曲线的变化率逐渐减小,大约经过40次迭代后,曲线开始趋于稳定,最终在约200次迭代后,曲线基本保持稳定。
2025-06-11 17:31:37
1111
原创 SLAM3R:基于单目视频的实时密集3D场景重建
值得注意的是,在没有任何优化程序的情况下,我们的方法达到了与 NICER-SLAM和DUSt3R等基于优化的方法相当的重建质量。与基于姿态优化的传统方法不同,SLAM3R 直接从每个窗口中的 RGB 图像回归三维点阵图,并逐步对齐和变形这些局部点阵图,以创建全局一致的场景重建--所有这一切都无需明确求解任何摄像机参数。值得注意的是,在窗口大小超过 11 个之前,我们方法的效率一直保持稳定,这证明了我们并行设计的有效性。表 5 中的结果表明,与其他方法相比,我们的完整方法实现了更高的配准精度和计算效率。
2025-06-11 09:53:54
756
原创 无缝对接大疆算力平台:基于Coovally的无人机AI模型端到端优化方案
低空经济的爆发为无人机智能化带来前所未有的机遇,但高昂的开发成本和复杂的技术流程仍是规模化应用的拦路虎。模型训练这个核心环节,却以其高技术门槛——复杂的数据标注、精细的参数调优、繁琐的硬件适配——难住了众多用户,成为阻碍AI能力快速落地的最大瓶颈。摒弃了传统开发中耗时的环境配置、代码调试等步骤,为研究者和产业开发者提供极简高效的AI训练与优化体验,让您专注于业务需求,而非底层技术。从农田病虫害的实时识别、高压线路的毫米级缺陷检测,到空中物流包裹的智能追踪,每个垂直场景都需要量身定制的AI解决方案。
2025-06-10 17:41:15
1350
原创 突破异常数据瓶颈!AnomalyAny:一句话+一张图,零样本生成任意异常图像
【导读】在工业制造、食品质检、自动驾驶等场景中,异常检测(Anomaly Detection, AD)被广泛应用。但现实中的异常数据稀缺,导致训练高质量检测模型变得非常困难。>>更多资讯可加入CV技术群获取了解哦~本文将为你介绍一项来自EPFL、ETH Zurich和华中科技大学联合发布的新工作 —— Anomaly Anything (AnomalyAny),它不需要训练、不依赖异常数据,仅靠一张正常图像和一句文字描述,就能生成高质量的“假异常图像”,有效辅助模型训练,在多个数据集上大幅提升性能。目录一、
2025-06-10 17:04:42
806
原创 数据集分享 | MOT17数据集、UAVDT数据集
是否有一套高质量、标注严谨的数据集,往往决定了模型能否在真实场景中跑得稳、识别准。无论是城市地面视角的 MOT17,还是高空多变量挑战的 UAVDT,都代表了多目标跟踪领域的重要研究基准。MOT17 是多目标行人跟踪任务的经典数据集,由 MOTChallenge 团队发布,广泛用于评估行人跟踪算法的性能。与 MOT17 聚焦地面行人不同,UAVDT 数据集则将视角带上了天空,聚焦于无人机视角下的车辆识别与跟踪问题。任务覆盖:目标检测(DET)、单目标跟踪(SOT)、多目标跟踪(MOT)
2025-06-09 17:25:58
888
原创 足球判罚的AI解法:多阶段标定流程+57几何关键点,助力公平判罚
【导读】“苏超”激情碰撞,草根足球却常被争议判罚打断节奏?这项AI视觉研究带来了解决方案!论文《Enhancing Soccer Camera Calibration Through Keypoint Exploitation》创新性地利用足球场固有的几何结构(线、圆、弧),智能“计算”生成多达57个关键点(如线交点、切点),而非仅依赖易错的人工标注或有限视野点。结合深度学习与鲁棒的多阶段标定流程(包括智能选点、迭代优化和异常过滤),显著提升了摄像机标定精度和可靠性。>>更多资讯可加入CV技术群获取了解哦~
2025-06-09 16:32:50
909
原创 SFTrack:面向警务无人机的自适应多目标跟踪算法——突破小尺度高速运动目标的追踪瓶颈
【导读】本文针对无人机(UAV)视频中目标尺寸小、运动快导致的多目标跟踪难题,提出一种更简单高效的方法。核心创新在于从低置信度检测启动跟踪(贴合无人机场景特性),并改进传统外观匹配算法以关联此类检测。在VisDrone2019、UAVDT和MOT17数据集上,性能超越当前最优方法,展现卓越鲁棒性与适应性。>>近年来,随着无人机技术的快速发展,警务系统正逐步实现从"平面防控"向"立体巡防"的转型升级。无人机凭借其高空视野广、机动性强等特点,在嫌疑人追踪、交通监控、应急处突等警务实战中发挥着不可替代的作用。
2025-06-09 09:24:11
1255
原创 AI+无人机如何守护濒危物种?YOLOv8实现95%精准识别
在训练过程中,使用了一个验证集,其中包含46张带有鹿的图像、17张带有牛的图像以及575张没有动物的图像(每条样带一张)。在选择的航线参数下,未观察到鹿在无人机接近时出现逃跑行为。在某些情况下,动态信息可用于检测动物,但理想情况下,鹿不应因无人机存在而受到惊扰,因此大多数视频两辆无人机的自动驾驶仪均为Pixhawk v2.4.8,每辆无人机均配置了PX4固件。在沼泽鹿数据库上训练的模型在潘帕斯鹿数据上进行了评估,两者在颜色上存在差异,尤其是在鹿的下部区域,潘帕斯鹿颜色较浅,而沼泽鹿则更偏棕色,如图8所示。
2025-06-06 09:19:12
895
原创 无人机+AI,基层治理飞入“智能时代”!打造空地一体新格局
从治安防控到生态巡护,从交通疏导到应急救援,无人机正在以其高效、智能、灵活的特性,加速嵌入基层治理的方方面面。2025年被不少业内人士视为“无人机应用的爆发元年”——技术逐渐成熟,政策持续开放,产业生态不断完善,而各地政府与社会治理部门也正在从“尝试”走向“规模化应用”。近年来,随着无人机技术的快速发展,越来越多地方将其纳入基层治理体系,构建起“空地一体、立体联动”的治理新格局。无论是治安巡逻、应急救援,还是交通管理与生态保护,无人机正以其灵活、高效、智能的优势,助力基层治理更精准、更智慧。
2025-06-05 09:15:28
1006
原创 NeRF、视频生成、多模态爆火!CVPR 2025 热门趋势全解析
多视角成像 + 多模态传感器(如 LiDAR、热成像、深度摄像头)的结合,物理世界与数字世界深度重叠,推动3D生成和理解迈向实用化,正在为这些应用提供坚实的技术支撑。作为CV领域的顶级学术盛会,CVPR 和 ICCV 这两大顶会的投稿数据和主题方向,堪称“风向标”级别的存在。多视角图像结合多传感器数据,实现了对物体和场景更精准的三维重建,正在成为自动驾驶、AR/VR、数字孪生等应用的关键技术支柱。不管你是刚起步的学生,还是多年深耕的研究者,这三大趋势都值得你深入关注,甚至提前布局。
2025-06-04 17:53:49
692
原创 【工业检测新思路】抛弃边界框!基于头部关键点的工地安全帽检测
近年来,基于视觉的施工现场安全系统中,深度学习方法受到了广泛关注。然而,目前仍缺乏一种可靠的方法来建立监督下的施工人员与其基本个人防护装备(如安全帽)之间的关联。为解决这一问题,本文提出了一种结合目标检测、关键点定位和简单规则推理的全新深度学习方法。在测试中,该方案超越了基于不同实例相对边界框位置的先前方法,以及直接检测安全帽佩戴者与非佩戴者的方法。与上述方法相比,该方案在MS COCO风格的整体AP上达到了67.5%,而上述方法分别为66.4%和66.3%;
2025-06-04 09:15:03
998
原创 别只训练“头部”!计算机视觉模型微调的正确打开方式
借助 Coovally 平台即将上线的 SSH 功能,你可以摆脱传统平台的限制,深入模型内部,按需微调主干、解构架构、甚至自定义训练逻辑。为了开发者们更加自由调试模型,Coovally平台即将上线SSH远程连接,开发者们可以直接通过SSH连接Coovally的云端算力,基于。在像 Coovally 这样允许 SSH 自由调试的平台上,你可以完全控制模型训练过程,比如在 PyTorch 中:。你可以自由地选择训练策略,尝试不同的超参数、结构调整等,真正发挥你对模型的理解和创造力。
2025-06-03 09:58:11
914
原创 基于YOLO-NAS-Pose的无人机象群姿态估计:群体行为分析的突破
这项工作的意义超出了对大象行为的研究,它为未来基于无人机的野生动物行为研究在不同物种和生态环境中的发展提供了宝贵的见解。为保证公平比较,由于DeepLabCut仅能在提取的边界框上进行姿态估计,评估时仅选取YOLO-NAS-Pose工作流程中正确检测的边界框。标注时,对特别幼小的象崽若无法辨别耳朵,则仅标注脊柱关键点,耳朵标记为"遮挡"。补充材料包含带有姿态估计叠加的训练验证集追踪视频,既有效果良好的案例,也存在耳部检测不准的情况——虽然脊柱对齐效果稳定,但在快速运动或非常规姿态时耳尖检测容易出现偏差。
2025-06-03 09:47:59
1449
原创 数据集分享 | 塑料类型检测
数据集为塑料垃圾自动识别任务提供了坚实基础,具备实用性强、应用场景广、训练效果显著等优点。该数据集是一个专为训练图像分类模型识别不同类型塑料垃圾而设计的数据集,广泛适用于环保回收、智能垃圾桶、AI公益项目等场景。它涵盖了生活中最常见的塑料种类,具有清晰的图像标签和多样的拍摄角度,是推动垃圾自动识别分类系统的重要基础资源。分类标签共 7 类:PET、HDPE、PVC 、LDPE、PP、PS、其他。来源多样:实拍照片涵盖日常生活中的饮料瓶、洗护用品包装、塑料袋等。支持常见视觉任务:分类、检测、分割、识别等。
2025-05-29 16:58:01
792
原创 多模态融合新方向:光学+AI如何智能分拣,提升塑料回收率?
MRF 数据集是一个具有挑战性的数据集,其中包含变形和污染的塑料图像,因此可以对数据集进行全面探索,促进性能比较,帮助选择模型,并提高对模型行为的洞察力。我们使用 Mask RCNN 算法训练了 MRF 数据集的 70 幅图像(50 幅训练图像和 20 幅验证图像),以识别图像中不同的塑料物体,并获得激活图,从而确定算法重点关注的图像区域。这些图像是在具有挑战性的环境(不同的背景、光线条件等)中收集的,使用他们的应用程序接口获取图像,并使用相应的塑料树脂代码标识对这些图像进行了验证。
2025-05-29 16:48:41
1317
原创 精度更高、速度更快!从RT-DETR到RF-DETR全面突破实时检测瓶颈
从YOLO的NMS枷锁,到RT-DETR的实时化突破,再到RF-DETR的精度-效率平衡,实时检测技术正加速向端到端、轻量化演进。随着开发人员的创新,如今DETR的变体模型也是越来越优秀,从最初RT-DETR到前不久刚刚发布发布的RF-DETR。在传统的DETR中,解码器通常需要大量的计算来匹配物体和查询,但RT-DETR在此基础上进行了改进,通过更高效的解码机制加速了计算过程。因此,提出了RT-DETR,RRT-DETR是基于DETR架构的端到端对象检测器,完全消除了对NMS的需求。
2025-05-29 09:12:50
1126
原创 数据集分享 | 番茄成熟度检测
尤其是番茄的成熟阶段多样(如绿熟期、转色期、成熟期等),颜色、纹理和形状变化显著,准确识别不同成熟度等级对于提高分拣效率和减少损耗至关重要。同时集成300+公开数据集,涵盖图像分类、目标检测、语义分割等场景,一键下载即可投入训练,彻底告别“找模型、配环境、改代码”的繁琐流程!为实现高精度的番茄成熟度检测,通常需要收集包含不同成熟阶段、生长角度、光照条件以及复杂背景(如枝叶遮挡、土壤反光等)的图像数据,并进行精细标注。同时还支持可视化验证和多模型对比。自然光下的果园,包含树枝、叶子、泥土、杂草等多样背景。
2025-05-28 09:45:02
940
原创 超深掩蔽联合改进YOLOv8实现温室番茄果实精准计数——93.8%精度突破与智慧农业应用
本研究直接用单目深度估计模型(depth anything model,DAM),估计相机获取的视频帧图像 I 对应的深度信息D∗=DAM(I) ,D∗为与 I 逐像素对应的逆向深度图(视差空间表示),进一步用视差空间的逆变换,将转变为正常的相对深度图 D。由于 DAM 预测的 D 为相对深度图,仅表达场景中目标物的相对远近,相同的相对深度值在不同的图像间不具有可比性,因此本研究的深度阈值ω不采用固定值,而是分别根据每帧图像的深度值分布,动态计算其对应的ω。访问官网,开启你的零代码AI开发之旅!
2025-05-28 09:36:13
559
原创 小数据大突破:AI如何用关键点检测实现脑卒中康复动作的精准分割
我们的研究分为三个主要阶段。利用微调模型,我们推断出了物体的位置,在推断过程中,我们只从获得的边界框中提取中心坐标。为了克服这些挑战,我们提出了一个新颖的框架,根据特定领域的视角将复杂的任务分解成更小、更易于管理的子任务。通过分析单场景多视频的关键点轨迹,我们能够识别出最适合划分动作边界的视角,该分析不仅揭示了各视角数据集的优劣势,更为如何优化信息利用提供了重要依据。尽管潜力巨大,但挑战依然存在,包括真实世界患者数据的有限可用性、使用合成数据的困难,以及处理视频数据的复杂性(通常涉及空间和时间复杂性)。
2025-05-23 00:30:00
999
原创 数据集分享 | Sard(无人机搜救)数据集
同时集成300+公开数据集,涵盖图像分类、目标检测、语义分割等场景,一键下载即可投入训练,彻底告别“找模型、配环境、改代码”的繁琐流程!它不仅考虑了人物在不同姿态下的表现,还涵盖了各种地形地貌——为真实搜救场景中的目标检测任务提供了良好支持。未来我们还将持续分享更多优质数据集与开源工具,关注我,一起拓展AI的边界,让视觉真正服务现实世界。无论你是进行算法研究、工程落地,还是参与AI公益项目,这都是一个不可多得的真实、高质量数据源。SARD,是一个用于训练AI模型识别无人机航拍图像中伤亡人员的高质量数据集。
2025-05-21 15:42:12
974
原创 低空经济开发者必看:如何用Coovally无代码平台快速完成无人机AI模型训练?
最近有用户反馈在大疆算力开放平台,本地训练好模型后,下载并选择合适的pth文件,算法部署至无人机,为无人机赋能更匹配业务场景的智能检测能力。在Coovally平台可以为了开发者们更加自由调试模型,Coovally即将上线SSH远程连接,开发者们可以直接通过SSH连接Coovally的云端算力,,涵盖图像分类、目标检测、语义分割等任务类型,一键下载即可投入训练,彻底告别“找模型、配环境、改代码”的繁琐流程!,针对你的数据集与任务目标,自动推荐超参数优化方案,让模型迭代事半功倍!训练好后模型可转换为。
2025-05-21 15:32:26
1239
原创 小目标检测层优化+多模态数据增强——YOLOv5在油气管道环焊缝缺陷识别的创新应用
导读全球油气管道总里程已超15万公里,但长期服役带来的环焊缝缺陷(如腐蚀、裂纹)犹如“隐形炸弹”。仅2021年,国内多起管道泄漏事故就造成数亿元损失。传统漏磁检测依赖人工判读图像,效率低、主观性强,漏检率高达20%以上。国家管网集团联合中国矿业大学的创新研究,为管道安全装上“AI天眼”!>>漏磁检测的核心原理如同给管道做“磁学CT”:磁化管道:永磁铁作为励磁源,产生闭合磁回路,将管道磁化至饱和状态。
2025-05-19 16:47:25
648
原创 SORT算法:极简三件套实现60FPS实时追踪,300行代码撬动多目标跟踪
为简洁起见,表中只列出了最重要的跟踪器,也就是准确度最高的在线跟踪器,如 TDAM、MDP)、最快的基于批处理的跟踪器(DP NMS)和全面的近在线方法(NOMT)。与这些方法相比,SORT 获得了在线跟踪器中最高的 MOTA 分数,可与最先进的方法 NOMT 相媲美,后者要复杂得多,而且在不久的将来会使用帧。我们表明,跟踪质量在很大程度上取决于检测性能,而通过利用最近在检测方面的发展,只需使用经典的跟踪方法就能实现最先进的跟踪质量。其次,我们主要关注的是帧到帧的跟踪,物体的重新识别超出了这项工作的范围。
2025-05-19 09:15:42
1011
原创 YOLOX全面解析:无锚框革新为何仍是边缘计算与实时检测的首选?对比v7/v8/v10揭秘技术真相
本文将从技术原理、性能指标、应用场景三个维度,对比分析YOLOX与YOLOv7、YOLOv8、YOLOv10的差异,揭示其在目标检测技术演进中的独特地位。在模型大小相似的情况下,YOLOv8 的 mAP 分数比 YOLOX 高(例如,YOLOv8m 与 YOLOXm、YOLOv8l 与 YOLOXl、YOLOv8x 与 YOLOXx)。若对模型效果不满意?虽然 YOLOXnano 的参数和 FLOP 最低,但YOLOv8n 的 mAP 高得多,效率相当,推理速度也快得多。
2025-05-16 01:00:00
955
原创 YOLO算法+关键点检测,助力牙周病精准诊断
计算骨质流失百分比是牙周病分期的一项关键检测指标,但人工计算有时并不精确且耗时。本研究评估了深度学习关键点和对象检测模型 YOLOv8-pose在自动识别局部牙周骨质流失地标、条件和分期方面的应用。YOLOv8-pose在193张有注释的根尖周放射照片上进行了微调。我们提出了一个关键点检测指标,即相对正确关键点百分比(PRCK),该指标根据图像中牙齿的平均尺寸进行归一化处理。我们提出了一个启发式后处理模块,利用在开源辅助数据集上训练的支持实例分割模型,调整某些关键点预测,使其与相关牙齿的边缘对齐。该模型可以
2025-05-14 09:26:47
1021
原创 如何解读和分析 YOLO 训练结果:实用指南
同时集成丰富公开数据集,涵盖图像分类、目标检测、语义分割等场景,一键下载即可投入训练,彻底告别“找模型、配环境、改代码”的繁琐流程!对于训练过YOLO模型的开发者来说,最常遇到的灵魂拷问是:明明跑了100个epoch,为什么模型效果还是不够好?高效的工具会帮助我们的模型训练更加快捷方便,但也要多观察训练曲线、精心调理数据,训练高性能物体检测器不仅仅是运行 epoch。mAP@0.5:0.95:对多个 IoU(0.5到0.95,步长0.05)的精度进行平均——一个更严格、更全面的指标。若对模型效果不满意?
2025-05-12 13:43:04
852
原创 药物抓取准确率97.3%!YOLO-EASB+IAFFGA-Net:如何让智能药房机器人靠视觉算法征服杂乱场景?
为验证模型性能,在相同环境下将基于改进YOLOv5的YOLO-EASB模型与YOLOACT(Bolya et al., 2019)、SOLOv2(Wang et al., 2020)、YOLOv7-seg(Wang et al., 2023)、YOLOv8-seg(Dumitriu et al., 2023)及Mask-RCNN(He et al., 2017)等主流实例分割算法模型进行对比,结果如表1和表2所示。最后,通过对预测的重叠高分辨率块进行平均,得到重建的高分辨率(HR)图像。
2025-05-12 09:34:52
1410
原创 OG-HFYOLO:当梯度方向引导遇见异构特征融合,变形表格分割难题迎刃而解
在信息日益数字化的时代,表格作为结构化数据的核心载体,广泛承载着财务报表、教育学习、科学实验数据等关键信息。同时,随着扫描、摄影等技术的普及,表格电子文档的场景日趋复杂。尤其在光照条件、拍摄角度和场景环境复杂多变的情况下,扫描或拍摄的表格图像可能出现各类形变。这些物理形变(如弯曲、透视畸变、折叠)为表格结构识别技术带来巨大挑战。表格结构识别是文档分析中的关键任务。然而,变形表格中的几何形变会导致内容信息与结构之间关联性弱化,致使下游任务无法获取准确的内容信息。为获得细粒度的单元格空间坐标,我们提出OG-HF
2025-05-07 17:19:26
1147
原创 基于气象模拟增强的航空图像优化:提升YOLO模型在海上搜救人体检测的跨环境鲁棒性
在这些错综复杂的水域中,商业船只和游艇的数量不断增加,再加上复杂的沿海环境,突出了在发生海上事件或事故时对全面有效的 SAR(搜索与救援)服务的需求。总体而言,我们的YOLO模型在检测人类对象方面非常有效,整体人类召回率在0.86到0.91之间,其中 YOLOv5l 是测试模型中表现最好的,YOLOv5s则是表现最差的。我们高度评估了人类和无生命物体的性能,以确保模型适用于在不同环境中检测人类,因为如果没有不同的物体类别或没有人类的图像,模型更容易将无生命物体错误地归类为人类。
2025-05-07 09:07:44
1096
1
原创 车辆检测新突破:VFM-Det 如何用大模型提升识别精度
目录编辑一、摘要二、引言三、相关工作四、Coovally AI模型训练与应用平台五、方法概述综述:基于区域建议的检测基于VehicleMAE的感知器六、实验分析数据集与评估指标实现细节属性预测模块预训练与SOTA检测器的对比实验消融实验VehicleMAE编码器的影响VAtt2Vec模块的影响可学习标记数量的影响不同属性编码器的比较不同特征融合策略的比较属性向量不同使用方法的比较不同对比学习损失函数的比较不同微调方法的比较可视化局限性分析结论现有的车辆检测器通常是基于预先训练好的骨干网(如ResNet、V
2025-04-30 17:51:41
939
原创 Vision Transformers与卷积神经网络详细训练对比(附代码)
另一方面,Vision Transformer 提供了一种强大的方法来捕捉图像中的全局依赖关系和上下文理解,从而提升了某些任务的性能。虽然它们可能达到令人印象深刻的准确率,尤其是在处理更大的数据集时,但计算需求可能会限制它们在资源有限的情况下的实用性。然而,在更大规模的数据集上训练时,Vision Transformer (ViT) 取得了优异的成绩,并在多个图像识别基准测试中接近或超越了当前最佳水平。一个可学习的嵌入被添加到块序列的前面,其在 Transformer 编码器输出的状态作为图像表示。
2025-04-29 17:00:41
971
原创 【深度解析】YOLOE登场:CNN路线的开放世界新答卷,超越YOLO-World与Transformer
在Transformer大模型主导视觉领域的时代,YOLOE坚持轻量高效的CNN路线,并通过合理引入Prompt机制与高效特征建模,打破了实时检测与开放性、分割能力之间的矛盾。在分析大型媒体集合时尤为重要,它可以自动识别存在的对象,帮助更快地建立专门的模型。这种多模式提示支持极大增强了模型在实际应用中的灵活性,比如在无人巡检、医疗影像筛查等任务中,不同场景可以选择最适合的提示方式。,不仅进一步提升了检测性能与推理速度,更引入了多模态提示支持和强大的实例分割能力,拓展了开放世界视觉任务的新边界。
2025-04-29 16:55:30
945
原创 复杂背景下无人机影像小目标检测:MPE-YOLO抗遮挡与抗背景干扰设计
更重要的是,MPE-YOLO 在降低误报和漏报方面也表现出显著的提升,能够准确识别和识别大多数目标,同时最大限度地减少非目标区域的误识别。YOLOv8 和 YOLOv8m。在处理航拍图像中的小目标或低对比度目标时,原YOLOv8的C2f模块对小目标特征表达能力不足,ES-C2f模块专注于提升网络捕捉细节的能力和特征利用效率,尤其是在小目标和低对比度目标的表达方面。PEC模块将输入特征图切割为4个子块,拼接后压缩通道维度,通过这种精细的空间维度划分,生成的小块在确保信息覆盖均匀的同时,保留了重要的空间信息。
2025-04-27 17:40:56
1619
1
原创 UAV-DETR:频域融合与动态校准技术突破,无人机图像小目标检测精度与实时性双飞
加入 MSFF-FE 模块后,AP 进一步提高到 28.4,这表明,加入多尺度特征融合和频率增强的好处。综合所有组件,UAV-DETRR18 的性能最高,AP 为 29.8,AP50 为 48.8,这显示了每个模块对检测精度的累积影响。与基线 RT-DETR-R18 相比,UAV-DETR-R18的AP提升3.1%,AP50 提升了 4.2%,验证频域融合的有效性。值得注意的是,即使与PP-YOLOE-P2-Alpha-l等通常得益于大量预训练的方法相比,我们的方法仍然表现出色。
2025-04-27 09:23:38
982
原创 从梯度消失到百层网络:ResNet 是如何改变深度学习成为经典的?
跳过连接(或残差连接)的工作原理是,将较早层(例如,第 n-1 层)的输出直接添加到较晚层(例如,第 n+1 层)的输出。这两种情况都会增加训练难度,并导致错误率上升,随着层数的增加,模型在训练和测试数据上的性能都会受到影响。相反,第 (n-1) 层的输出会向前传递,并与第 (n+1) 层的输出合并。实现后,我们可以直接创建此类的对象并传递数据集的输出类的数量,并使用它在任何图像数据上训练我们的网络。有时,在非常深的网络中,梯度会呈指数增长,导致数值不稳定,权重变得太大,从而导致模型失败。
2025-04-24 17:28:45
1038
原创 YOLOv12的注意力机制革新与实时检测性能分析——基于架构优化与历史版本对比
例如,最小的变体 YOLOv12-N实现了40.6% 的 mAP,超过了YOLOv10-N(38.5%)和YOLOv11-N(39.4%),在T4 GPU上的推理时间为1.64 ms。具体来说,尺寸为(H,W)的特征图被划分为大小为(H/L,W)或(H,W/L)的L个片段,省去了其他注意力模型中的显式窗口划分方法,如移位窗口、十字注意力或轴向注意力。这些改进凸显了YOLOv12在保持或提高检测精度的同时降低延迟的效率,使其非常适合自动驾驶、监控和机器人等对时间敏感的应用,在这些应用中,快速处理至关重要。
2025-04-24 17:24:23
1012
原创 MobileNetV2:面向移动端的高效神经网络架构革新——突破轻量化模型的设计边界
另一方面,如果您在功能更强大、资源更丰富的设备上部署模型,您可以将分辨率提高到224x224像素,并使用1或更大的宽度乘数,这将提高准确率,但需要更多计算资源。在移动设备和嵌入式系统快速普及的背景下,计算机视觉模型面临着严峻的效率挑战。如上所述,MobileNetV2可以使用宽度乘数来扩展其性能,使其能够在资源有限的设备上运行,或为性能更强大的机器提供更高的准确率。通过上图,您可以看到模型如何处理不同尺寸的输入(例如,从 224x224 降至 7x7),以及如何在扩大通道数量的同时逐渐降低空间分辨率。
2025-04-23 17:35:30
1309
原创 RF-DETR vs YOLOv12实测:复杂果园青果识别准确率高达94.6%
目录一、摘要二、引言基于 CNN 的目标检测方法基于transformer-based的目标检测方法目标三、方法研究地点和数据采集数据预处理和准备训练目标检测模型训练方法性能评估检测评估指标四、检测结果精度、召回率和F1分数评估平均精确度(mAP)分析训练动态和模型收敛分析五、讨论六、结论本研究全面比较了RF-DETR目标检测模型和YOLOv12目标检测模型在复杂果园环境中识别绿色水果的能力,果园环境的特点是标签模糊、遮挡和背景伪装。为评估模型在真实世界条件下的性能,开发了一个自定义数据集,其中包括单类(绿
2025-04-23 09:52:06
1110
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人