RF-DETR vs YOLOv12实测：复杂果园青果识别准确率高达94.6%-CSDN博客

本文链接：https://blog.csdn.net/CooVally_AI/article/details/147441021

论文题目：

RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

论文链接：

https://arxiv.org/pdf/2504.13099

一、摘要

二、引言

基于 CNN 的目标检测方法

基于transformer-based的目标检测方法

一、摘要

本研究全面比较了RF-DETR目标检测模型和YOLOv12目标检测模型在复杂果园环境中识别绿色水果的能力，果园环境的特点是标签模糊、遮挡和背景伪装。为评估模型在真实世界条件下的性能，开发了一个自定义数据集，其中包括单类（绿色水果）和多类（遮挡和非遮挡绿色水果）注释。RF-DETR目标检测模型利用 DINOv2 骨干和可变形注意力机制，在全局上下文建模方面表现出色，在识别部分遮挡或视觉模糊的绿色水果方面尤其有效。与此相反，YOLOv12 模型采用了基于CNN的注意力机制来加强局部特征提取，优化了计算效率和边缘部署的适用性。在单类检测场景中，RF-DETR的平均精度（mAP@50）最高，达到0.9464，显示了其在杂乱场景中准确定位绿色水果的强大能力。尽管YOLOv12N的mAP@50:95 达到了0.7620的最高值，但RF-DETR目标检测模型在管理复杂空间场景方面的表现始终优于YOLOv12N。在多类检测中，RF-DETR以0.8298的mAP@50再次领先，表明其在区分遮挡和非遮挡水果方面的有效性，而YOLOv12L则以0.6622高居mAP@50:95 指标榜首，表明其在详细遮挡条件下的分类能力更胜一筹。对模型训练动态的分析表明，RF-DETR的收敛速度很快，尤其是在单类场景中，不到10个epoch就达到了平稳状态，这凸显了基于transformer-based的架构对动态视觉数据的效率和适应性。这些结果证实了RF-DETR适用于对准确性要求极高的农业任务，而YOLOv12仍然是对速度敏感的部署的理想选择。

二、引言

如图1所示，在深度学习取得突破性进展的推动下，过去十年来，目标检测领域已从基本模式识别转向能够理解复杂图像的复杂系统。如图1所示，目标检测方法可分为六种主要方法，每种方法都有独特的优势，并可应用于不同的技术和自动化领域。这种演变对于克服需要高精度和高适应性的领域中常见的视觉识别挑战至关重要，例如自动驾驶、医疗保健、安全监控，尤其是在农业领域，准确高效的目标检测为自动田间监测和机器人收割等进步提供了支持。

图片1.png

图1所示的六种方法分别是卷积神经网络（CNN）、基于变换器的模型、基于视觉语言模型的方法、Hy-brid模型（如RetinaMask和EfficientDet）、稀疏编码和字典学习模型以及基于传统特征的方法。其中，CNN（包括YOLO系列和R-CNN（基于区域的CNN）系列，如Mask R-CNN）由于能熟练处理空间层次，已成为实际部署中的主力。动态DETR和可变形DETR等基于变换器的DETR（Detection Transformer）模型利用自我注意机制，将图像视为斑块序列，这有助于整合全局上下文，并消除非最大抑制（NMS）的需要，从而简化后期处理。视觉语言模型（VLMs），如 CLIP（对比语言-图像预训练），是一个整合文本和视觉数据的新兴领域，旨在通过多模态学习增强鲁棒性，但其在现实世界场景中的应用，尤其是在机器人和自动化领域的应用，仍在不断发展中。另一方面，混合模型（如RetinaMask）、稀疏编码模型（如在线字典学习）和传统的基于特征的方法（如方位渐变直方图（HOG））越来越被认为已经过时。更先进的系统已经取代了这些方法，不仅精度更高，而且能够实时执行，这是对延迟敏感的操作（如现代农业环境中的操作）的关键要求。随着目标检测技术的不断发展，重点仍然放在将高精度与高效处理相结合的技术上，并将基于CNN和Transformer的模型定位为该领域当前的最先进技术。

在图1所示的六种主要目标检测方法中，基于CNN和Transformer的模型在过去五年中得到了最广泛的应用和最积极的发展。这两种模式因其扩展性、准确性和适应性，目前在研究和实际应用中都占据主导地位。这种持续的主导地位引发了这两种方法之间的竞争演变，特别是随着基于transformer-based的强大模型的发布，如Roboflow开发的RF-DETR。RF-DETR整合了Deformable DETR和LW-DETR的架构创新，并采用DINOv2骨干，提供更优越的全局上下文建模和领域适应性。该模型消除了对锚框和非最大抑制（NMS）的依赖，支持端到端训练和实时推理。RF-DETR有两个变体，即基本型（29M）和大型（128M），具有从边缘部署到高性能场景的可扩展性。该模型的性能已被证明优于YOLOv11，并且是迄今为止唯一一个在COCO数据集上超过60% mAP的模型。图2a和2b展示了该模型在 COCO和RF100-VL基准上的性能。不过，尽管RF-DETR前景看好，但尚未正式与YOLO 系列中最新、最先进的模型YOLOv12进行基准测试。如图2c所示，YOLOv12建立在YOLOv11、YOLOv10和Gold-YOLO RT-DETR的基础之上，因此有必要进行比较评估。

图片2.png

基于 CNN 的目标检测方法

自2012年AlexNet推动了这一领域的发展以来，CNN在推动目标检测方面发挥了重要作用。这些网络利用分层卷积、池化和非线性激活来有效学习图像中的特征表示。与通过注意机制处理全局关系的变换器不同，CNN的结构擅长提取局部特征，这得益于其固有的归纳偏差，如平移等差性和空间层次结构的建立。这一基本架构上的区别使得CNN特别适用于要求实时处理和边缘计算部署的场景，尽管CNN在对全局上下文信息进行全面建模的能力方面存在明显的局限性。

用于目标检测的CNN体系结构的进步主要体现在以下几个方面的重大创新：

R-CNN系列：该系列始于2014年的R-CNN，它利用选择性搜索生成区域建议，然后由 CNN 处理以提取特征，在PASCAL VOC数据集上实现了53.3%的mAP，但计算成本较高。随后的快速 R-CNN 和更快R-CNN分别引入了 ROI 池和区域建议网络 (RPN)，大大提高了这些模型的效率和速度。
掩码R-CNN：Faster R-CNN的扩展，包含一个分支，用于预测每个感兴趣区域（ROI）上的分割掩码，能有效处理高精度的实例分割。
YOLO系列：从YOLOv1开始，它将目标检测重新框定为从图像像素到边界框坐标和类概率的单一回归问题，到YOLOv12，它引入了无锚检测和动态标签分配等改进措施，以提高准确性和效率。
SSD：该模型将多尺度特征图与默认边界框结合起来进行检测，便于直接从特征图进行分类和定位，而无需单独的区域建议。
RetinaNet：以利用焦点损失函数解决类不平衡问题而著称，该函数通过降低分配给分类良好实例的损失权重，帮助模型聚焦于难以分类的实例。
EfficientDet：该模型采用了一种缩放方法，可系统地调整网络的深度、宽度和分辨率，并与 BiFPN 相结合，在不同尺度上进行特征融合，实现了高效和准确。

基于transformer-based的目标检测方法

DETR通过将传统上用于自然语言处理的变换器架构整合到视觉识别任务中，彻底改变了目标检测方法。

处理中使用的变换器架构，从而为目标检测带来了革命性的变革。DETR 由 Facebook AI于2020年推出，它提出了一种新颖的方法，将目标检测视为一个直接的集合预测问题，省去了锚点框等传统组件和复杂的后处理步骤（如非最大值加压（NMS））。DETR的核心是使用标准 CNN主干网（通常是ResNet-50）进行初始特征提取。随后是由编码器和解码器组成的转换器，其中编码器处理整个图像的空间特征，解码器使用学习到的对象查询来预测对象的存在及其类别和边界框，所有这些都是并行进行的。

DETR的主要架构变体解决了其最初的不足之处，如收敛速度慢和计算要求高：

可变形DETR：为解决标准transformer-based注意力机制的低效问题，它采用了可变形注意力，将注意力集中在每个参考点周围的一小部分关键采样点上，从而显著降低了计算负荷，提高了对小型物体的检测能力。这种变体利用迭代边界框细化和多尺度特征来提高准确性并加快训练速度。
RT-DETR：针对实时应用而开发，百度的这一变体采用混合编码器，融合了CNN和变换器特征，以优化尺度内交互作用和跨尺度融合，在标准硬件上实现了惊人的速度。它引入了IoU感知查询搜索，根据预测的对象性得分动态调整解码过程。
Co-DETR：通过实施结合传统一对多（如Faster R-CNN）和一对一（如DETR）标签匹配的双重监督策略，增强训练的稳定性和性能]。这种方法在分层注意力机制的支持下，显著提高了特征表示能力，尤其是在遮挡等具有挑战性的条件下。
YOLOS：不使用任何CNN，直接将视觉变换器（ViT）用于目标检测，从而脱颖而出。它使用一系列图像补丁（标记）和一组可学习的检测标记，证明变换器能有效编码检测任务中固有的空间关系。
OWL-ViT：通过整合视觉和语言，使用变换器解码器使图像特征与文本查询相一致，从而将变换器的适用性扩展到开放词汇检测领域。该模型有利于零镜头检测，即系统可以识别在训练过程中从未见过的、仅由文本描述的物体。
DINO（改进去噪锚框的 DETR）：主要通过一种新颖的训练策略来提高小目标检测能力，该策略包括在地面实况框中添加噪声，并学习预测校正偏移集，从而提高精度和鲁棒性。
RF-DETR：Roboflow发布的RF-DETR是一种基于transformer-based的实时目标检测模型，在NVIDIA T4 GPU上以25 FPS的速度达到60.5 mAP，在COCO和 RF100-VL等基准测试中优于YOLOv11和LW-DETR等模型。其架构专为高速边缘部署和领域适应性而设计，有两个变体：RF-DETR-Base（29M参数）和RF-DETR-Large（128M参数）。

目标

尽管在目标检测方面取得了重大进展，但在复杂、标签模糊的农业环境中，最新模型的性能仍未得到充分探索。最近发布的RF-DETR，是Roboflow开发的基于变换器的实时目标检测模型，在MS COCO数据集上的mAP超过了 60%，是迄今为止基于变换器的检测器中最高的记录，从而证明了该模型的性能。然而，RF-DETR的性能只与YOLO的早期版本（包括 YOLOv11）和其他几个模型（如 LW-DETR）进行过基准测试，与 YOLO系列中最新、最先进的基于CNN的检测器 YOLOv12 比较评估存在明显差距。这种缺乏直接比较的情况造成了不确定性，即 RF-DETR和 YOLOv12哪个模型在真实世界条件下的检测能力更强，尤其是在无遮挡、伪装和模糊标签的情况下。

本研究通过详细评估RF-DETR和YOLOv12在商业苹果园中的青果检测任务，填补了这一空白。未成熟的青苹果果实对早期产量估算和疏果至关重要，但由于其体积小、颜色与背景相似，且经常被果实或其他果实遮挡，因此很难检测。这种视觉复杂性导致了标签的不确定性，难以确定小果是完全可见、部分可见还是完全隐藏，这给人工标注和自动检测带来了挑战。

为了评估这两种架构的鲁棒性，我们开发了一个自定义数据集，并使用相同的训练协议和超参数对两种模型进行了评估。我们使用关键指标评估了单类和多类检测任务的性能：精度、召回率、F1-分数、mAP@50和mAP@50:95。我们还测量了推理速度和处理效率，旨在提供基于CNN的目标检测与基于变换器的目标检测在精准农业方面的清晰、证据驱动的比较。

三、方法

本实验分四个步骤进行，如图3a所示。首先，从一个条件复杂的商业果园中收集真实的田间图像，其特点是未成熟的绿色水果在绿色树冠下伪装、由于遮挡，给机器视觉带来了巨大挑战。随后，使用机器人平台和机器视觉相机捕捉这些图像，然后进行预处理和准备。第三步，使用相同的数据集、超参数和epoch数，实现了RF-DETR和YOLOv12这两个深度学习模型。最后，对这些模型的性能进行了评估，看它们能否在这一具有挑战性的果园环境中检测出单类和多类绿色水果物体。

图片3.png

研究地点和数据采集

本研究的数据采集在美国华盛顿州普罗瑟的一个商业果园进行，如图3b所示。果园里密植着“Scifresh”苹果树，俗称爵士苹果。之所以选择这个特定的果园，是因为它的环境条件复杂，成熟果实的绿色与绿色树冠背景相融合，如图 3c所示。这种颜色上的相似性给准确的图像检测带来了挑战，因为在复杂的果园场景中会出现严重的遮挡和视觉混淆。

如图3d所示，图像采集使用了一个复杂的机器人平台，该平台集成了英特尔 RGB-D摄像机，并安装在UR5e机械臂上。这种设置能够精确捕捉RGB图像，特别是聚焦于未成熟的“Scifresh ”苹果果实。图像采集于2024年5月，即疏果活动开始之前。采集时间是根据对果园发育阶段（疏果前，也就是疏果周）的持续监测，并与当地种植者和果园工人协商后精心选择的，以确保研究数据的最佳相关性。

图片4.png

果园建于2008年，果树行距为3米，行内间距为1米。在整个研究过程中，使用英特尔RealSense D435i摄像头拍摄了857幅图像，如图3d所示。所选摄像头配备了深度传感系统，该系统采用红外立体视觉技术，并辅以惯性测量单元（IMU）。该相机的深度传感器采用结构光技术，利用图案投影仪在两台红外摄像机拍摄的立体图像之间产生差异。

该相机的3D传感器拥有1280×720像素的分辨率，能够捕捉长达10米的深度信息。它支持高达90帧/秒的帧频，水平视场角 (HFOV) 为69.4°，垂直视场角 (VFOV) 为42.5°。此外，集成的6轴IMU可提供关键的方向数据，大大提高了深度数据与实际场景的一致性，从而改进了对所拍图像的整体理解和分析。这种详细而有条不紊的数据收集方法是解决果园环境所带来的视觉复杂性的基础。

数据预处理和准备

数据收集完成后，对获取的RGB图像进行系统的预处理和注释，以便为深度学习模型的训练和评估做好准备。

图像标注是使用Roboflow平台手动完成的，该平台是计算机视觉工作流程中广泛使用的自定义数据集生成工具。数据集的构建涉及两种标注方案：(i) 单类数据集和 (ii) 多类数据集，这两种方案都旨在捕捉现实世界果园条件下绿色水果检测的内在复杂性。

在第一种方案中，所有可见的未成熟苹果都被标记为“青果”，不论其可见或闭塞程度如何。为此，Roboflow共上传并处理了857张高分辨率果园图像。如图3e中部图像所示，该数据集捕捉到了各种绿色水果的外观，并生成了4125个单独的对象标签。该方案中的统一标签适用于建立基线检测性能，但并不能捕捉视觉挑战的动态变化，如部分遮挡或背景混合。为了更明确地探索这些复杂性，我们开发了第二种标签方案，以创建一个多类数据集。在这种情况下，每个绿色水果都被分为两类：遮挡绿色水果和非遮挡绿色水果。分类标准以可见度为基础。果实表面至少有90%的面积清晰可见，且未被树叶、树枝或其他果实遮挡，则被标记为非闭锁果实。相反，任何被重叠的苹果、交叉的树叶或遮挡的树枝部分遮挡的果实都被标记为闭塞果实。图3e最右边的图像描述了这种动态标注方法。

图片5.png

然而，标签模糊性使标注过程变得复杂，这是计算机视觉任务中的一个关键问题，尤其是在自然环境中。标签模糊性是指由于视觉边界不清晰、对象重叠或能见度不一致而导致的标签分配的不确定性或主观性。在本研究中，出现了几种标签模糊的实际情况。首先，在多个绿色水果紧紧聚在一起的情况下，往往不清楚其中一个是部分遮挡了另一个，还是它们并排在一起。其次，一些水果由于光照和阴影而不是实际的物理阻挡而被遮挡，导致不同图像的标签不一致。第三，树叶有时会模仿成熟水果的纹理和颜色，导致难以区分感兴趣的物体和背景。第四，图像边缘的部分遮挡常常让标注者无法确定是将物体归类为遮挡物，还是仅仅由于视场原因而被截断。这些例子突出说明了为什么真实果园环境中的绿色水果检测特别容易出现分类不一致的问题。虽然分类准则得到了严格执行，但物体的几何形状、环境纹理和可见度之间复杂的相互作用使得完全的目标性难以实现。因此，“标签模糊性 ”一词被用来描述数据集固有的主观性及其在模型训练和评估过程中带来的潜在可变性。

训练目标检测模型

训练 RF-DETR 目标检测模型

图4a所示，RF-DETR 建立在可变形DETR和LW-DETR的基础之上，将预先训练好的DINOv2视觉变换器作为其主干。这一主干系统通过自我监督学习增强了跨领域泛化能力，使模型能够高度适应特定领域的挑战，如农业环境中的青果检测。

图片6.png

RF-DETR的一项关键创新在于它能够消除传统的目标检测组件，如锚框和 NMS。取而代之的是，它使用基于transformer-based的编码器-解码器架构，配合可变形的交叉注意，选择性地注意与空间相关的特征，从而提高了在遮挡、杂波和伪装下的检测能力。与传统的DETR变体不同，RF-DETR采用了单尺度特征提取策略，以减少计算开销，从而在不影响精度的情况下加快检测速度。

该模型有两个变体：RF-DETR-Base（2,900 万参数）和RF-DETR-Large（1.28 亿参数）。在本研究中，我们选择了RF-DETR-Base模型，因为该模型兼顾了计算效率和高检测精度，适用于现场机器人的实时采集。RF-DETR-Base模型在 COCO基准上的mAP为53.3，在RF100-VL数据集上的 mAP@50 为 86.7，是实时设置中mAP@50:95超过60%的少数模型之一。

训练按照Roboflow的正式实施进行。该模型使用DINOv2预训练权重进行初始化，并使用 AdamW 优化器进行训练，学习率为1e-4，批量大小为8，历epoch300次。训练利用了受RT-DETR和去形式注意机制启发的混合编码器优化。损失函数包括用于分类的交叉熵和用于边界框回归的L1和GIoU损失组合。

此外，还采用了对比去噪训练，以提高对部分可见物体和小物体的检测鲁棒性。RF-DETR还采用了协作标签分配，以便在注释不明确的情况下保持稳定，并支持多分辨率输入（640-1280 px），从而在无需重新训练的情况下对延迟和准确性进行权衡。这种配置使RF-DETR-Base成为在复杂果园环境中检测隐蔽和伪装的未成熟绿色水果的强大而高效的模型。

训练YOLOv12目标检测模型

YOLOv12代表了基于CNN的目标检测领域的一次变革性飞跃，它将传统对话架构的效率与受注意力启发的机制相结合，以满足现代计算机视觉的需求。与之前的 YOLO 迭代不同，如图4b所示，该模型引入了R-ELAN（残差高效层聚合网络）作为其核心骨干，将残差连接与多尺度特征融合相结合，以解决梯度瓶颈问题，同时提高跨网络深度的特征重用性。新颖的7×7可分离卷积层取代了标准的3×3内核，与传统的大内核卷积相比，它保留了空间上下文，减少了60%的参数，同时对位置关系进行了隐式编码，有效地避免了基于transformer-based的检测器中使用的显式位置嵌入。颈部架构集成了 FlashAttention 优化的区域注意力，将特征图划分为四个水平/垂直区域，以便在不牺牲全局背景的情况下进行局部处理，与标准自注意力实施方案相比，内存开销减少了40%。YOLOv12- S变体在速度（快1.2倍）和精度（62.1对59.3 COCO mAP）方面均优于RT-DETR-R18，这些创新技术在保持实时性能的同时实现了最先进的精度。该架构通过统一的预测路径进一步支持多任务学习，允许同时进行对象检测、定向边界框（OBB）估算以及通过专用头进行实例分割，这在YOLO系列中尚属首次。硬件感知优化确保了边缘推理时间低于10毫秒，其中12n变体（210 万个参数）的延迟时间为9.8 毫秒，同时通过任务专用头中的轻量级MLP比率（1.2-2.0与传统的4.0相比）保持了对50px以下物体的稳健检测。

图片7.png

YOLOv12的架构改进优化了当代硬件的卷积操作，同时通过创新的注意力机制引入了类似transformer-based的功能。区域注意力机制通过FlashAttention的内存高效算法独立处理特征图片段，从而实现精确的特定区域注意力，而无需承担完全自我注意力的计算负担。该模型提供四种配置（12n/12s/12m/12x），参数从210万到4200万不等，以适应边缘部署（Jetson Nano）和云集群（A100 GPU）。与以往仅限于轴对齐检测的YOLO版本不同，YOLOv12引入了具有角度预测功能的 OBB头，这对航空图像和文档分析至关重要。通过R-ELAN中的块级残差缩放，增强了训练稳定性，在保持YOLO系列的单通道效率的同时，防止了深度网络中的特征退化。基准测试结果表明，所有变体的mAP均比YOLOv11高出 4-8%，其中12x模型在COCO上达到68.9 mAP，在小型目标检测任务中超过了 DINO-DETR等类似大小的transformer-based混合体。该架构将特征提取（主干）和注意力驱动细化（颈部）分离开来，实现了有针对性的优化，使12s变体能够在英伟达T4 GPU上以45 FPS的速度处理4K视频流。通过将CNN的参数效率与注意力机制的上下文意识相结合，YOLOv12建立了实时视觉系统的新标准，特别是在需要在严格的延迟限制下进行同步检测、分割和几何预测的工业应用中。

训练方法

深度学习模型RF-DETR和YOLOv12的训练程序是在相同的实验设置下进行的，以确保进行公平、严格的比较。所有训练都是在工作站上进行的，工作站配备了英特尔（R）酷睿（TM）i9-10900K CPU @ 3.70GHz（10 个内核，20 个线程），运行 Ubuntu 24.04.1，并由英伟达（NVIDIA）RTX A5000 GPU（24 GB VRAM）提供支持。这种高性能硬件配置确保了训练大规模目标检测模型所需的充足计算资源。RF-DETR 目标检测模型，特别是基础变体，在单类青果数据集上进行了 50 次epoch训练，在多类数据集上进行了 100 次epoch训练。

值得注意的是，RF-DETR在单类数据集上表现出了快速的收敛性，在不到 20 个epoch的情况下性能就达到了顶峰，这凸显了该模型高效的学习动态性及其对低epoch训练机制的适用性。YOLOv12模型（包括YOLOv12X、YOLOv12L和YOLOv12N）在单类和多类数据集上的训练时间均为100个epoch，以确保收敛性和最佳基因化。RF-DETR是在PyTorch中使用Roboflow的rf-detr框架实现的，该框架将De-formable DETR架构与预训练的DINOv2骨架集成在一起，以增强全局上下文建模和跨域适应性。YOLOv12 模型使用官方的Ultralytics PyTorch框架进行训练，该框架针对快速检测和高效边缘部署进行了优化。对于这两个模型，输入图像的分辨率被标准化为640×640像素，这是果园目标检测任务中通常采用的分辨率。

模型训练采用 FP32 精确度，每次迭代的批量大小约为16幅图像。软件环境包括CUDA 11.7+和cuDNN 8.4+，确保与GPU加速和深度学习库完全兼容。通过这种标准化的设置，可以对基于transformer-based和CNN架构的模型的准确性、收敛行为和训练效率进行可靠的比较评估。

性能评估

为了严格评估RF-DETR和YOLOv12在复杂果园环境中识别绿色水果的能力，我们使用标准化指标进行了综合评估。

标准化指标进行了全面评估。两个模型都在统一条件下进行了训练和测试，使用相同的数据集、训练epoch、学习率、优化器和批量大小，以确保对基于CNN的YOLOv12和基于Transformer的RF-DETR架构进行公平比较。

检测评估指标

采用的评估指标包括精确度、召回率、F1分数、平均精确度 (mAP@50和mAP@50:95)，以及平均联合交叉点 (mIoU)。这些指标根据预测边界框与地面实况注释之间的交互作用来量化性能：

真阳性（TP）：预测的边界框能正确识别地面实况果实，其“联合交叉”(IoU) ≥所定义的阈值（通常为 0.50）。
假阳性 (FP)：预测的边界框要么与任何地面实况框重叠不足（IoU < 0.50），要么错误地标记了一个不存在的物体。
假阴性 (FN)：去检测模型忽略了一个真实的果实，没有相应的预测框与之充分重叠。

图片8.png

如果你也想要感受模型改进或者模型训练，Coovally平台满足你的要求！

Coovally平台整合了国内外开源社区1000+模型算法和各类公开识别数据集，无论是YOLO系列模型还是Transformer系列视觉模型算法，平台全部包含，均可一键下载助力实验研究与产业应用。

而且在该平台上，无需配置环境、修改配置文件等繁琐操作，一键上传数据集，使用模型进行训练与结果预测，全程高速零代码！

具体操作步骤可参考：YOLO11全解析：从原理到实战，全流程体验下一代目标检测

平台链接：https://www.coovally.com

如果你想要另外的模型算法和数据集，欢迎后台或评论区留言，我们找到后会第一时间与您分享！

四、检测结果

图5展示了使用RF-DETR和YOLOv12进行单类和多类青果检测的结果，以评估它们在复杂果园环境中检测青苹果的性能。图5展示了三个示例，重点介绍了每个模型在单类检测场景中的表现，说明了它们在以茂密树叶和部分遮挡为特征的挑战性条件下的功效。同样，图6展示了三个多类检测示例，重点说明了模型有效处理标签模糊性的能力。

图片9.png

每个示例包括在果园采集的原始RGB图像（左）、RF-DETR的检测输出（中）和YOLOv12的检测输出（右）。关键的关注区域用黄色虚圈标出，重点是果实聚集、伪装或被严重遮挡的区域。在图5a中，三个未成熟的青苹果紧密地聚集在茂密的树冠中，树叶重叠造成了明显的局部遮挡。原始图像如左图所示，由于果实与背景对比度较低，且树叶结构复杂，因此呈现出极具挑战性的场景。如图5a 中间的图像所示，RF-DETR成功地检测到了所有三个绿色水果实例，尽管它们部分可见，但仍正确地将每个水果划定了边界。相比之下，右图中YOLOv12 只检测到了三个苹果中的两个，而且未能识别出第三个被遮挡最严重的水果。这一结果凸显了RF-DETR在处理复杂空间关系和遮挡物方面的卓越能力。

图5b提供了另一种具有挑战性的条件，黄色虚线圈内的单个绿色苹果由于与周围树冠的视觉相似而被伪装起来。尽管水果与背景之间的对比度很低，RF-DETR 是准确地识别出了绿色水果，如中图所示。相反YOLOv12却未能检测到这种水果，这表明它在分辨同质背景中被凸轮遮挡的目标方面存在局限性。

在图5c中，我们检测了一种不同的情况，由于树叶遮挡严重和环境光照不足，只有水果花萼的一小部分（约10%）是可见的。原始的RGB图像（左图）显示水果的可见表面积极小。

果实的表面区域。值得注意的是，RF-DETR仍能在中间图像中检测到部分暴露的水果，而YOLOv12则再次未能在其检测输出中记录该物体。与基于CNN的YOLOv12模型相比，这些例子一致表明RF-DETR在单类绿色水果检测中具有更高的灵敏度和鲁棒性，尤其是在遮挡、伪装和低能见度条件下。

图6显示了RF-DETR和YOLOv12在多类青果检测中的定性比较，其中果实被分为闭塞和非闭塞两种。这一评估突出显示了模型在处理标签模糊性方面的性能--在这种情况下，由于聚类、遮挡或边缘截断等原因，可见度不清晰。

图片10.png

同样，在图6a中，一个密集的绿色水果集群出现在图像边缘附近，形成了一个高度模糊的场景。如最右边的图像所示，YOLOv12在该区域检测到了7个绿色水果实例。然而，地面实况标注证实实际只有5个绿色水果。YOLOv12将背景纹理或重叠的树冠特征错误地归类为未包含的苹果，从而导致误报。与此相反，RF-DETR（如中间图像所示）正确地检测到了5个实际的绿色水果，但却没有将它们高度确定地分类为闭塞/非闭塞类别。在这个例子中，YOLOv12在视觉上显得更活跃，但准确性较低，而RF-DETR则能提供精确的检测，且误判率较低。

此外，在图6b中，原始图像（左）中的黄色圆圈突出显示了真正的绿色水果。RF-DETR检测到了12个苹果，包括位于画面底部的一个被遮挡的苹果，该苹果被正确标记为被遮挡（中）。YOLOv12检测到了11个苹果，但错误地将底部被遮挡的苹果标记为非遮挡（右图），这表明RF-DETR目标检测模型在区分遮挡类别方面表现更好，这可能是由于其全局注意力建模的缘故。

同样，图6c展示了一个具有挑战性的低可见度案例，在该案例中，只有10% 的绿色水果在树叶遮挡下可见（蓝色箭头所示）。RF-DETR成功检测到并将其归类为隐蔽（中），而 YOLOv12则完全检测不到水果（右）。这加强了RF- DETR处理极端闭塞的能力。

精度、召回率和F1分数评估

在所有接受评估的模型中，YOLOv12N在单类绿色水果检测方面的召回率（0.8901）和F1分数（0.8784）都是最高的，这表明它有很强的能力在保持均衡精度的同时检测到几乎所有绿色水果实例。然而，就精度而言，YOLOv12L的表现优于YOLOv12和RF-DETR物体检测模型的所有其他配置，在单类检测中取得了0.8892的最高值。这证明了YOLOv12L在减少误报和准确预测方面的卓越能力。表1详细列出了所有模型和检测类型的精确度、召回率和F1指标。

图片11.png

平均精确度（mAP）分析

虽YOLOv12N的mAP@50:95为0.7620，但RF-DETR的mAP@50一直较高，这表明其在实际检测场景中的性能更可靠，尤其是当50%阈值的边界框精度至关重要时。在多类检测场景中，绿色水果被标记为隐蔽或不可见。

在单类绿色水果检测中，RF-DETR的mAP@50为0.9464，超过了所有其他模型，这表明它在准确检测和定位有足够重叠的绿色水果方面能力出众。此外，RF-DETR的mAP@50:95为0.7433，在非重叠模型中位居第二，YOLOv12L的 mAP@50:95为0.6622，略高于YOLOv12X和RF-DETR的对象检测结果（分别为0.6609和0.6530）。这表明，在标签模糊的情况下，YOLOv12L在保持不同程度重叠的检测一致性方面略胜一筹。不过，RF-DETR物体检测模型在多类设置中的mAP@50值最高，达到0.8298，这证实了它在有把握地检测至少50%空间对齐的物体方面的优势。这些发现表明，RF-DETR在空间精确检测方面表现出色，尤其是对于清晰可见的水果，而YOLOv12L在涉及遮挡的复杂分类场景下表现稍好。这些指标的完整可视化图示见图7，其中图7a显示了单类检测的mAP@50，图7b显示了多类检测的mAP@50和 mAP@50:95。

图片12.png

训练动态和模型收敛分析

图8提供了RF-DETR和YOLOv12X模型的平均精度（mAP@50）与训练历元数的详细可视化对比，揭示了它们在训练阶段的学习效率和稳定性。图8a跟踪了单类青果检测的性能，其中基于transformer-based的目标检测模型 RF-DETR展示了令人印象深刻的早期收敛性，在 10 个epoch之前就达到了平稳状态。这种快速稳定的特性凸显了RF-DETR对复杂果园场景的快速适应能力，与YOLOv12X等基于CNN的传统模式相比，这是一项重大进步。

同样，图8b展示了多类检测场景的训练过程。在这里，RF-DETR也显示出更快的收敛性，在20个epoch左右就达到了稳定性，远远早于继续寻求平衡的 CNN。RF-DETR在单类和多类环境中的收敛速度更快，体现了transformer-based技术在高效处理动态和视觉杂乱环境方面的固有优势。

图片13.png

五、讨论

青果检测技术的发展与计算机视觉领域的最新进展密切相关，每一次新模型的迭代都会带来更多细致入微的功能，尤其是在复杂的农业环境中。值得注意的是，其中对YOLOv11和YOLOv8进行了对比分析，重点关注它们在分割闭塞和非闭塞未成熟绿色水果方面的功效。同样，利用YOLOv8结合三维点云数据的几何形状拟合，探索了尺寸估计技术，旨在提高产量预测和作物管理决策。这些研究强调了在多变的果园环境中提高检测系统的准确性和效率。

在此背景下，我们的研究利用了RF-DETR模型，该模型在检测性能方面树立了新的标杆。RF-DETR基于transformer-based的结构实现了0.9464的mAP@50，超过了YOLOv12，展示了卓越的空间检测精度，尤其是在部分可见度和伪装条件下。该模型在训练过程中的快速收敛进一步凸显了其效率，表明它比传统的基于CNN的模型有了显著进步。

视觉语言模型（VLM）与开放词汇检测的整合也代表着向更具动态性和适应性的检测系统的关键转变。如文献所述，这些技术无需重新训练即可识别更广泛的水果类型和特征。这种适应性对于管理农业环境中的各种典型条件至关重要，因为在农业环境中，水果的外观和环境因素（如光照和遮挡）变化很大。应用结合各种感官数据类型的多模态学习方法有望解决长期存在的挑战，如伪装和标签模糊性。探索半监督和少量学习范例可以减少对大量标记数据集的依赖，从而促进对新果园环境的快速适应。此外，为实时现场应用部署轻型transformer-based变体和高效 VLM 非常重要。这些进步将有助于开发移动或基于边缘的系统，提供实时分析，这对即时农业决策至关重要。这些领域的持续进步无疑将打造出不仅高度准确，而且能够理解语义和文本内容的检测系统。这些系统将推动精准农业的下一波创新，确保检测技术不仅有效，而且强大，能够适应果园自然环境的复杂动态。

六、结论

本研究对RF-DETR（基于Transformer-based）和YOLOv12（基于CNN）对象检测模型进行了深入评估，以检测具有复杂视觉环境的商业果园中的绿色水果。研究过程包括收集真实世界的图像，为单类和多类检测准备基于遮挡标签的数据集，以及在标准化条件下对模型进行评估。比较基于精确度、召回率、F1分数和平均精确度（mAP@50和mAP@50:95）。分析扩展到了训练动态，结果显示RF- DETR的收敛速度更快，与YOLOv12相比，只需更少的epoch就能获得稳定的性能。这一洞察力凸显了RF-DETR在适应果园环境多变条件方面的有效性，同时还能在大量训练阶段保持准确性。

主要发现：

单类检测：RF-DETR 物体检测模型表现出卓越的性能，mAP@50高达0.9464，能在复杂背景中有效定位和保护绿色水果。虽然YOLOv12N的 mAP@50:95达到了0.7620的最高值，但RF-DETR在有遮挡和被遮挡的情况下始终保持着更高的准确性。
多类检测：RF-DETR在区分闭塞和非闭塞水果方面表现出色，mAP@50:95 为 0.8298。YOLOv12L的mAP@50:95为0.6622，略好于RF-DETR，显示了在详细遮挡条件下更高的分类准确性。
模型训练动态和收敛： RF- DETR物体检测模型的显著特点是其快速的特别是在单类场景中，它在不到10个epoch的情况下就达到了稳定，这证明了基于transformer-based的架构在处理动态视觉数据时的效率和鲁棒性。