YOLO-MECD:基于YOLOv11的柑橘检测算法(附源代码)

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

准确量化柑橘的落果数量,对于评估柑橘品种的抗逆能力以及筛选优良品种而言至关重要。

PART/1

     概述   

准确量化柑橘的落果数量,对于评估柑橘品种的抗逆能力以及筛选优良品种而言至关重要。然而,在这一关键领域的研究仍明显不足。为了填补这一空白,我们使用包含1200张柑橘图像的自定义数据集进行了深入实验,并基于YOLOv11s架构提出了一种轻量级的YOLO-MECD模型。

首先,引入了EMA注意力机制,取代了传统的C2PSA注意力机制。这一改进不仅增强了对柑橘果实的特征提取能力和检测精度,还大幅减少了模型参数。

其次,我们实现了基于部分卷积的CSPPC模块,用以替换原有的C3K2模块,在保持平均精度均值(mAP)值的同时,有效降低了参数数量和计算复杂度。

最后,采用了MPDIoU损失函数,提升了边界框的检测精度,并加快了模型的收敛速度。值得注意的是,我们的研究表明,减少主干架构中的卷积操作可显著增强对小目标物体的检测能力,并大幅减少模型参数,这比添加小目标检测头更为有效。

实验结果以及与类似网络模型的对比分析表明,YOLO-MECD模型在检测性能和计算效率方面均取得了显著提升。该模型在柑橘目标检测任务中展现出了出色的综合性能,精确率(P)为84.4%,召回率(R)为73.3%,平均精度均值(mAP)提升至81.6%。与基线模型相比,YOLO-MECD在检测精确率、召回率和平均精度均值方面分别提高了0.24.13.9个百分点。此外,模型参数数量从YOLOv11s9413574个大幅减少至2297334个(减少了75.6%),模型大小从18.2兆字节压缩至4.66兆字节(减少了74.4%)。而且,YOLO-MECD与当前的其他模型相比也表现出色,与YOLOv8sYOLOv9sYOLOv10s相比,平均精度均值分别提高了3.8%3.2%5.5%。该模型在包括柚子和金桔等各种柑橘类水果上均具有出色的检测性能,证明了其通用性。

这些成果为推进柑橘果实检测系统以及智慧果园的发展奠定了坚实的技术基础。

PART/2

     背景   

柑橘是世界上最重要的经济作物之一,在国际农业领域占据着重要地位。中国拥有丰富的柑橘资源,品种多样,在种植面积和产量方面均居世界首位。柑橘产业已成为推动中国农村经济发展的关键力量。在柑橘生长期间,树上的果实数量是反映树体健康状况的一个重要指标。在柑橘种植过程中,各种极端自然灾害(如强风、暴雨等)很容易导致落果,给果农带来重大损失。因此,柑橘育种者一直在寻找对自然灾害具有一定抗性且不易落果的优良品种,这对中国柑橘产业的发展具有重要意义。目前,育种者和果农在自然灾害发生后,主要通过人工方式统计树上或掉落的果实数量,这不可避免地存在成本高、效率低、准确性差等问题。这种不足限制了柑橘优良品种的筛选,已成为柑橘产业发展的瓶颈。因此,如何在自然环境中实现对树上或掉落果实的精确检测和自动计数,是一个亟待解决的紧迫问题。

尽管基于形态学的方法此前取得了尚可的成果,但其通用性仍不尽如人意。此外,这些方法需要手动设计特征,并且容易受到光照和环境背景的影响,不利于在不同环境中实际应用。近年来,以卷积神经网络为代表的深度学习算法已广泛应用于农业水果识别、病害检测、产量估算等领域,并在脐橙、柑橘、柚子等作物上取得了良好的效果。基于不同的模型结构,基于深度学习的目标检测算法主要可分为两类。一类是以R-CNNFastR-CNNFasterR-CNN为代表的两阶段目标检测方法;这些方法首先获取候选区域,然后在当前区域内进行分类。例如,Yan等人提出了一种基于改进的FasterR-CNN的刺梨果实识别方法,其召回率、精确率和识别速度分别达到了96.93%95.53%0.2/张图像。Xiong等人提出了一种基于FasterR-CNN的绿色柑橘视觉检测方法,能够在不同光照条件和不同大小的情况下准确识别绿色柑橘,平均精度均值(mAP)达到了85.49%。虽然这些算法精度较高,但候选区域生成步骤消耗大量计算资源,且检测时间较长,难以满足实时性要求。另一类是单阶段目标检测算法,以SSDYOLOYouOnlyLookOnce)系列为代表。这些算法无需生成候选框,而是将边界框问题转化为回归问题,具有精度高、速度快、训练时间短、计算成本低等特点。例如,Zhang等人针对高度密集且严重粘连的樱桃番茄目标,提出了一种改进的YOLOv4-LITE轻量级神经网络检测算法。该模型使用MobileNet-v3作为特征提取网络,对金字塔网络进行了修改,并引入了小目标检测层,使模型权重显著降低,平均精度达到了99.74%Wang等人基于YOLOV8网络,引入MPDIoU来替代原有的CIoU作为损失函数,加快了模型收敛速度,添加了小目标检测层以提高小目标识别能力,并使用SCConv作为特征提取网络。测试结果表明,改进后的网络模型精确率、召回率和平均精度均值分别达到了97.7%97%99%

在柑橘检测方面,Lv等人基于改进的YOLOv5s提出的YOLO-GC模型,成功实现了在复杂自然环境中对果实的实时精确检测。该模型取得了优异的成果,精确率、召回率和平均精度均值(mAP)分别达到了96.5%89.4%96.6%Lv等人对YOLOv3网络架构进行了优化,在减小模型规模的同时,提高了检测速度和精度。Gao等人提出的改进的YOLOv5检测方法取得了突破:在将模型参数减少到原网络的七分之一的情况下,仍实现了98.8%的精确率和99.1%的平均精度,有效解决了传统算法中精度与模型复杂度之间的固有矛盾。

从现有研究来看,尽管基于深度学习的水果目标检测技术取得了显著进展,但目前的研究主要局限于单一水果类别的检测,显示出模型泛化能力的局限性。特别是对于柑橘类水果,其种类繁多且个体间差异较大,进一步增加了检测的难度。此外,早期版本的YOLO算法,如YOLOv8,往往存在模型架构复杂、计算需求高的问题,不太适合轻量级应用场景。为了解决这些问题并满足柑橘育种者和果园管理者的实际需求,本文以树上果实和掉落果实为研究对象,提出了一种基于改进的YOLOv11的柑橘检测与计数方法。

PART/3

     新方法解释   

图像采集柑橘图像于202410月至11月在江西省南昌市的江西农业大学果园(东经115.8°,北纬28.7°)采集。图像是用荣耀70相机(荣耀终端有限公司,中国深圳)拍摄的。由于前期天气不佳,每棵果树都有不同程度的落果。为了提高模型在现实场景中的适用性,在不同距离、天气条件、光照条件、遮挡情况、视角和果实密度等条件下共拍摄了1200张分辨率为4096×3072像素的图像。每张图像中都包含树上的柑橘果实和落在地上的柑橘果实。一些样本图像如下图所示。

数据集标注与构建建立了两个类别:树上的果实(命名为“orange_T”)和落在地上的果实(命名为“orange_G”)。数据集标注过程是利用LabelImg图像标注软件(1.8.0版本)执行的。数据集按8:1:1的比例划分为训练集、验证集和测试集。为了增强网络模型的鲁棒性和泛化能力,我们采用了全面的数据增强过程,包括六种变换技术:空间平移、旋转变换、几何翻转、策略性裁剪、亮度调整和高斯噪声注入。这一系列措施有效地增强了模型的鲁棒性,使其能够更好地应对复杂多变的数据环境。

数据分析对空间特征的定量分析揭示了几个重要发现。

上图a展示了柑橘边界框的空间分布分析,表明其主要呈均匀分布模式,没有明显的聚类现象。上图b展示了图像空间内边界框相对大小的维度分析,显示尺寸明显集中在00.01范围内。这种分布模式表明数据集中小尺度目标物体占主导,这一特征可能给检测精度带来挑战。这些观察到的分布特征可归因于多个相互关联的因素,包括但不限于既定的柑橘种植方法、内在生长模式以及数据采集过程中的视角限制,所有这些因素都增加了模型检测参数的复杂性。

YOLOv11网络架构YOLOv11YOLOYouOnlyLookOnce,即一次看全)目标检测算法系列的最新发展成果。与之前的版本相比,它引入了复杂精密的架构范式和技术创新,在模型精度和计算效率上都有显著提升。YOLOv11框架包含五个不同的模型变体——nslmx,其特点是网络深度和检测精度逐渐增加,这是为适应不同应用场景而进行的策略性设计。基于对检测精度、模型复杂度和硬件兼容性等因素的综合考虑,我们从这些变体中选择了YOLO11s作为我们研究的基础架构。

YOLOv11的框架由三个基本组件构成:主干网络(backbone)、颈部网络(neck)和头部网络(head)。主干网络负责特征提取,采用经典的Darknet-53深度残差网络架构,融入了精心设计的、具有不同内核尺度的卷积层,以实现全面的多尺度特征捕捉。值得注意的是,其中集成了C3k2模块,利用其在将高级特征与上下文信息合成方面已被证实的能力来提高检测精度。因此,YOLOv11CSPLayer进行了精细修改,用更先进的C3k2模块取代了传统的C2f模块。经过多次卷积操作后,YOLOv11并入了SPPF模块,以扩大感受野并在复杂环境场景中捕捉层次特征。

YOLO-MECD模型尽管YOLOv11被设计为通用目标检测模型且表现出色,但针对柑橘检测任务,仍可通过考虑果实大小变化大、遮挡情况复杂以及颜色和纹理图案相似等特定目标特征来进一步优化,以提高检测精度和适应性。因此,我们提出了YOLO-MECD,它是YOLOv11s的增强衍生模型。这种新型模型提高了小尺寸目标的检测精度。具体的架构改进包括以下修改:

1.采用EMA注意力机制取代原有的C2PSA注意力机制,在减少模型参数的同时,增强网络特征提取能力。

2.MPDIoU损失函数替代传统的CIoU损失函数,从而提高模型检测精度并加快收敛速度。

3.集成CSPPC架构以取代YOLOv11中的C3K2结构,有效降低模型的参数复杂度。

4.对主干组件中的卷积操作进行优化,在大幅减少参数的同时,增强小目标检测能力。YOLO-MECD模型的架构框架如下图所示。

CSPPC模块虽然减少主干中的卷积操作能有效减少模型参数和体积,但这可能会导致每秒十亿次浮点运算(GFLOPs)增加。为了在不影响检测精度的情况下提高模型效率,许多研究人员采用了深度卷积进行特征提取。尽管这种方法有效降低了计算复杂度,但同时也增加了内存访问需求,导致GFLOP效率降低。YOLOv11中的C3K2模块结合了多个瓶颈模块,能提取全面的特征,但会引入过多的通道信息冗余。因此,某些通道可能与其他通道表现出高度相似性,导致在正向传播过程中进行冗余处理,而不会提供额外的有效信息,从而增加了计算和内存开销。为了克服这些限制,本研究采用了PConv(部分卷积),这是一种具有高速推理能力的轻量级卷积结构。基于这种架构,我们开发了CSPPC结构来取代YOLOv11中的C3K2模块。CSPPC结构的架构框架如下图所示。

PConv的基本架构基于在卷积操作期间对输入通道的一个子集进行选择性处理,同时对未处理的通道保持通道完整性。这种创新的设计模式通过消除冗余的通道计算实现了显著的计算优化,在不损害操作能力的情况下,有助于提高空间特征提取效率,同时改善实时性能和模型效率指标。

从数量上看,给定特征图维度、总通道数、参与卷积的通道数以及卷积核维度,PConv模块的计算复杂度(FLOP)可以通过以下公式正式表示。其架构示意图如下图所示。

EMA注意力机制注意力机制是一个至关重要的架构组件,它有助于对特征进行选择性的重点关注,使模型能够优先处理图像中显著的特征,同时弱化不相关的背景信息,从而提升检测性能指标和泛化能力。EMA(高效多尺度注意力)是一种经过优化的多尺度注意力模块,其基本原理基于在保持模型复杂度限制的前提下,通过策略性的通道重组和分组方法来实现高效的跨通道学习。EMA注意力机制的架构如下图所示。

损失函数是检测模型框架中不可或缺的组成部分,是定量评估预测效果的关键指标。损失函数的值与预测边界框和对应真实坐标的空间接近程度成反比。YOLOv11采用了CIoU(完全交并比)边界损失函数。MPDIoU损失函数涵盖了其他损失函数通常会考虑的所有相关因素,为目标检测边界优化提供了更全面的方法。MPDIoU简化了两个检测框之间的相似度比较,适用于重叠和非重叠边界框的回归。MPDIoU的计算原理如下图所示。

它通过计算预测框和实际框之间的最小点距离作为相似度指标,提高了预测准确性并加速了模型回归收敛。

检测层重构

YOLOv11网络检测层架构如上图a所示。经过特征融合后,检测头p3p4p5输出的特征图尺寸分别为80×80像素、40×40像素和20×20像素,分别对应小、中、大目标。在检测头p3p4p5输出的特征图中,每个像素分别代表输入网络图像中32×32像素、16×16像素和8×8像素区域的信息。然而,图像中许多目标物体的尺寸小于8×8像素,这导致输出特征图中的细节信息相对有限,进而造成小目标检测精度不佳,出现大量漏检情况。

PART/4

     实验及结果   

YOLO-MECD网络的性能实验结果表明,改进后的YOLO-MECD模型在柑橘检测任务中表现极为出色,准确率(P)达到了84.4%,召回率(R)为73.3%,平均精度均值(mAP)为81.6%。通过对比YOLO-v11sYOLO-MECD在精确率曲线、召回率曲线、平均精度均值(mAP)曲线以及损失曲线方面的性能(如下图所示)

很明显,改进后的模型在精确率、召回率和平均精度均值这三个关键指标上都有显著提升。此外,损失函数的收敛速度明显更快,这表明在训练过程中具有更高的效率和稳定性。这些改进充分证明了YOLO-MECD模型在柑橘目标检测任务中具有更强的检测能力和实用价值。

下图展示了YOLO-MECD模型在不同场景下的检测性能。

下图比较了YOLO-MECD与原始YOLOV11模型的实际检测性能。

泛化实验为了验证模型的泛化能力,需要在多个数据集上进行实验。柚子和金桔是常见的柑橘类水果,但它们在大小方面与柑橘有显著差异。因此,我们选择这些数据集进行测试,部分测试结果如下图所示。

为了探究YOLO-MECD检测优势的原因,本研究采用GradCAM++方法生成热力图,对柑橘类水果的关键特征进行可视化,突出YOLO-MECD的优势。热力图通过不同的颜色强度来表示目标分布信息,其中暖色(如红色和黄色)表示高活性或高重要性区域,而冷色(如蓝色和绿色)表示低活性或低重要性区域。热力图中暖色集中的区域对于检测性能尤为重要。下图展示了不同模型在各种条件下生成的热力图。

有相关需求的你可以联系我们!

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

往期推荐 

🔗

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值