YOLOv1到YOLOv10:YOLO变体及其在农业领域的应用综述

今天看到一篇综述觉得还蛮好的,系统性阐述了YOLOv1——YOLOv10的发展历程以及各个版本及其变种网络模型在农业领域的应用,这里是我趁着晚上闲暇时间完整的阅读记录,感兴趣的话可以参考一下,如果想要阅读原文的话可以看这里

摘要

本调查研究了从YOLOv1到最先进的YOLOv10等各种YOLO变体在农业进步中的变革潜力。主要目标是阐明这些尖端物体检测模型如何重新激发和优化农业的各个方面,从作物监测到牲畜管理。其旨在实现以下关键目标:识别农业中的当代挑战,详细评估YOLO的渐进式改进,以及探索其在农业中的具体应用。这是首批包含最新YOLOv10的调查之一,为人工智能和自动化时代的精准农业和可持续农业实践提供了新的视角。此外,本调查还对YOLO的性能进行了批判性分析,综合了现有研究,并预测了未来的趋势。通过仔细审查YOLO变体的独特能力及其在实际应用中的表现,本调查提供了关于YOLO变体与农业之间不断发展的关系的宝贵见解。研究结果有助于对精准农业和可持续农业实践的潜力进行细致的理解,标志着在农业领域整合先进物体检测技术方面迈出了重要一步。

关键词:精准农业;自动化;计算机视觉;YOLO;物体检测;农业应用;实时图像处理;农业中的深度学习;卷积神经网络(CNN);YOLO版本比较;自动化作物监测

1 引言

近年来,计算机视觉与农业的交叉领域取得了显著进展,开启了精准农业和农业管理的新时代[1]。推动这一范式转变的关键技术之一是You Only Look Once(YOLO)算法的演变,这是一系列表现出卓越效率和准确性的物体检测器。本综述旨在深入探讨主流YOLO变体,从YOLOv1开始,直至最新的YOLOv10。特别是,本研究试图揭示YOLO变体在革命性农业实践和促进可持续进步方面的潜在作用。YOLO系列的物体检测器由Joseph Redmon于2015年引入,以YOLOv1为起点,标志着物体检测架构目录中的一个转折点。YOLO的独特之处在于其通过将输入图像划分为网格矩阵并同时预测边界框和类别概率来执行实时物体检测的能力[2]。这种从传统两阶段方法的转变显著提高了速度并保持了竞争性的准确性,为后续的YOLO迭代奠定了基础。随着YOLO的改革,每个变体不仅解决了限制,还引入了新技术以改进边缘性能。从YOLOv1到YOLOv10的过渡见证了在架构设计、训练策略和优化技术等多个领域的进步。后来的YOLO变体旨在应对小目标、遮挡以及在不同数据集上提高性能等挑战。理解这些复杂性对于充分认识YOLO变体在农业等复杂子领域中的潜在应用至关重要。

农业作为一个多方面的领域,需要强大且高效的工具来监测和管理作物、牲畜和环境条件[3]。YOLO变体在农业应用中的整合有望彻底改变诸如作物监测[4]、疾病检测[5]、产量估算[6]和牲畜管理等任务。YOLO提供的实时能力,结合其准确性和适应性,使其成为应对现代农业不断变化挑战的有吸引力的解决方案。鉴于农业部门日益增长的需求,计算机视觉因其以下几个原因而成为变革力量:

规模和精度:自动化,由计算机视觉驱动,加速了大规模和精确操作。 计算机视觉算法可以促进视觉数据的快速和准确分析,使得以空前的速度和精度监测广阔的农业景观成为可能。

效率和资源优化:计算机视觉的整合可以提高自动化过程的效率。 先进的图像识别和设备分析可以实现水、肥料和土地等资源的分配。这不仅最大化产量,还促进了可持续的耕作实践。

实时响应:计算机视觉有助于实时监测和分析。 由计算机视觉驱动的自动化系统可以迅速检测和响应新兴挑战,如疾病爆发或害虫入侵,确保快速和有针对性的干预,以减轻潜在损失并维持作物健康。

数据驱动的决策:计算机视觉通过提供丰富的实时视觉数据增强自动化。 这种数据驱动的方法可以使农民和利益相关者做出明智的决策,改善整体农场管理和战略规划。

在本综述的后续部分,我们将探讨每个YOLO变体的关键进展,阐明每个变体引入的改进。随后,我们将考察YOLO变体在农业中的具体应用及其潜在影响,探讨这些变体如何促进可持续耕作实践和农业进步。在我们探讨本综述的过程中,显而易见的是,由YOLO变体代表的尖端计算机视觉技术与农业景观的融合,有望推动精准农业和资源优化的新时代。

1.1 调查目标

本综述旨在探讨从YOLOv1到最先进的YOLOv10等各种YOLO变体在农业进步中的变革潜力。总体目标是阐明这些属于YOLO家族的尖端架构如何重塑和优化农业的各个方面,从作物监测到牲畜管理。主要焦点是利用YOLO变体的独特能力来适应农业部门面临的动态挑战。具体而言,本综述旨在实现以下目标:

评估YOLO的演变: 我们追溯每个YOLO变体的基本进展,检查架构增强、算法改进和方法创新。通过全面理解YOLO变体的渐进式演变,我们可以确认技术进步,这些进步有助于YOLO在多样化的农业场景中的适用性。

探索YOLO在农业中的应用: 然后,我们探索YOLO变体在农业子领域中的具体应用。这包括调查YOLO在诸如作物监测、牲畜跟踪和农业景观异常检测等实际用例中的高效性。通过识别这些应用,我们可以衡量YOLO在应对现代农业多方面挑战中的多功能性。

对YOLO性能的批判性分析: 对YOLO变体在农业背景下的性能进行批判性审查。这包括评估检测准确性、处理速度和适应多样农业环境的能力等指标。通过细致的分析,我们能够确定YOLO在满足农业特定需求方面的优势和局限性。

综合现有研究: 本调查旨在综合和分析已探索YOLO变体与农业领域交叉点的现有研究。通过整合这些工作的发现,我们解锁关键见解并辨别共同趋势,为进一步全面理解当前格局铺平道路。

预测未来趋势: 我们预测对YOLO变体在农业中的影响进行基准测试的未来趋势。这一目标涉及从当前研究和科技轨迹中推断,设想潜在的进展、挑战和YOLO在农业领域的新兴应用。

简而言之,本综述旨在全面展现YOLO变体与农业之间不断发展的关系,揭示创新层,这些创新层有望迎来精准农业和可持续农业实践的新时代。

论文组织

本综述首先阐述农业挑战,随后介绍卷积神经网络(CNN),为读者提供理解YOLO框架基础原则的背景知识。随后,介绍物体检测技术的概述,为后续讨论建立必要的上下文背景。

此外,本综述对YOLO架构的演化轨迹进行了全面考察,系统地调查了每个变体引入的修改和增强。

在此考察之后,本综述详细审查了YOLO变体在农业子领域中的应用,涵盖作物疾病、害虫侵扰、资源优化和精准农业。在结论部分,详细总结了研究结果,最终对YOLO变体作为农业领域变革性解决方案进行了全面评估。

2 卷积神经网络(CNN)

深度学习(DL)在各种机器学习(ML)技术(如决策树(DT)、支持向量机(SVM)、K均值、多层感知器(MLP)和人工神经网络(ANN))的流行中崭露头角,成为多领域的创新。DL作为ML的一个子集和人工智能(AI)的一个组成部分,在各个领域展示了显著的成功。其应用包括生物数据处理[7]、语音识别[8]、字符识别[9]、微博[10]、文本分类[11]、基于故障分类的非结构化文本数据挖掘[12]、基因表达[13]、螺栓检测[14, 15]、托盘损坏检测[16]、自动滑坡检测[17]、视频处理(包括字幕生成)[18]、入侵检测[19]和股市预测[20]。然而,这些例子仅触及了深度学习广泛潜力的表面。

在本综述的背景下,计算机视觉涉及训练机器以高层次理解视觉内容。这一领域包括物体检测[21]、图像恢复、场景或物体识别、姿态和运动估计、物体分割和视频跟踪等多个子领域[22]。与需要通过定义特征描述符进行手动特征提取的传统图像处理不同,深度学习架构作为自动特征提取器。这使得深度学习成为一种有吸引力的替代方案,使研究人员能够克服传统图像处理的限制,更多地关注提高特定应用的性能。

深度学习模型包括各种技术,包括用于顺序数据处理的递归神经网络(RNNs)及其架构变体,如长短期记忆(LSTM)和门控循环单元(GRU),用于记忆和上下文保留[23]。卷积神经网络(CNNs)专门处理涉及图像数据的视觉感知任务,因为其他DL算法(如ANNs)在处理高维输入数据(如图像)时面临扩展效率低下的问题。

卷积神经网络(CNNs)的架构在抽象层面上由一组卷积、池化和激活函数组成,这些函数通过分阶段过程转换输入以达到适当的输出。

CNN卷积块中的一个基本组成部分是定义内核/滤波器的数量及其各自的维度。这些对于特征提取至关重要,为后续层提供低级空间信息,以发展语义关系[24]。

多方面的聚合,即池化框架,如平均池化、求和池化和最大池化,是可用的[25]。例如,后者的数学组成,即最大池化函数,由方程3表示。

在卷积块内,修正线性单元(ReLU)是广泛使用的激活函数,因为它本质上是一个“最大操作”,使其在数学化学方面计算轻量,如方程(4)所示,与方程(5)和(6)所示的Sigmoid和TanH相比。

抽象CNN的可视化如图1所示。CNN的关键组成部分可以标记为一组可优化的滤波器组成的卷积块,随后是定义数量的全连接层,最终输出[26]。

                         图1:CNN的通用结构,突出了卷积层、池化和全连接层。

3 目标检测

开发有效的物体检测器为研究人员和从业者带来了几个挑战。一个主要关注点是处理图像分辨率和纵横比的变化,当目标物体在空间维度上表现出显著差异时,这一挑战变得更加复杂。类别不平衡,特别是在难以获得某些类别的足够图像数量的情况下,会负面影响物体检测器的性能,导致偏倚预测[27]。

                                     图2:图像中的单个和多个物体:分类、定位、分割。

另一个重大挑战在于物体检测架构的计算复杂性,在功率、内存和时间方面需要大量计算资源[28, 29]。图2展示了单个和多个物体在图像中的物体检测,描绘了需要大量计算资源处理复杂图像数据集和提取关键特征的深层内部网络的检测器。

                                 图3:单阶段物体检测器的抽象架构。 

物体检测方法可以分为两阶段检测器和单阶段检测器。前者在图像中提出候选区域,然后在这些提出的区域内进行分类和定位。两阶段检测器的例子包括RCNN(基于区域的卷积神经网络)[30]、Fast R-CNN[31]、Faster R-CNN[32]和FPN(特征金字塔网络)[33]。

RCNN[30]于2014年引入,使用选择性搜索进行候选区域提议。然后使用CNN网络进行特征提取,随后使用SVM分类器进行分类和定位。尽管准确,但由于其两阶段过程,RCNN在计算上效率低下。Fast R-CNN[31]通过引入ROI池化解决了效率问题。这种方法使用ROI池化从原始特征图中提取每个区域的固定大小特征图,从而显著提高了计算速度。Faster R-CNN[32]在Fast R-CNN的基础上进行了改进,引入了区域提议网络(RPN),直接从卷积特征图中生成区域提议,消除了单独的提议阶段。将RPN集成到Fast R-CNN中提高了速度和准确性。FPN(特征金字塔网络)[33]通过解决多尺度目标检测的挑战,增强了双阶段检测器。FPN通过结合网络不同阶段的变分辨率特征图生成特征金字塔,使模型能够有效检测不同尺度的目标。

尽管双阶段检测器展示了令人印象深刻的准确性,但其高计算需求限制了其应用。单阶段检测器旨在通过单次传递检测物体,消除了单独的区域提议步骤,如图3所示。著名的单阶段检测器包括SSD(单次多盒检测器)、YOLO变体(You Only Look Once)、RefineDet++、DSSD(反卷积单次检测器)和RetinaNet。SSD[34]利用不同尺度的多个卷积特征图来预测边界框和类别概率分数。它有效地在一次前向传递中检测各种大小和形状的物体。RefineDet++[35]通过在多个阶段迭代细化目标提议,增强了原始RefineDet架构。改进的特征融合机制和细化的目标边界有助于提高准确性。DSSD(反卷积单次检测器)结合了反卷积层,以保留特征池化过程中丢失的空间信息。这有助于保持空间分辨率,使DSSD能够捕捉细粒度细节。RetinaNet[36]通过焦点损失解决了类别不平衡问题,为难以分类的样本分配更高的权重,提高了架构处理类别不平衡和增强检测性能的能力。

单阶段检测器相比双阶段检测器具有更快的推理速度和更轻的足迹,使其适用于资源受限的环境。YOLO作为单阶段检测器中的强大竞争者,展示了令人印象深刻的准确性和实时推理能力,得益于其简单的架构。它在各种实际应用中证明了其有效性,展示了其在生产目的中的潜力。

4 YOLO架构背景

本节深入探讨YOLO的基础原则和架构,详细介绍每个迭代中的独特进展。YOLO算法由Joseph Redmon等人于2015年引入[37],代表“You Only Look Once”。这一名称反映了其独特的方法,即通过一次检查整个图像来识别物体及其位置。与采用两阶段检测过程的传统方法不同,YOLO将物体检测视为回归问题[37]。在YOLO范式中,单个卷积神经网络用于预测整个图像的边界框和类别概率。这种简化的方法与传统方法的更复杂管道形成对比。

YOLOv1

YOLOv1的核心概念涉及将一个“s x s”大小的网格单元叠加在图像上。每当物体的中心落在网格单元内时,该特定单元负责识别物体,在多个实例发生时,其他单元则忽略其存在。关于物体检测,每个网格单元预测“B”个边界框,包括尺寸和置信度分数。置信度分数表示物体存在于指定边界框内的概率。数学上,置信度分数表示为方程(7):

在此,p(object)表示物体存在的概率(范围在0和1之间),表示预测边界框与真实边界框之间的交并比。

主要目标是使用边界框准确识别和定位物体。YOLO通过非极大值抑制(NMS)机制解决重叠预测边界框的挑战,消除交并比(IoU)低于指定阈值的边界框。原始YOLO架构基于Darknet,引入了两个子变体:一个包含24个卷积层,另一个称为“Fast YOLO”,包含9个层。对于包含物体的边界框和指示物体不存在的边界框,分别分配了不同的惩罚。总体损失函数结合了坐标、宽度、高度、置信度分数和类别概率的考虑。

在性能方面,更简单的YOLO版本在45帧每秒(FPS)下实现了63.4%的平均精度(mAP),而Fast YOLO版本在155 FPS下达到了52.7%。尽管超过了某些实时检测器,但它们在当时未能达到最先进的(SOTA)基准。然而,限制如较低的召回率和定位误差推动了后续YOLO变体的进一步改进。

YOLOv2

在YOLOv1的成就基础上,YOLOv2在设计上带来了显著的改进。这一版本结合了Network-In-Network和VGG的思想,选择了Darknet-19框架,由19个卷积层和5个专门用于最大池化的层组成,如表1所示。YOLOv2采用了池化层和1 x 1卷积的混合,使网络架构内的下采样成为可能。

物体检测中的一个重要挑战是标记数据的有限可用性,通常将方法限制在预定义的类别内。YOLOv2通过合并ImageNet和COCO数据集,将其检测能力扩展到超过9418个物体实例[38]。为了增强可扩展性,YOLOv2采用了Word-Tree,一种层次分类和检测方法,能够高效处理扩展的类别数组。

尽管在初始阶段面临小物体检测的困难,YOLOv2在其前身的基础上取得了显著的改进。它引入了多种数据增强技术和优化策略,取得了显著的进展:

  • YOLOv2预测物体尺寸的范围从320 x 320到608 x 608,通过丢弃YOLOv1中存在的全连接层。

  • 通过更高分辨率分类器实现了4%的平均精度(mAP)提升。与V1不同,YOLOv2在检测前对448 x 448图像进行分类训练,提高了边界框预测的准确性。

  • 批量归一化的整合解决了训练期间输入分布不一致的问题,带来了约2%的mAP改进。

  • 通过相对于网格单元位置预测位置坐标,改进了边界框坐标预测,导致边界框纵横比和尺寸更加均匀,mAP提高了5%。

  • YOLOv2使用卷积层进行特征提取,并使用锚框预测边界框,召回率提高了7%。

  • 基于K-means的聚类算法消除了手动选择锚框的需要,从而提高了准确性。

  • 为了应对小物体检测的挑战,引入了受ResNet启发的跳跃连接,mAP提高了1%。例如,一个26 x 26 x 512的特征图转换为一个13 x 13 x 2048的特征图,与模型的输出连接,使模型能够在各种维度上更鲁棒地识别物体。

YOLOv3

2018年,Joseph Redmon等人引入了YOLOv3[39],标志着一次重大进化,其扩展的架构如表2所示。这一迭代采用了当代技术进步,同时保持了实时处理能力。与YOLOv2类似,YOLOv3为每个边界框预测四个坐标,但引入了每个框的对象性分数,通过逻辑回归确定。该分数取值为1或0,表示锚框与真实边界框的重叠最高(1)或与其他锚框(0)。与Faster R-CNN[40]不同,YOLOv3将每个真实物体与单个锚框关联,在没有关联锚框的情况下仅产生分类损失,排除了定位和置信度损失。

                                                                图4:多尺度检测架构

与使用SoftMax进行分类不同,YOLOv3采用二元交叉熵,使单个框可以分配多个标签。架构集成了一个包含53个卷积层的广泛特征提取器,并结合了残差连接。

                                                                       表2:YOLOv3架构

显著改进包括在骨干网络内修改的空间金字塔池化(SPP)块,以适应更广泛的感受野。YOLOv3将特征图组织成三个尺度:(416×416)、(13×13)、(26×26)和(52×52)用于输入,每个位置具有三个先验框(如图4所示)。总体而言,这些改进在AP50指标上实现了2.7%的提升。

确定分布在三个尺度特征图上的八个先验框采用了K-means算法。较大尺度的特征图包含较小的先验框。YOLOv3的基础架构称为Darknet-53,用步幅卷积取代了所有最大池化层,并集成了残差连接。包含53个卷积层(如表2所示),这一骨干架构成为物体检测的主要基准,从PASCAL VOC[41]转向Microsoft COCO[42]。因此,所有后续的YOLO模型都使用MS COCO数据集进行评估。YOLOv3取得了显著成果:在20帧每秒(FPS)的处理速度下,平均精度(AP)为36.2%,AP-50为60.6%,超过了之前最先进模型的速度。

YOLOv4

2020年4月,由Alexey Bochkovskiy领导的一组研究人员推出了YOLOv4[43],标志着与其前身相比的深刻变革,旨在提高性能的同时保持实时能力。YOLOv4的关键进展包括整合CSP Darknet53、SPP结构[44]、PANet架构[45](如图5所示)、CBN集成[46]和SAM整合[47],形成了一个高效且鲁棒的物体检测模型。设计简化了物体检测器的训练,旨在为不同技术水平的个人所用。研究还验证了最先进方法(如bag-of-freebies和bag-of-specials)在增强训练管道效率方面的有效性。

                                     图5:路径聚合YOLOv4(a)加法(b)连接

与YOLOv3中单一锚点检测真实边界框不同,YOLOv4对单一真实边界框使用多个锚点。这种方法提高了正样本的选择比例,减少了正负样本之间的不平衡,并提高了边界检测的准确性。

YOLOv4采用完整的交并比(CIoU)损失(如方程(8)所示),通过结合IoU、最大IoU和正则化等因子来细化定位精度。使用这一损失函数增强了YOLOv4在图像中准确定位和勾勒物体的能力,从而提高了整体物体检测性能。

YOLOv5

2020年,Glenn Jocher在YOLOv4发布后引入了YOLOv5[46]。YOLOv5由Ultralytics管理,在几个关键方面与YOLOv4有所不同。值得注意的是,YOLOv5选择使用PyTorch而不是Darknet进行开发,由于PyTorch的用户友好特性,扩大了其用户基础。YOLOv5整合了各种增强功能,以提高其在物体检测中的性能。其核心是CSP(跨阶段部分)Net,源自ResNet架构,包括用于增强网络效率的跨阶段部分连接。CSPNet与多个SPP(空间金字塔池化)块相结合,用于不同尺度的特征提取。

                                                                    表3:YOLOv5变体比较

架构的颈部包括一个PAN(路径聚合网络)模块和随后的上采样层,以提高特征图分辨率[48]。YOLOv5的头部使用卷积层来预测边界框和类别标签。YOLOv5采用基于锚点的预测,将每个边界框与特定形状和大小的预定义锚框关联。YOLOv5的损失函数结合了二元交叉熵和完整的交并比(CIoU)用于类别、对象性和定位损失,表示为(9):

YOLOv5的主要目标是提高效率和准确性,超越其前身。它在特征提取、特征聚合和基于锚点的预测方面带来了进展。此外,它确保了从PyTorch到ONNX和CoreML框架的无缝过渡,增强了与iOS设备的兼容性。在MS COCO数据集的test-dev 2017分割上进行评估时,YOLOv5x在640像素图像尺寸下实现了50.7%的平均精度(AP)分数,在NVIDIA V100上以200帧每秒(FPS)的高速处理。在更大的1536像素输入尺寸下,YOLOv5实现了更高的AP分数55.8%,如表3所示。

YOLOv6

2022年9月,美团视觉AI部门发布了YOLOv6,这是一个专为工业应用设计的单阶段物体检测框架。这一版本带来了显著的改进和架构改进,特别是引入了CSPDarknet作为新的骨干架构,超越了其前身的效率和速度基准,YOLO-v4和YOLO-v5。YOLO-v6的一个关键改进是整合了特征金字塔网络(FPN),扩展了特征尺度的范围,显著提高了检测精度。这强调了提高整体性能的承诺[49]。

                                                                  图6:PANet配置[2]

YOLO-v6经过精心设计,以实现最佳的实时物体检测性能,在中央处理器(CPU)和图形处理器(GPU)上都展示了令人印象深刻的帧率。YOLOv6架构的一个关键演变涉及分类和边界框回归头的分离,如图6所示。这一战略架构修订在网络内引入了额外的层,有效地将这些关键功能从最终头部中分离出来[50]。实证证据支持这一改进对提升整体模型性能的影响,增强了其能力[51]。

总体而言,YOLOv6标志着YOLO架构进展中的重大进步,整合了广泛的速度、准确性和操作效率增强。对MS COCO数据集的test-dev 2017子集的全面评估突显了YOLOv6L模型的能力,实现了52.5%的平均精度(AP)和70%的AP50。值得注意的是,这一值得称赞的性能是在NVIDIA Tesla T4 GPU上以大约50帧每秒(FPS)的处理速度实现的。YOLOv6以三种不同变体呈现,如表4所示。值得注意的是,YOLOv6nano以其最小的参数计数脱颖而出,成为最小和最快的替代方案。这一特性使其特别适合在计算能力有限的设备上进行实时物体检测任务。YOLO-v6tiny相比YOLOv6nano提供了更广泛的架构,导致更高的准确性,如表4所示。YOLOv6tiny在需要精确度的情况下,特别是在检测较小物体的情况下,证明是有价值的。

                                                                表4:YOLOv6变体比较

相比之下,YOLOv6small在架构复杂性方面领先,提供更高的准确性。这种配置特别适合在视觉场内检测较小物体的场景。这些变体的选择取决于具体用例和可用计算资源。YOLOv6nano是低功率设备上实时检测的理想选择,而YOLOv6tiny或YOLOv6small可能在需要更高准确度和识别较小物体的情况下更受青睐。决策应根据可用资源和所需的准确性阈值进行定制。

YOLOv7

2022年7月,YOLOv7[52]标志着从其前身向前迈出的重要一步,展示了从5 FPS到160 FPS的改进的准确性和速度增强。这些进展主要集中在通过整合扩展的高效层聚合网络(E-ELAN)[53]和实施可扩展的基于连接的架构来提高效率和可扩展性。E-ELAN在管理梯度路径方面起着关键作用,从而增强了模型学习和收敛。这一技术对堆叠计算块的模型具有多功能性,能够从不同组中洗牌和合并特征,同时保持梯度路径的完整性。模型缩放是YOLOv7的另一个关键方面,能够创建不同大小的模型。设计的缩放策略均匀调整块的深度和宽度,保持最佳模型结构,同时减少硬件资源消耗。各种技术的结合,统称为“bag-of-freebies”,进一步增强了YOLOv7的性能。其中一种技术反映了YOLOv6中采用的重参数化卷积概念。然而,由于RepConv[54]中的身份连接和DenseNet[55]中的连接问题,YOLOv7引入了RepConvN方法。

                                                             表5:YOLOv7变体比较

此外,YOLOv7使用粗标签分配用于辅助头,将细标签分配保留给引导头。虽然辅助头有助于训练过程,但引导头产生最终输出,如图6所示。此外,批量归一化被采用,在推理过程中将批量归一化的均值和方差合并到卷积层的偏置和权重中,最终提高模型性能[56]。在MS COCO数据集的test-dev 2017上进行严格评估时,YOLOv7E6展示了出色的性能,实现了55.9%的平均精度(AP)和73.5%的IoU阈值为0.5的AP50,如表5所示。

YOLOv8

2023年1月,Ultralytics推出了YOLOv8,在计算机视觉领域引起了重大关注[57]。该模型的精度通过在COCO和Roboflow 100数据集上的评估得到了广泛验证[57]。YOLOv8以其用户导向的功能脱颖而出,包括用户友好的命令行界面和组织良好的Python包。支持性的YOLO社区进一步增强了用户的可访问性。YOLOv8的创新在其方法[58]中详细说明,与传统的基于锚点的方法不同。YOLOv8通过预测物体的中心,采用无锚点的方法。这一调整解决了锚框可能无法准确表示自定义数据集分布的挑战。这种方法的优势包括减少框预测数量和加速涉及非极大值抑制的后期处理步骤。值得注意的是,YOLO-v8的训练程序结合了在线图像增强技术,包括马赛克增强,增强了模型在不同条件和新颖空间排列下检测物体的能力。

                                                                表6:YOLOv8变体比较

在其从其前身YOLOv5(也由同一作者编写)的架构演变中,YOLOv8在其组件中引入了变化。例如,在颈部部分,YOLOv8直接连接特征而不强制统一的通道维度。这一策略有助于减少参数计数和整体张量大小。在MS COCO数据集的test-dev 2017子集上评估时,YOLOv8x在640像素图像尺寸下展示了53.9%的平均精度(AP),超过了YOLOv5在相同输入尺寸下的50.7%的AP。此外,YOLOv8x展示了显著的处理速度,在NVIDIA A100上使用TensorRT实现了280帧每秒(FPS)。值得注意的是,YOLOv8以五种不同变体提供,每种变体针对特定的准确性和计算需求定制,如表6所示。

YOLOv9

2024年2月,YOLOv9[59]作为主流YOLO变体的最新成员出现。YOLOv9以其两项关键创新而自豪:可编程梯度信息(PGI)框架和广义高效层聚合网络(GELAN)。PGI框架旨在解决深度神经网络中固有的信息瓶颈问题,并使深度监督机制与轻量级架构兼容。通过实施PGI,轻量级和深度架构都可以利用准确性的显著改进,因为PGI在训练期间要求可靠的梯度信息,从而增强了架构的学习和预测能力。

GELAN架构专门设计用于通过高效率和轻量级足迹在物体检测任务中提升性能。GELAN在不同计算块和深度配置中表现出高性能,使其适用于不同推理设备,包括资源受限的边缘设备。通过结合上述两个框架(PGI和GELAN),YOLOv9在轻量级物体检测方面取得了显著进展。尽管处于早期阶段,YOLOv9在物体检测任务中展示了显著的竞争力,在参数减少和计算效率方面优于YOLOv8,同时在MS COCO数据集上将平均精度(AP)提高了0.6%。

YOLOv10

在YOLO系列的创新势头基础上,2024年又迎来了一项突破性进展,即YOLOv10的发布。这一版本进一步推动了实时物体检测的边界,这对于需要快速准确响应的应用至关重要,如农业监测和自动驾驶车辆导航。

YOLOv10通过完全消除后处理过程中对非极大值抑制(NMS)的依赖,实现了显著的进步,这是提高推理速度的重要一步。该模型采用了一种新的无NMS训练方法,使用双重标签分配,确保模型在保持计算效率的同时捕捉关键检测特征,实现了准确性和速度的和谐融合。此外,YOLOv10的架构增强包括实施轻量级分类头、空间通道解耦下采样和秩引导块设计,每个都显著减少了计算需求和参数数量。这些创新不仅提高了模型的效率,还增强了其在从高功率服务器到资源受限边缘设备等各种设备上的可扩展性。

广泛测试表明,YOLOv10在性能-效率权衡方面树立了新的基准。与YOLOv9相比,它在延迟和模型尺寸减少方面实现了显著改进,同时仍提供竞争性或更高的检测准确性。这在应用于COCO数据集时尤为明显,YOLOv10在检测指标上展示了显著的进步,巩固了其在实时物体检测技术领域的领先地位[60]。

                                                                   表7:YOLO变体比较

表7提供了截至当前日期主要YOLO变体的比较概述。该表展示了YOLO系列物体检测器的迭代演变,每个迭代都在计算机视觉领域推动了最先进的技术。

5 YOLO在农业中的应用

在本节中,我们提供了关于不同YOLO变体在各种农业应用中利用的当前文献的综合综述。讨论针对包括杂草检测、作物分类、疾病检测、动物跟踪和精准农业等应用。

5.1 使用YOLO进行杂草检测

杂草检测是现代农业中的一个关键方面,直接影响作物产量和资源优化。传统的杂草管理方法可能是劳动密集型和耗时的。YOLO变体在杂草检测中的整合带来了有前景的解决方案,通过提供实时和高效的农业景观中杂草识别。

本小节探讨了YOLO在杂草检测中的应用,重点关注其革命性杂草管理实践的潜力。我们深入研究了传统农业中杂草检测的挑战,并考察了YOLO变体如何解决这些挑战。此外,我们探索了YOLO在准确识别和定位杂草的实际场景中的有效性,为精准农业的进步做出了贡献。

[61]开发并实施了一个针对大葱作物的实时杂草检测系统。利用YOLOv3深度学习算法,该系统名为YOLO-WEED,在通过无人机(UAV)捕获的视频帧中展示了显著的效率和精度[61]。这使得YOLO-WEED成为精确农业活动(如靶向喷洒和杂草管理)的宝贵资产。基于平均精度(mAP)和F1分数的系统性能评估取得了令人印象深刻的结果,平均精度为93.81%,F1分数为0.94。该系统在实时自动空中喷洒系统中展示了其潜力,特别是在大葱田中[61]。然而,重要的是要承认某些限制。系统的效果取决于UAV视频帧的分辨率。值得注意的是,系统中使用的YOLOv3算法在检测较小物体时遇到挑战,在大葱田中识别微小杂草时存在困难[61]。此外,YOLO-WEED系统需要机载计算机,为UAV喷洒系统引入了额外的重量因素。尽管有这些考虑,该系统的整体性能强调了其在推进精准农业实践中的潜力,特别是在大葱种植中的杂草检测和控制方面。

Boyu Ying等人对使用改进的YOLOv4模型检测胡萝卜田图像中的杂草进行了细致的研究[62]。研究人员从中国河南省的胡萝卜田中收集了测试图像,旨在检测四种常见的田间杂草:马唐、车前草、白花蓼和刺儿菜。他们开发了一个轻量级的杂草检测模型,称为YOLOv4-weeds,用MobileNetV3-Small替换了YOLOv4的骨干网络。这一修改减少了图像处理的内存需求,并提高了复杂环境中小型杂草检测的效率和准确性。作者与其他检测模型进行了比较实验,并证明YOLOv4-weeds模型在这些模型中表现出色,特别是在复杂田间场景中检测多种杂草方面。研究结果为杂草检测、机器人除草和选择性喷洒提供了宝贵的见解和参考。然而,该研究存在潜在的限制,如杂草物种的多样性、对其他作物的泛化性、对环境变化的鲁棒性、实际部署和验证以及计算资源的考虑。这些发现对农业部门有显著影响,因为杂草管理对作物产量和质量至关重要。该研究为改进复杂农业环境中的杂草检测提供了框架,可以导致高效和成本效益的杂草管理实践。然而,需要进一步研究以解决研究的限制,并增强其在其他作物和环境设置中的泛化性。

                                                  图7:植物物种检测设备部署

Dyrmann等人进行了一项研究,重点是利用基于摄像头的监测系统识别和跟踪州道路沿线的入侵外来植物物种(IAPS)[63],如图7所示。所采用的深度学习算法成功检测和分类了收集图像中的IAPS,展示了在110 km/h行驶速度下实时绘制入侵外来植物物种的潜力。尽管取得了显著成果,但研究承认了某些限制,如检测特定植物物种(如多叶羽扇豆和欧防风)的挑战,并强调了未来研究中解决这些问题的必要性。该研究为道路沿线的成本效益和高效环境保护提供了宝贵的见解。

Chen等人专注于开发用于芝麻田杂草检测的YOLO-芝麻模型[64]。该模型结合了改进的注意力机制和特征融合,在每秒帧数(FPS)和平均精度(mAP)方面表现出色。尽管展示了有前景的结果,但研究强调了数据集的区域特异性,并强调了进一步工作以增强模型在嵌入式设备上的适用性的必要性。这项工作为芝麻种植中的杂草检测方法的进步做出了贡献。

Wang等人在河北省张家口市进行了实地试验,测试了其实际应用方法[65]。研究的技术包括图像预处理和改进的YOLOv5 CNN的部署,在实际场景中展示了令人满意的表现。尽管取得了显著成果,但研究承认了与环境条件相关的限制,并强调了解决这些挑战以实现更广泛适用性的重要性。

Costello等人研究了在受控环境中使用RGB和HSI数据进行银胶菊杂草的田间绘图[66]。采用深度学习算法,包括基于决策树的协议,研究在检测和分类银胶菊生长阶段方面取得了高精度。然而,研究承认了受控环境的限制,并强调了进一步探索AI算法和技术改进以提高检测成功率的必要性。这项研究为银胶菊杂草检测中AI和成像技术的应用提供了宝贵的见解,对杂草管理和农业具有潜在影响。

Dang等人介绍了用于检测棉花生产系统中各种杂草类型的YOLOWeeds基准数据集[67]。评估了六种不同的YOLO物体检测模型,研究提供了详细的实验设置,强调了棉花生产中杂草管理的挑战。结果展示了YOLOv4和YOLOv5在实时杂草检测中的潜力,促进了基于机器视觉的除草系统的进一步探索。这项工作为自动化杂草识别的进步做出了贡献,具有农业中可持续杂草管理的潜在应用。

Perez-Porras等人在小麦田中使用YOLO架构检测罂粟(Papaver rhoeas)进行了研究[68]。评估了不同的YOLO模型,研究优化了超参数并评估了计算效率。尽管实现了约75%的准确性,但研究承认了现场验证和与农业实践整合的必要性。这项研究为农业田地中早期杂草检测提供了宝贵的见解,特别是小麦田中的罂粟检测。

Sportelli等人在各种草坪场景中评估了YOLO物体检测器的杂草检测性能[69]。利用具有特定特征的三个数据集,研究强调了草坪中准确杂草检测的挑战。尽管取得了高性能,但研究承认了模型性能的限制,并强调了进一步研究以解决这些挑战的必要性。这项工作为杂草检测中模型性能和计算效率之间的权衡提供了全面的理解。

Jin等人提出了一种使用YOLO-v3识别蔬菜田杂草的新方法[70]。采用基于卷积神经网络(CNN)的两阶段方法,该方法通过专注于蔬菜作物的检测来准确检测杂草。尽管展示了有前景的结果,但研究强调了缺乏用于智能除草机商业开发的鲁棒传感技术的主要限制。这项研究为各种作物中的杂草检测提供了可行方法,并强调了传感技术进步的必要性以实现更广泛的应用。表8总结了使用不同YOLO架构在农业部门检测杂草的研究。

5.2 通过YOLO进行作物检测

在精准农业领域,作物检测在优化耕作实践和资源利用方面起着关键作用。准确识别和划定大规模田地中的作物有助于改进监测、产量估算和资源管理。各种研究探索了YOLO变体在解决作物检测挑战中的应用,展示了实时、高效和精确识别不同作物类型的潜力。

                                                   表8:使用YOLO进行杂草检测的研究

本小节提供了关于使用YOLO模型进行作物检测的显著研究努力的综合概述。讨论的研究展示了使用YOLO方法在识别和划定多样农业环境中作物方面的进展、方法和成果。在精准农业背景下,稳健作物检测方法的重要性得到了强调,展示了YOLO变体如何应对现代农业的演变需求。

Tian等人介绍了一种用于果园实时苹果检测的增强型YOLO-V3模型[71]。研究人员在不同天气和光照条件下使用分辨率为3000 x 4000像素的摄像头收集图像数据。应用数据增强技术以增加数据集的多样性。为了优化YOLO-V3网络中低分辨率特征层,作者整合了DenseNet方法,旨在增强特征传播、鼓励重用并提高整体网络性能。所提出的YOLOV3-dense模型在检测准确性和实时能力方面表现优于原始YOLO-V3和带有VGG16网络的Faster R-CNN模型。值得注意的是,该研究仅集中在苹果检测上,未探索其他水果或作物。未来的研究可以探索所提出模型在多样农业环境中的适应性。此外,研究未考虑恶劣天气条件(如雨或雾)对模型性能的潜在影响。后续研究可以深入评估模型在各种天气场景下的鲁棒性。最后,研究缺乏对大规模数据集的评估。因此,未来的研究可以考虑在更广泛的数据集上验证模型,以进一步建立和验证其性能。

Sharpe和研究团队开发了一种用于佛罗里达州蔬菜塑料农业生产中有效控制鹅草的精准喷洒器[72]。研究评估了YOLOv3-tiny检测器在现场鹅草检测和喷洒中的应用。图像处理涉及各种植物,包括草莓和番茄植物以及其他杂草物种,以训练和测试神经网络。尽管展示了卷积神经网络在园艺作物杂草检测和管理中的潜力,但研究确定了特定的限制和改进领域。主要地,对草莓和番茄生产中鹅草检测的关注需要进一步研究以扩展网络对多样作物和杂草物种的适用性。研究强调了LB注释方法在生产和精准喷洒中的优越性,但建议增加类别或分组可能提高整体网络准确性。最后,对于番茄,研究承认了分段图像方法的局限性,敦促进一步研究以提高该特定作物的检测准确性。

Junos等人介绍了YOLO-P,一种能够在油棕种植园中识别和定位物体(FFB、抓斗和棕榈树)的物体检测模型[73]。通过多次实验,所提出的模型展示了出色的平均精度(mAP)和F1分数,分别为98.68%和0.97。以其更快的训练过程和轻量级设计(76 MB)为特点,该模型在识别不同成熟度的新鲜果串方面展示了准确性,为自动化作物收获系统提供了潜在应用。综合实验结果表明,YOLO-P可以准确和鲁棒地检测油棕种植园中的物体,从而为农业行业提高生产力和优化运营成本做出贡献。

Chen等人在柑橘果实检测方面取得了显著进展,开发了CitrusYOLO算法[74]。对YOLOv4模型的改进包括增加152*152特征检测层、密集连接以进行多尺度融合,以及整合深度可分离卷积和注意力机制模块。这些改进导致了检测准确性和实时性能的提高。CitrusYOLO展示了优越的性能,在准确性和时间效率方面优于标准的深度学习算法。尽管取得了这些进展,研究承认了某些限制和改进领域。数据集集中在两种金橘和南丰蜜桔以及四种柑橘(沃柑、蜜橘、马水橘和贡柑)上,表明随着柑橘品种和生长阶段的扩展,性能可能进一步提高。算法在不同光照条件下的表现及其在其他水果或不同环境中对象的适用性仍未知。虽然实验展示了有效性,但实际应用(如果园产量估算和水果采摘机器人)需要进一步验证。

Hong等人开发了一种用于检测小麦穗镰刀菌头枯病(FHB)的轻量级模型,使用RGB图像[75]。利用YOLOv4和MobileNet架构,所提出的模型在准确性和实时FHB检测之间取得了平衡。在检测小麦穗FHB方面,该模型的准确率为93.69%,优于MobileNetv2-YOLOv4模型,其减小的尺寸便于在无人机(UAV)上部署。尽管展示了实时FHB检测的巨大潜力,但研究承认了某些限制和改进领域。研究仅集中在小麦穗镰刀菌头枯病检测上,未考虑影响小麦作物的其他疾病,表明未来研究应扩展模型的疾病检测能力。小物体错误检测和复杂背景下的检测性能挑战强调了改进模型性能的必要性。此外,研究强调减少参数,需要在不同边缘平台上探索模型的泛化性。

Wang等人提出了一种使用改进的YOLOv4和双目定位(BPO)进行农业主从跟随操作中车辆识别和跟踪的实时方法[76]。研究实验展示了该方法在实时识别和跟踪主车辆方面的准确性。在纵向、横向和航向角偏差方面,较低的均方根误差表明该方法在满足主车辆定位要求方面的有效性。研究还创建了一个用于训练和测试识别模型的数据集,暗示了未来在构建和测试从属人员自动跟随系统方面的工作。虽然研究未明确提及限制,但潜在的进一步探索领域包括在多样农业环境中验证该方法,并考虑其在不同天气和光照条件下的性能。表9总结了使用不同YOLO架构在农业领域进行作物检测的研究。

                                                           表9:使用YOLO进行作物检测的研究

5.3 使用YOLO进行动物跟踪

近年来,You Only Look Once(YOLO)物体检测模型的应用在生态研究中彻底改变了动物跟踪。YOLO的实时和高精度能力使其成为监测野生动物的有力工具,能够在多样环境中自动识别和跟踪动物。本小节深入探讨了YOLO系统在动物跟踪中的创新应用,探索其在理解动物行为、迁移模式和生态动态方面的贡献。

Wang等人进行了一项研究,使用视觉图像处理和YOLO v3深度学习算法监测和分析自繁殖笼中蛋鸡的行为[77]。他们的方法识别了六种行为,实现了高精度率,并提供了对蛋鸡福利状态的见解。尽管取得了成功,但研究的限制涉及对单一笼中Hy-Line Gray蛋鸡的有限样本量分析,需要进一步研究以涵盖多样品种、更大种群,并将其与现有行为识别方法进行比较[77]。

Schütz等人应用YOLOv4进行红狐检测和运动监测,展示了计算机视觉系统在研究动物行为中的潜力[78]。尽管研究强调了计算机评估的效率和准确性,但限制包括狐狸偶尔操纵相机和检测训练集中未出现的罕见狐狸位置的挑战。提出的解决方案包括适当固定相机和扩展训练集以解决偏差和提高准确性[78]。

Yu等人利用改进的YOLO模型和边缘计算自动检测奶牛的饲喂行为[79]。提出的DRN-YOLO算法展示了改进的精度、召回率、平均精度(mAP)和F1分数,并提出了进一步细分的奶牛觅食行为和在多样农场环境和奶牛种群中测试泛化性的领域[79]。

Elmessery等人进行了一项综合研究,开发并验证了一种基于YOLOv8的模型,用于自动检测密集家禽舍中的肉鸡病理现象[80]。尽管训练和检测成功,但限制包括由于疾病相关限制导致的患病肉鸡数据集有限,以及光照强度对图像质量的潜在影响[80]。

Barreiros等人提出了一种使用YOLOv2和卡尔曼滤波器准确跟踪受控实验设置中斑马鱼群运动的跟踪算法[81]。他们成功实施了一个系统,可以检测和跟踪组内的个体鱼,通过检测鱼头区域并使用卡尔曼滤波器估计每帧中鱼头位置的最佳状态。

Rančić等人开发并测试了一个使用YOLOv3、YOLOv4、YOLOv4-tiny和SSD应用于无人机图像的动物检测管道,特别是鹿[82]。尽管研究取得了高性能预测,但限制包括通过预训练模型解决的有限数据挑战,表明需要进一步研究以增强系统的鲁棒性和泛化性[82]。

Zheng等人提出了YOLO-BYTE算法,使用单个摄像头跟踪多个奶牛[83]。尽管在奶牛目标检测中实现了高精度,但潜在的环境影响对准确性的影响被认可,强调了算法在多样数据集和场景中进一步检查的必要性[83]。

Wangli等人提出了一种名为YOLOv5-SA-FC的新型猪检测和计数模型,该模型将shuffle attention和Focal-CIoU损失整合到YOLOv5框架骨干中[84]。通过利用shuffle attention模块,该模型动态关注相关特征以进行猪检测和计数,同时减少非必要特征的权重。此外,Focal-CIoU损失机制优先考虑与目标框重叠较高的预测框,提高了检测性能。同样,Jonggwan等人开发了一种名为EmbeddedPigCount的技术,利用TinyYOLOv4在大型养猪场中准确计数猪[85]。他们在韩国一家商业养猪场收集了图像数据,监控摄像头捕捉了猪和人在走廊中移动的图像。研究人员手动注释了图像中的边界框,并使用总共2675张图像训练检测模块。研究在猪来回通过计数区时实现了99.44%的计数准确率。

5.4 使用YOLO进行农业疾病检测

农业部门面临着保持作物健康和确保最佳产量的持续挑战。及时识别和解决植物疾病是可持续耕作实践的重要组成部分。随着计算机视觉和深度学习的进步,特别是You Only Look Once(YOLO)算法,越来越多的人对利用这些技术进行作物中的自动化疾病检测感兴趣。

                                                   图8:基于YOLO的实时叶片疾病检测

本小节探讨了几项使用YOLO模型检测和监测农业环境中疾病的研究。这些研究展示了YOLO在提供准确和高效疾病识别解决方案方面的潜力,为智能和科技驱动的现代农业方法做出了贡献。

Liu和Wang进行了一项研究,专注于在自然环境中检测番茄疾病和害虫,最终创建了一个专用数据集[86]。利用YOLO v3模型,他们在20.39毫秒内实现了92.39%的检测准确率。改进的YOLO v3在准确性和速度方面均优于SSD、Faster R-CNN和原始YOLO v3等替代方法。尽管该算法在实时检测中表现有效,但仍有机会进一步提高准确性和速度,特别是在与基于深度学习的分类方法的高精度相比时。

                                          表10:使用YOLO进行作物疾病和害虫检测的研究

Morbekar等人开发了一种使用YOLO物体检测方法的实时作物疾病检测模型[87],如图8所示。该模型在PlantVillage数据集上测试时展示了98.5%的显著准确率。然而,研究的限制包括数据集主要集中在印度主要作物上,可能限制其对其他作物和地区的适用性。此外,系统的范围仅限于检测叶片上的疾病,忽略了作物其他重要部分,如茎或果实。

Nihar和Raghavendra提出了一种基于tiny_yolov3算法的实时水稻作物疾病检测的创新方法[88]。该模型实现了98.92%的令人印象深刻的准确率,有助于早期识别潜在问题,使农民能够主动保护作物。作者建议该模型的适应性可用于害虫检测,增强其在多样应用中的多功能性。

Agbulos等人使用YOLO算法识别水稻叶病,总体准确率为73.33%[89]。尽管成功识别了稻瘟病和褐斑病,但研究的重点是静态水稻叶图像和硬件设置的限制,包括Raspberry Pi 3和摄像头模块,这可能在实际场景中带来挑战。未来的改进可能涉及升级硬件组件以提高图像质量,并探索水稻植物中更广泛的疾病。

Lippi等人开发了一种使用基于YOLO的卷积神经网络(CNN)识别榛子园中真菌害虫的检测系统[90]。该系统展示了约94.5%的平均精度,并展示了实时处理能力。然而,将其应用于大型果园时存在可扩展性问题,深度传感器分辨率的潜在挑战可能影响其性能。

Reddy和Deeksha训练了一个YOLOv4模型,用于检测和识别桑树作物中的叶片疾病,实现了高速度和准确性[91]。该模型在检测后推荐相应的杀虫剂,为有效的疾病管理提供了潜力。尽管在桑树作物中取得了成功,但研究鼓励进一步探索识别各种疾病和考虑实时视频分类。

Mathew和Mahesh探索了苹果树早期疾病检测的重要性,使用YOLO V3网络进行疾病检测[92]。该研究强调了YOLO V3的优势,如更快的结果和改进的准确性,但承认了环境干扰和持续植物健康监测的必要性等挑战。

Verma等人提出了一种使用YOLO算法检测大豆作物中害虫的框架[93]。尽管实现了高平均精度,但研究承认了数据集大小限制和偶尔的错误分类等限制。基于害虫检测的杀虫剂应用的潜在伦理和环境影响也得到了注意,以供进一步考虑。

Kundu等人开发了一种基于YOLO v5的系统,用于自动种子分选和分类,实现了99%的高精度和召回率[94]。尽管在分类珍珠粟和玉米种子方面表现出色,但研究确定了进一步研究混合种植场景和基于作物类型和质量的更广泛种子分类的必要性。

Mathew和Mahesh使用YOLO v5识别甜椒植物中的疾病,展示了优越的准确性和减小的模型大小[95]。该研究暗示了疾病检测对各种影响甜椒植物的疾病的扩展潜力,通过及时疾病识别有望提高农场产量。

Soeb等人引入了一种基于YOLOv7方法的AI解决方案,用于检测茶树叶病,强调了探索AI在孟加拉国茶栽培中的益处的必要性[96]。尽管承认了有限的标记数据和缺乏既定评估指标等限制,但研究提倡进一步研究以增强YOLOv7模型在茶树叶病检测中的有效性。

Xue等人提出了YOLO-Tea模型,通过改进的特征提取和注意力机制解决了茶病和害虫的小目标挑战[97]。尽管通过消融实验和比较展示了其潜力,但研究强调了继续探索和评估的必要性,特别是在实际茶病监测应用中。表10提供了使用各种YOLO架构在农业领域检测作物疾病和害虫的研究概述。

5.5 使用YOLO进行精准农业

精准农业是各种农业应用中的一个关键方面,涉及在图像或视频帧中准确划定和识别特定目标。You Only Look Once(YOLO)算法在精准农业中的应用展示了其在检测和分类物体方面的速度和效率。本小节探讨了几项利用YOLO进行精准农业的研究,展示了其在疾病和害虫检测、种子分类等任务中的有效性。这些应用不仅增强了目标识别的准确性,还优化了农业过程,提高了整体作物管理。

Li等人使用卷积神经网络(CNN)识别高分辨率卫星图像中的农业温室(AGs)[98]。研究比较了三种著名的基于CNN的物体检测模型:Faster R-CNN、YOLO v3和SSD。利用PyTorch深度学习框架在配备两块TITAN RTX GPU的工作站上训练和评估模型。通过将GF-1数据融合到2米多光谱数据中,结合GF-2数据,研究增强了样本多样性,并评估了不同数据源中类似AG风格的方法可转移性。结果表明,YOLO v3模型在AG检测的准确性和效率方面优于其他模型。尽管研究为AG检测方法和遥感中的CNN物体检测提供了宝贵的见解,但作者承认需要进一步研究以利用多光谱和超光谱数据在卫星图像中进行改进的物体检测。研究的唯一重点是AG检测,提示未来研究探索其他地理空间物体。

Khan等人开发了一种深度学习系统,用于区分草莓和豌豆田中的作物和杂草,旨在集成到精准农业喷洒器中进行实时杂草管理[99]。配备摄像头的无人机捕获田间图像,深度学习技术经过优化,以高精度识别早期生长阶段的小杂草斑块。该系统展示了94.73%的总体平均准确率,优于现有的基于机器学习和深度学习的方法。尽管其鲁棒性,研究承认了数据集大小、泛化性和实时集成到精准喷洒系统中的限制,呼吁进一步研究和开发。

Mamdouh和Khattab引入了一种基于YOLO的深度学习框架,用于检测和计数果园中的橄榄果蝇[100]。该框架展示了卓越的精度(0.84)、召回率(0.97)、F1分数(0.9)和平均精度(mAP)为96.68%,超过了现有的害虫检测系统。作者强调了该框架相对于传统手动方法的潜在益处,并通过广泛的模拟实验展示了其有效性。尽管承认了缺乏大规模数据集的限制,但作者提出了未来改进,如实际图像评估、数据集丰富和转换为多类分类器。

5.6 比较分析

我们的方法系统地比较了农业环境中不同YOLO应用,整合了任务复杂性、实验条件控制、硬件依赖性以及结果和错误测量方法的批判性分析等关键方面。这种全面的方法不仅评估了性能,还阐明了在实际农业场景中部署这些模型的实际影响。

在不同应用领域中对不同YOLO版本的比较分析中,每个YOLO架构版本展示了独特的优势和特定的局限性,影响了其在某些任务中的适用性(见表11)。例如,YOLOv1主要处理VOC 2007或芝麻田图像数据集等标准数据集中的简单物体识别任务,如杂草检测。相比之下,YOLOv4和YOLOv5等较新版本已在具有多样背景、多类物体和实时检测需求的复杂农业数据集中得到应用。这些任务不仅评估了准确性,还评估了模型在自然场景中的复杂性,包括光照条件、遮挡和重叠物体的变化。

我们的分析强调了控制实验条件以验证物体检测模型的鲁棒性的重要性。例如,YOLOv3在基于无人机的杂草检测中的部署不仅涉及算法的性能,还涉及飞行稳定性、相机质量和环境干扰等因素,这些因素显著影响结果。同样,YOLOv6在野生动物监测中的应用提出了挑战,如动物速度变化和伪装背景,推动了在较少控制但高度变化条件下的检测能力极限。硬件选择显著影响YOLO模型的部署。我们的审查涵盖了从用于训练的高端GPU到用于现场部署的嵌入式系统(如NVIDIA Jetson),批判性地评估了帧率、处理速度和功耗等性能指标,以确定农业环境中有限功率和移动性下的可行性。

我们的方法包括对错误测量技术的批判性审查,现在在比较分析表的“性能指标”列中详细说明(见表11)。我们关注精度、召回率、mAP和F1分数等指标,这些指标对于评估不同场景中的模型性能至关重要。此外,我们将错误分类为定位、分类和误报/漏报等类型。这种分类不仅提供了对模型性能的细致了解,还增强了我们对在实地条件下部署这些模型的实际影响的理解。例如,在YOLOv4在作物疾病检测中的应用中,理解误报的影响至关重要,因为错过患病植物可能导致作物中疾病的广泛传播。

综合这些全面的方法的数据,我们可以在不同YOLO应用和版本中综合发现,突出速度和准确性改进与计算需求和复杂性之间的权衡趋势。这种综合不仅解决了当前的研究问题,还确定了未来研究的空白,提出了潜在的模型训练或部署增强,以更好地满足精准农业的特定需求。YOLO架构的演变标志着技术增强的显著轨迹,经过精心调整以应对农业应用的多样和挑战性需求。每个版本从YOLOv1到YOLOv10都解决了特定限制,导致更复杂的系统能够处理复杂的环境交互。这些迭代改进强调了根据特定农业任务选择适当YOLO变体的重要性,平衡计算需求与精准要求,以实现害虫识别和作物疾病监测等任务。通过将模型能力与任务特定需求对齐,研究人员和从业者可以利用YOLO技术推动精准农业和可持续耕作实践的未来。

这种比较分析强调了根据特定应用需求选择模型和涉及的技术权衡的关键作用,为未来研究和农业中的技术应用提供了框架。

                                       表11:不同YOLO版本在各种应用领域的比较分析

YOLO版本应用领域优势限制
YOLOv1物体检测、杂草和作物检测[63, 68, 69, 76, 87, 89, 92, 93]快速实时处理难以处理小物体
YOLOv2动物跟踪[81]提高召回率,更好地处理小物体更高的计算需求
YOLOv3农业[61, 70, 71, 72, 77, 86, 88, 92]多尺度检测,适应多样条件未优化低功耗设备
YOLOv4农业[62, 66, 75, 78, 91, 85]复杂视觉环境中的鲁棒性自定义数据集训练复杂
YOLOv5杂草检测[65, 67, 94, 95, 84]非常快,适用于实时应用特定场景可能需要微调
YOLOv6野生动物监测[101]高精度,增强深度需要高计算能力
YOLOv7作物疾病检测[96]高精度,拥挤场景有效计算效率随规模下降
YOLOv8农业[80, 102]非常高速,适用于动态环境难以处理非常小或快速移动的物体
YOLOv9植物疾病检测[103, 104]高精度和召回率,适用于详细医学扫描需要大量数据集进行训练
YOLOv10增强的准确性-效率权衡,无NMS模型多源集成复杂配置

6 讨论

YOLO变体在农业中的整合已成为一种变革性方法,彻底改变了耕作和作物管理的各个方面。如表8、9和10所示,用于农业应用的各种YOLO模型展示了这些架构在应对农业领域独特挑战中的适应性和有效性。值得注意的是,不同应用中持续的高准确率,包括杂草检测、作物识别和疾病诊断,突显了YOLO基于模型在多样农业场景中的鲁棒性能。

实时精准农业: YOLO变体在农业中的一个突出特点是其促进实时精准农业的能力。YOLOv3、YOLOv4和YOLOv5等模型展示了在农业景观中检测和识别物体的卓越速度和准确性。这种实时能力对优化耕作实践、实现及时决策和提高资源分配效率具有重要意义。

杂草检测和管理: YOLO变体在杂草检测中的应用,如研究[61, 62, 63, 64, 65, 66, 67, 68, 69, 70]所示,标志着传统杂草管理实践的范式转变。通过YOLO模型实现的实时识别和定位杂草,使农民能够实施靶向和高效的杂草控制措施。尽管在检测较小物体方面存在某些挑战,如YOLO-WEED[61]和YOLOv4-weeds[62]所示,但总体性能强调了其在杂草检测和控制中广泛采用的潜力。

作物检测和监测: 在精准农业中,稳健的作物检测方法的重要性不言而喻。YOLO变体,如研究[71, 72, 73, 74, 75, 76]所示,为大规模田地中的作物准确识别和划定提供了全面的解决方案。这些模型为监测作物健康、估算产量和优化资源管理提供了工具。专门模型如CitrusYOLO[74]和YOLO-P[73]强调了YOLO架构在多样农业环境中的适应性。

7 YOLO基于农业应用的挑战

尽管YOLO在农业应用中的成就显著,但仍存在挑战。数据集的区域特异性、硬件限制以及进一步研究以增强模型适用性是值得关注的领域。未来的工作应集中在解决这些挑战,探索模型对不同作物和环境条件的泛化性,并促进传感技术的进步以实现更广泛的应用。

数据特异性和泛化性

YOLO基于农业应用中的一个显著挑战在于用于模型训练的数据集的特异性。许多研究集中在特定作物或地区,这可能限制模型在多样农业景观中的泛化性[105]。解决这一挑战涉及创建更全面和多样化的数据集,涵盖各种作物、生长阶段和环境条件[106]。此外,研究应致力于开发迁移学习技术,以增强模型对新农业环境的适应性[107]。

硬件限制

在实际农业环境中部署YOLO基于系统可能面临硬件限制,特别是在资源有限的环境中[108]。许多研究利用强大的计算资源进行模型训练和推理,但实际实施在边缘设备或嵌入式系统上提出了挑战[109]。未来的研究应探索模型优化技术、量化和轻量级架构,以使YOLO变体更适用于精准农业设备中常用的边缘设备。

环境变异性

农业环境本质上是动态的,光照条件、天气和地形的变化。尽管鲁棒,YOLO模型可能面临适应这些环境变化的挑战。确保在多样条件下检测的可靠性需要开发对光照、恶劣天气和不同地形变化具有鲁棒性的模型。这需要在模型训练中整合环境适应性,并进一步探索领域适应技术。

小物体检测

在农业环境中识别微小杂草或疾病对YOLO变体提出了独特的挑战。YOLO的固有结构可能在区分图像中的较小物体时遇到困难。解决这一障碍需要特征提取、注意力机制或多尺度检测策略的进步。此外,集成技术可以用于克服误报和漏报,如研究人员[110, 111, 112, 113]所实施的。未来的研究应集中于改进YOLO架构,以增强精准农业应用中较小物体的检测精度。此外,集成注意力机制可以作为一种有价值的方法,引导YOLO架构关注细微缺陷,如在纺织行业中成功实施的那样[114, 115, 116, 117, 118, 119]。

8 未来方向和机遇

多模态集成

整合多模态数据源,如结合RGB图像与热成像或高光谱数据,为推进YOLO基于农业应用提供了巨大潜力[120]。结合不同模态可以提供更丰富的信息,实现更准确和鲁棒的作物、杂草和疾病检测。未来的研究应探索多模态数据的融合,以增强YOLO模型在精准农业中的整体性能和可靠性。

可解释性和可解释性

随着YOLO模型成为农业决策的核心,确保其可解释性和可解释性至关重要。农民和利益相关者需要理解模型预测的依据,以信任和有效实施精准农业实践。未来的工作应集中在开发解释YOLO模型决策的方法,并提供关于如何在复杂和动态农业环境中进行检测的见解。

实时自适应系统

YOLO架构向实时能力的演变为开发响应动态农业条件的自适应系统开辟了途径。未来的YOLO基于模型可以整合实时学习机制,使其能够基于来自田间的持续反馈进行适应和改进。这将有助于开发智能和自我改进的精准农业系统。

人机协作

认识到农民的专业知识,未来的研究应探索促进人机协作决策过程的模型。将农民知识与基于AI的见解相结合,可以实现更有效和上下文感知的农业实践。人机协作对于解决农业中固有的复杂性和不确定性至关重要,使YOLO基于技术能够无缝集成到现有的耕作生态系统中。

总之,克服挑战和利用未来机遇需要研究界、行业利益相关者和农民的共同努力。不断改进YOLO基于模型,结合数据收集、硬件和可解释性的进步,将推动AI在农业中的应用,实现可持续和高效的耕作实践。

9 结论

总之,YOLO变体与农业的交叉展示了精准农业、杂草管理和作物监测的变革潜力。各种研究中展示的持续进展和有前景的结果强调了YOLO架构在塑造智能和高效农业未来中的关键作用。全面审查YOLO变体在农业应用中的潜力强调了这些模型在革命性精准农业中的变革作用。从作物检测和疾病识别到杂草管理,YOLO变体展示了卓越的能力,提供了实时和高效的解决方案,以应对农业中的长期挑战。讨论和分析各种研究强调了YOLO架构在多样农业场景中的多功能性和适应性。尽管取得了显著成功,但仍存在挑战,需要持续的研究努力。数据集的特异性、硬件限制和环境变异性提出了需要创新解决方案的障碍。未来的研究应优先开发更包容的数据集、边缘设备的优化技术和对动态农业环境具有鲁棒性的模型。

展望未来,多模态集成、可解释性和实时自适应系统提供了进一步增强YOLO模型在农业中效用的令人兴奋的机会。结合不同数据模态,结合实时学习机制,可以迎来智能和上下文感知的精准农业的新时代。此外,关注人机协作承认了农民在决策过程中的不可或缺的作用,促进了AI技术与现有农业实践的和谐集成。总之,YOLO变体在农业中的演变标志着向可持续、高效和科技驱动的耕作实践的范式转变。随着研究人员、从业者和利益相关者的合作,未来对YOLO基于应用的持续进步有望为全球努力解决粮食安全和促进环境可持续农业做出贡献。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Together_CZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值