标题:
作者:
原文地址:
Abstract
线夹和防振锤是高压输电线路的关键部件。无人机电力巡检中检测到的线夹和防振锤尺寸小、边缘信息少、识别准确率低。针对这些问题,提出一种基于YOLOv8n的小目标检测模型,称为SOD-YOLO。首先,YOLOv8增加了一个额外的小目标检测层,显著提高了小目标检测精度。此外,为了提高模型的检测速度,引入了RepVGG/RepConv ShuffleNet (RCS)和一次聚合RCS (RCSOSA)模块来代替模型主干和颈部浅层网络中的C2f模块。最后,针对模型训练过程中对低质量样本包围盒的过度关注,引入Wise-CIoU损失代替CIoU损失,提高了模型的检测精度。实验结果表明,SOD-YOLO实现了90.1%的平均精度,超过YOLOv8n基线模型7.5%,同时保持了3.4 M的模型参数计数;推理速度达到88.7帧/秒,满足实时识别的要求。
Index Term——YOLOv8;小目标检测;线夹;防震锤
Introduction
贡献
现有模型存在检测精度和速度不能同时平衡的问题:
- 一方面,两阶段目标检测方法不能充分捕获具有浅层特征的小目标,其推理速度仍具挑战性;
- 另一方面,第一阶段目标检测方法中多尺度融合效果不佳,导致模型识别小目标的准确率较低;
- 无人机巡检图像中的小目标检测效果也经常收到复杂背景的影响。
为此,本文介绍了一种基于YOLOv8n的改进网络SOD-YOLO。它的主要贡献如下:
- 为了提高对小目标的探测能力,小物体检测层SODL加入到YOLOv8n中,获得不同比例的特征图,并进行多比例特征提取和融合;
- 通过将RCSOSA模块集成到模型当中来提高模型识别的准确性和速度;
- 设计了WIoU-CloU损失来在报吃推理速度和模型参数的情况下,有效降低了低质量样本的有害梯度,提高了模型的检测精度。
综述
相关工作
YOLOv8
- 介绍:该模型具有更高的速度和准确性,并为模型训练提供了统一的框架,包括图像分类、目标检测和实例分割。在本文中,YOLOv8n被用作改进的基线,模型结构如图1所示。
YOLOv8的结构图。SC=T,SC=F分别表示快捷方式=真,快捷方式=假。
YOLOv8模型由三个主要部分组成:
- 主干:主要负责从输入图像中提取关键特征。主干由多个Conv、跨级部分网络融合(C2f)和空间金字塔池快速(SPPF)模块组成。Conv模块由Conv2d、批量归一化和路斯激活函数组成。其结构如下图所示:
- 头部:该部分采用 “解耦头部”(Decoupled Head)结构,通过不同的网络分支学习目标类别信息和位置信息,避免网络在处理不同任务时产生干扰。此外,为了避免锚点匹配的复杂性和不确定性,还采用了无锚点方法,通过在网络中的每个位置直接进行预测来生成目标对象的边界框;
- 颈部:该部分主要采用 FPN(特征金字塔网络) 和 PAN(路径聚合网络)来结合来自骨干网络(Backbone)不同深度的特征图,使模型在检测不同尺寸目标(尤其是小目标)时具备更强的表达能力。并通过上下文信息的传递,加强中层特征的上下语义融合,有助于提升目标定位的准确性。
小物体探测层(SODL)
- 问题:无人机巡检图像分辨率高,存在目标区域相对背景较小、目标特征不明显等问题。这导致小目标物体在特征图上占据较少的像素,使得难以获得目标的特征信息。此外,相互遮挡的多个目标导致模型难以区分目标类别,从而导致漏检和误检现象;
- 解决方法:在YOLOv8的P2层增加了一个额外的高分辨率探测头,并且只需要两次下采样操作就可以获得丰富的小目标浅层特征信息。第二,在颈部有效融合深层网络特征信息,进一步提高模型检测精度。然而,添加一个额外的小目标检测层会使模型计算量更大,每秒帧数(FPS)更低。
RCSOSA
- 问题:传统的视觉模型由于其复杂的网络结构,通常会导致推理速度偏慢的问题,而轻量级模型对于小目标检测的精度可能不满足要求。
- 解决方法:RCSOSA模型综合考虑了检测精度和推理速度。首先,设计了一种基于信道混洗的结构化参数化卷积,称为RCS,该模块的框架如图3所示。
RCS模块的结构图。其中(a)和(b)分别表示RepVGG模块和RepConv模块。
该模型的多分支拓扑结构允许模型学习到更丰富的特征信息。而简单的分支结构不仅减少了计算资源的消耗,还提高了推理速度。然后就是将得到的特征通过concat拼接在一起。最后通过通道洗牌将两个分支的特征图通道重新组合,促进不同通道之间的信息交换,以提取更丰富的特征信息。
- 改进:为了减轻与RCS模块相关的计算,RCSOSA模块是通过结合RCS和一次性聚合(OSA)提出的,如下图所示:
RCSOSA模块的结构图
该模块通过重复堆叠RCS模块来实现特征重用。在OSA路径上保留了三个特征级联,以减少计算量并实现高精度的快速推断。
CIoU
- 原理:原始的 CIoU(Complete IoU) 损失综合考虑了三个因素:1. IoU:预测框与真实框的交并比;2. 中心距离惩罚项:鼓励预测框靠近真实框中心;3. 宽高比惩罚项:鼓励预测框与真实框形状一致。
- 问题:虽然 CIoU 在大多数目标检测任务中有效,但它无法有效区分高质量与低质量的锚框(anchor boxes),导致低质量样本(如远离真实目标的负例)仍可能获得较大的梯度,从而干扰训练过程。
方法
-
模型架构:
1) 在SOD-YOLO模型中加入了一个小目标检测层。通过融合浅层和深层特征,并在浅层特征图后增加探测头,增强了对小目标的敏感性,显著提高了模型的探测精度。
2) 在SOD-YOLO模型的主干和颈部的浅层网络中加入RCSOSA模块,取代原有的C2f模块,提高模型的推理速度和小目标识别准确率。
3) 为了解决低质量样本的问题,设计了Wise-CIoU边界框损失函数,该方法引入了一种梯度增益分配的策略方法,旨在减轻表现优异的锚帧之间的竞争,同时最小化低质量样本对梯度的负面影响。 -
Wise-CIoU:该方法的改进主要有以下两点:
1) 双层注意力:
问题:由于传统 CIoU 损失函数会均等对待所有预测框,这会导致高质量的预测框会导致过拟合的情况,而低质量预测框产生较大误导梯度,扰乱优化方向。
改进方法:引入了一个新的变量对 IoU 的滑动平均处理,表示预测框与真实框的长期拟合情况;
意义:一方面通过 CIoU对不匹配的框进行惩罚;一方面通过 IoU对长期表现差的样本降低其影响力。
2) 非单调动态聚焦机制:
问题:传统的损失函数通过“单调聚焦”强化难例学习,但在目标检测中,这可能会放大低质量预测框的负面影响。
改进方法:通过计算每个预测框的“异常程度”,动态调整它对模型训练的影响力:预测太差或太好时影响都较小,只有那些中等质量、还有进步空间的预测框才会被重点关注,从而引导模型更高效地学习、避免被低质量样本干扰。
意义:区别对待不同质量的预测框,防止低质量样本产生误导性的强梯度;动态响应训练过程中的 IoU 状态,实时调整训练焦点;实现“抑制差、引导中、稳健高”的训练策略,更好地拟合复杂场景,尤其适合小目标检测。
实验
- 数据集:实验数据来自国家电网浙江公司,通过无人机拍摄高压输电铁塔采集了3376张输电线路巡检图像;
- 小目标定义:根据目标包围盒面积与图像平方面积之比,当小于0.03时,定义小目标;
- 评价指标:
1) 表示正样本正确识别在模型判别为正样本的数量中比例的精度§;
2) 表示模型中正确识别正样本占全部正样本比例召回率®;
3) 表示不同召回率下平均精度的平均精度(AP);
4) 表示每个类别AP的平均值的平均平均精度(mAP);
5) 表示计算量的千兆浮点运算(GFLOPs) - 实验结果:
很明显,SOD-YOLO模型在准确度表现出优异的性能。而且它的推理速度和计算量也得到了保证。
- 消融实验:为了验证SODL、RCSOSA和Wise-CIoU在SOD-YOLO模型中的有效性,进行了消融实验:
可以看出:
- SODL模块的增加增加了对数据集中小目标的敏感性
- RCSOSA模块可以显著降低推理阶段的内存占用和计算量;
- Wise-CIoU损失在不改变模型参数数量、计算量和检测速度的情况下,提高了模型检测的精度
- 结果可视化:
从图8a、b可以看出,原始图像中分别有12个和11个目标,目标分布集中,检测难度较大。在YOLOv8n中有一个脱靶防震锤,而在SOD-YOLO中所有目标都被探测到。
在图8c的原图中,有六个目标,两个防震锤距离拍摄位置较远,像素信息很少,目标模糊。YOLOv8n中探测到5个目标,有2个脱靶和1个误探测目标防震锤,而SOD-YOLO中探测到的都是目标。
此外,SOD-YOLO检测到的目标包围盒更加完整,包含了整个目标,目标的可信度也大大提高。
- 与其他模型对比:为了展示SODYOLO算法的泛化能力和优越性能,本文的算法与当前先进的算法在VisDrone2019数据集上使用与上述相同的训练超参数进行了比较。实验结果如下表所示:
表4清楚地显示,我们的SOD-YOLO模型在VisDrone验证集上的映射在所有类别中都优于其他好模型,
基于上述实验结果,很明显,与其他模型相比,SOD-YOLO在微小目标检测中具有更好的检测性能。在本文的数据集上,mAP为90.1%,FPS达到88.7,满足了小目标实时检测的要求。
总结
本文以输电线路安全运行为目标,构建了高压铁塔下无人机巡检航拍数据集,共3376幅RGB图像。提出了一种适用于输电线路的SOD-YOLO小目标检测模型。为了增强模型从小目标中提取特征的能力,我们最初在YOLOv8n模型中引入了专用的小对象检测层,通过结合浅层和深层网络特征,提高了模型的检测精度。然后,RCSOSA模块被并入以取代主干和颈部的浅网络中的C2f模块。该模块在推理阶段采用简单的单分支结构,减少了模型的计算量,显著提高了模型识别速度。最后,为了进一步提高模型检测精度,用Wise-CIoU损失代替CIoU损失。损失函数通过为不同样本分配适当的梯度增益,有效地解决了数据集中低质量样本的问题。这一增强改进了模型回归边界框的能力。实验结果证明了SOD-YOLO模型的优良性能。
未来展望
在本文中构建的高压输电线路数据集中只有相对少量的目标是有缺陷的,并且不可能构建输电线路缺陷数据集。在今后的研究中,我们将进一步考虑螺栓松动和线夹老化,以及防震锤缺失或损坏的情况。还将进一步研究有效的特征提取方法,以提高小目标的检测精度和速度。