目录
近年来,异物侵入铁路、机场跑道的事件频频发生。这些物体可能包括行人、车辆、动物和碎片。本文介绍了一种改进的 YOLOv5 结构,该结构结合了 fastnet 和注意机制,以增强对铁路和机场跑道上异物的检测。本研究提出了一个新的数据集 AARFOD(航空和铁路异物检测),该数据集结合了两个公共数据集,用于检测航空和铁路系统中的异物。该数据集旨在提高外来物体目标的识别能力。在该大型数据集上的实验结果表明,与基线YOLOv5 模型相比,该模型的性能有了显著提高,减少了计算需求。改进的 YOLO 模型显示精度显著提高 1.2%,召回率提高 1.0%,mAP@.5 提高 0.6%,而 mAP@.5-.95 个保持不变。参数降低约 25.12%,GFLOPs 降低约 10.63%。在烧蚀实验中发现,fastnet 模块可以显著减少模型的参数数量,并且注意机制的参考可以减缓轻量化带来的性能损失。
1.介绍
随着交通系统的不断发展,关于交通基础设施(如铁路和航空)的安全问题变得越来越重要。铁路和航空安全面临的主要威胁之一是障碍物对轨道的入侵。常见的未经授权的铁路入侵包括行人、车辆、动物和落石。如果不能及时向当局通报这些入侵,可能会对铁路交通安全和运营连续性产生不利影响[1]。这一问题也存在于航空业。机场跑道上的外来碎片在飞机起降过程中对飞机构成威胁,严重时可能造成不可挽回的损害[2]。早期防范外来物的方法
运输路线上的物体入侵主要依靠物理屏障和人工检查。然而,这种方法在人力和财力上都是昂贵的,疏忽或松懈的检查可能导致严重的后果。传统的、相对有效的检测方法已经基于传感器技术,利用各种设备,如毫米波雷达和光学摄像机来监控铁路和机场跑道上的入侵[3][4]。近年来,基于人工智能的分析在各个领域发展迅速[5][6]。随着深度学习的发展和视频处理技术的成熟,基于计算机视觉的检测方法迅速涌现,减少了大量的人力和财力[7][8]。异物检测领域也不例外。但是,与之前的检测算法相比,在精度和速度上仍有提升的空间。目前,检测和检测网络分为两种类型:单阶段和两阶段网络[9]。两级网络分别处理定位和分类,因此检测精度更高。另一方面,单级网络将两者统一起来,与两级方法相比,检测速度有了明显的突破。两级网络的代表是 SSD[10]和 YOLO[11]。YOLO v5 是目前广泛使用的主流网络之一,具有较好的检测精度和检测速度。目前,将该网络直接应用于交通运输系统中异物的检测,还存在需要解决的挑战。首先,铁路和机场跑道位于复杂的室外环境中,照明等因素可能会干扰识别工作。其次,外来物体在不同的环境和场景中可能具有不同的形状,这使得特征提取变得更加困难。此外,计算机视觉技术经常捕获识别目标太小的图像,需要更高精度的算法来检测它们。
为了增强算法的异物识别能力,我们将铁路和航空的异物检测数据集结合起来进行训练。此外,我们提出了一种新的基于 FasterNet 和注意力机制的改进 YOLOv5 架构,以提高对交通跑道类型的检测能力。
2.相关工作
在视野的结构中,最流行的方法有两大类:一类是 CNN。CNN 是计算机视觉领域的主流架构,特别是在需要轻量级设计同时保持一定性能水平的实际部署中。具体来说,诸如深度可分离卷积(或称为DWConv)之类的设计可以减少网络结构的参数和计算量,例如 MobileNets[12]。另一种类型是变压器,用 ViT[12]表示。这是一种基于源自自然语言处理领域的注意机制的结构。Vit 利用一系列的局部扫视和选择性来聚焦突出部分,从而更好地捕捉视觉结构。虽然有一种趋势是通过使用注意机制来降低注意算子的复杂性,但需要注意的是,基于注意的机制通常比卷积机制运行得慢,这使得它们不太适合轻量级开发[13]。
3.方法
本节将介绍基于轻量级 yolov5 的三种网络结构变化。
3.1 FasterNet 和 PConv
为了改进 yolov5,我们首先引入了 FasterNet 模块[14]。模块和 PConv(部分卷积层)的结构如图 1 所示。
每个 FasterNet 块都有一个 PConv 层,然后是两个 PWConv (PointWise Convolution)层,以增加特征通道的数量并帮助特征融合,每个 PConv 后面都有两个 PWConv 层。它们一起被表示为倒残差块,其中选择批处理归一化(batch normalization, BN)来提高模型的训练稳定性和推理速度。PConv 是一个部分卷积层
在传统的 YOLOv5 卷积运算中,卷积核应用于输入特征映射的所有通道。然而,PConv 仅选择连续的通道子集,即第一个或最后一个通道,进行卷积运算以提取空间特征。为简单起见,我们假设输入特 征图()的输出特征图()的通道数相同。FLOPs 的计算公式近似如下式(1)所示。
其中𝐾2 表示卷积核大小,𝐻×𝑊is 表示输出特征图的大小。可以很容易地推测,PConv 与正则卷积相比,FLOPs 的减少与偏比 r 的平方成正比。偏比 r 表示为式(2):
其中𝑐is 为输入通道总数,𝑐𝑝is 为参与卷积的通道数。这种结构设计显著降低了计算需求。虽然我们只使用 cp 通道进行空间特征提取,但剩余的通道不需要从特征图中移除。这允许特征信息在所有通道中流动,允许后续的 PWConv 层获得完整的信息,并且不会使后续具有注意机制的卷积层变得无用。
3.2NAM
对于颈部网络部分,本文使用了轻量级的注意力机制模块 NAM[15],该模块使用了类似 CBAM[16]的串行模块。CBAM 的集成过程如图 2 所示。NAM 重新设计了信道和空间注意力子模块,嵌入在每个网络块的末端。
它使用比例因子进行批归一化,该比例因子通过标准差表示权重的重要性。通道和空间注意子模
块都使用了批归一化的比例因子,如式(3)所示。
其中,输入特征和输出特征分别为:(1)为小批量特征的均值和方差;𝛾and𝛽are 可调仿射变换参数用于特征的缩放和移位,𝜖is 为数值稳定性添加一个小常数。通道和空间注意子模块的结构如图 3 所示。对于通道注意子模块,比例因子 γ 衡量每个通道的重要性,通过计算所有通道比例因子(γj)的总和获得权重(Wγ)。类似地,对于空间注意子模块,λ 是用来衡量像素在空间维度上的重要性的比例因子,权重(Wλ)是通过计算所有空间比例因子(λj)的和得到的。最终的网络结构如图 4 所示。
3.2 数据集
我们提出了 AARFOD(航空和铁路异物检测)数据集,这是一个专门为机场跑道系统和铁路轨道系统的异物检测而设计的新的大规模检测数据集。AARFOD 数据集集成了 RailFOD23[17]和 FOD- A[18]两个公共数据集,共包含 48,409 张高分辨率图像,涵盖 35 个对象类别,74,334 个带注释的对象。提供的图像显示了可能对飞机和火车造成伤害的外来物体,包括金属工具、漂浮物、鸟巢、零件、橡塑碎片、机场跑道和铁路轨道上发现的树枝和树叶。这些图像是在不同的光照和天气条件下拍摄的,以模拟真实环境,并从不同的距离和角度拍摄。为了提高数据集的通用性和解决外来物图像的稀缺性,在构建 AARFOD 时采用了数据增强技术。这些技术包括人工合成、自动生成、背景融合和噪声添加
4.实验
模型采用 yolov5s 作为评估基准,所有模块增强都基于 yolov5s。本实验模型训练的机器的操作系统为Windows 11, CPU 型号为 Intel (R) Core (TM) i3-12400F,内存大小为 32 GB, GPU 型号为 NVIDIA GeForce GTX 3060Ti,显卡内存大小为 8 GB。评价指标采用目标检测中各类 AP 值的常用精密度(P)、召回率(R)、平均精密度(AP)和平均平均精密度(mAP)。以上指标的计算公式如下:
精密度是预测阳性中真阳性的比例,召回率是所有实际阳性中真阳性的比例。模型复杂性指标包括参数数量和千兆浮点运算(GFLPOs)。 表 1、图 5、图 6 为实验结果数据,其中 YOLO-FasterNet 表示只在头部更换 FasterNet, YOLO-NAM表示在颈部加载注意机制模块 NAM。结果表明,所有模型都具有相对较高的精度和召回率,尤其是mAP@.所有模型中有 5 个值接近或高于 0.98。这是由于庞大且合并的数据集,可以为外来物体识别训练支持做出强有力的贡献。
与基线模型相比,YOLO-FasterNet 的准确率提高了 0.7%,召回率提高了 0.8%,mAP@也提高了。5 提高 0.5%。然而,mAP@.5- 0.95 略有下降 0.5%。参数数量减少约 26.61%,GFLOPs 降低约17.82%。同样,YOLO-NAM 的准确率提高了 0.4%,召回率提高了 0.6%,mAP@也提高了。5 提高0.4%。mAP@.5- 0.95 也有 0.1%的小幅增长。然而,参数数量增加了约 2.53%,GFLOPs 增加了约8.78%。与基线模型相比,改进的 YOLO 精度提高了 1.2%,召回率提高了 1.0%,mAP@显著提高。5 增长 0.6%,而 mAP@.5-。95 保持不变。参数数量减少约 25.12%,GFLOPs 降低约 10.63%。实验结果表明,YOLO-FasterNet 在保持类似 mAP@.5-的情况下,略微提高了整体检测性能95 的性能,并显著降低了模型的参数大小和计算需求。这说明 fastnet 的模块设计确实是针对速度进行了优化。同样,YOLO-NAM 也提高了整体性能,特别是在精度和召回率方面,计算负载略有增加。引入规范化的注意机制,有效地关注了关键特征通道。通过两种方法的融合,YOLOImproved 在减小参数大小和计算复杂度的同时显著提高了识别性能。该模型通过创新的架构进取得了很好的效果。如图 5 所示,该模型在物体识别方面实现了很高的精度,这对其在现实世界的轻量级设备上的部署具有重要意义
5.结论
本文讨论了交通基础设施中的异物入侵问题,具体针对铁路和机场跑道。为了应对这一挑战,本文引入了一种改进的 YOLOv5 体系结构,该体系结构将 fastnet 的 NAM 模块与注意机制相结合,以增强对运输环境的理解并检测跑道上的异物。YOLOv5 架构的改进包括利用部分卷积(PConv)进行有效的特征提取,并利用轻量级的注意力机制模块 NAM 进行增强的特征识别。此外,文章还提出了一个名为 AARFOD 的新数据集。该数据集结合了两个公共数据集,以支持所提出的检测系统在各种条件下的训练和评估。实验结果表明,与基线 YOLOv5 模型相比,所提出的改进显著提高了精度、召回率和平均精度(mAP),同时减少了计算需求。未来的研究可能会更深入地研究该结构,特别是探索更有效的方法将 fastnet 和注意力机制结合起来,以获得更有效的识别结果。