《FDNet: Lightweight Train Image Fault Detection Network in Edge Computing Environments》论文翻译

FDNet: Lightweight Train Image Fault Detection Network in Edge Computing Environments

 文章主要从六个部分进行介绍:I 介绍;II 介绍目标检测领域相关工作;III 介绍YOLOx模型和注意力机制;IV 阐述拟议的FDNet;V 实验分析;VI 总结

        摘要——目前的列车图像故障检测模型没有考虑检测精度和速度,参数和计算量较大。因此,该模型无法轻易满足实际边缘计算场景的要求。因此,本研究提出了一种边缘计算环境下的轻量级列车图像故障检测网络(FDNet)。FDNet在YOLOX的基础上做了三点改进。首先,FDNet设计双路径增强通道注意(DECA)模块并融合路径聚合网络(PAN)形成DECA-PAN模块,以抑制背景干扰,突出物体,提高模型的特征融合能力。其次,采用focus损失和阿尔法完全交集(Alpha-CIoU)损失来优化损失函数,以缓解图像样本小和故障类别不均匀的问题。第三,在FDNet检测头中添加感受野融合块,设计三组检测头来检测不同尺度的物体,以提高模型对多尺度物体的检测能力。在列车图像故障数据集上的实验结果表明,FDNet的平均精度(mAP)和速度分别达到94.82%和103.4帧每秒(FPS),而其参数和浮点运算不到其六分之一。 著名的YOLOv4。 FDNet、YOLOv5-s、YOLOX-s、YOLOv6-T、YOLOv7-tiny在公共数据集COCO2017上的实验结果表明,FDNet在保持所有轻量级模型中较高的检测速度的同时,实现了最高60.60%的mAP。噪声和光照鲁棒性测试表明FDNet具有良好的抗干扰能力。

        索引术语——边缘计算、故障检测、轻量级模型、对象检测

I 介绍

        铁路运输多年来在客运和货运中发挥着重要作用。列车包含大量零件和控制开关。当这些部件发生偏移时,将严重影响列车的安全运行。列车通常由专业人员进行检查,以避免列车部件故障造成安全隐患。这种人工检测方式需要大量人力,效率较低。基于深度学习的目标检测为列车故障检测提供了新的解决方案[1]。许多研究人员研究了使用目标检测的列车图像故障检测问题。孙等人[2]设计了自动故障识别系统(AFRS)。作者仅关注评估AFRS的性能。张等人[3]探索了一种货运列车图像故障检测的两阶段模型,该模型参数较多,检测速度较慢。 张等人[4]设计了一种名为Light FTI-FDet的故障检测模型,具有较高的检测精度。 但FTI-FDet的参数数量仍然较多,达到89.7 M。这些模型精度较高,但没有综合考虑模型的速度、参数数量和计算量。这些因素也可以决定故障检测模型在资源有限的情况下是否能够实际应用。

        使用目标检测模型进行列车图像故障检测面临两个困难。首先,故障检测模型不仅需要克服现实环境中的干扰因素,还要考虑检测精度和检测速度。一方面,光线的变化会严重影响设备捕获图像的质量,进而影响检测模型的故障识别。 另一方面,正常状态下的列车部件图像与故障状态下的图像相似,这使得检测模型难以准确判断是否存在故障[5]。其次,在设备资源有限的情况下,检测模型的部署很难完成。基于深度学习的目标检测模型准确率较高,但需要大量的计算和存储资源[6]。在实际应用场景中,考虑到成本和现场环境,部署大量高性能设备来满足检测模型的资源需求几乎是不可能的。

        云计算技术可以低成本为检测模型提供计算和存储资源。在云计算中心部署目标检测模型是一种可行且经济高效的解决方案[7]。然而,数据迁移到云中心的过程会带来严重的延迟,并存在隐私泄露的潜在风险。边缘计算可以解决云计算的延迟、可扩展性和隐私问题[8]。为了解决云计算的延迟问题,该方法采用选择距离设备数据源最近的边缘节点进行计算,以减少数据传输的时间。这种低延迟的端到端通信支持实时服务[9]。针对可扩展性问题,边缘计算支持边缘设备、边缘计算节点和云数据中心的分层架构[10]。这种分层架构可以提供随客户端数量动态调整的计算资源,从而避免网络瓶颈。为了解决隐私问题,边缘计算通过本地边缘服务器处理数据,避免数据穿越公共网络,降低隐私泄露和安全攻击的风险。然而,边缘计算节点上相对有限的计算资源仍然不足以支持大物体检测模型。因此,应尽可能减少模型对计算和存储资源的需求,以保证实时列车故障检测模型能够在边缘计算节点上运行。

        鉴于此,本研究提出一种边缘计算环境下的轻量级列车图像故障检测网络模型FDNet。FDNet在YOLOX[11]的基础上从两个方面进行了改进,包括复杂度降低和性能提升。设计了具有增强通道注意力的路径聚合网络(PAN)[12]模块和包含感受野融合块(RFFB)的检测头,以提高复杂环境下列车图像故障检测的准确性。此外,FDNet通过使用更高效的focus损失[13]和阿尔法完全交并(Alpha-CIoU)损失[14]来改进损失函数,以增强故障检测性能和鲁棒性。重新设计了特征融合模块和检测头,使FDNet更加轻量级。 与YOLOX-s相比,FDNet不仅提高了故障检测的准确性,而且显着降低了模型的计算成本。如图1所示,本研究探索了FDNet在边缘计算环境中的部署架构。FDNet可以直接部署在资源有限的边缘服务器上。每个边缘服务器都可以通过5G网络连接多个边缘设备。 边缘设备采集的图像上传到边缘服务器进行训练和检测。这种基于边缘计算的架构降低了部署成本,有利于FDNet的广泛应用。

Fig. 1. Architecture of FDNet based on edge computing.

        本研究的贡献如下:

  1.  设计了双路径增强通道注意(DECA)模块。该模块可以抑制背景信息并突出列车图像故障目标。 同时,设计了与DECA融合的PAN模块(DECA-PAN)来增强特征提取和特征融合的能力。
  2. 设计了融合多个感受野的检测头(RFFB-Head)。RFFB-Head中使用RFFB来降低模型的复杂度并融合四个不同的感受野。  
  3. 采用Focal loss作为分类损失函数,解决图像样本少、类别不均匀的问题。 同时,采用Alpha-CIoU损失作为定位损失函数,以提高回归的准确性和鲁棒性。
  4. 本文的其余部分组织如下。 第二节介绍了目标检测领域的相关工作。 第三节介绍YOLOX模型和注意力机制。第四节阐述了拟议的 FDNet。第五节描述了实验和分析,包括实验环境和参数设置、数据集、评估指标以及实验结果分析。第六节总结了本研究 。

II 相关工作

        卷积神经网络(CNN)使用卷积核作为滤波器,其特征提取能力相对于手动提取有很大的提高。CNN可以使用多个场景下的数据集进行训练。因此,用CNN构建的目标检测模型具有很强的泛化能力[15]。

        基于CNN的目标检测可以分为两阶段目标检测和一阶段目标检测。两阶段目标检测包括具有CNN (R-CNN) 系列的区域。Girshck等人[16]设计了R-CNN来解决CNN的目标定位问题。R-CNN的性能较传统目标检测器提高了70%以上。 然而,R-CNN存在一些缺点,例如输入图像失真、选择性搜索(SS)算法耗时、训练过程复杂等。Ren等人设计的Faster R-CNN[17]使用区域提议网络(RPN)代替SS算法,从而显着提高了模型的性能和速度。RPN中设计了滑动窗口机制,使得更快的R-CNN能够在单个网络中执行区域提议生成、特征提取、对象定位和分类。秦等人[18]提出了一种用于移动设备的两阶段目标检测模型,称为 ThunderNet。ThunderNet设计了高效的骨干网络和检测头。此外,ThunderNet还提出了上下文增强模块和空间注意模块来生成更具辨别力的特征表示。此外,ThunderNet设计了一个高效的网络,只需最少的计算资源即可在移动设备上运行。 Kim等人[19]开发了PVANET,它考虑了检测精度和计算成本。PVANET利用当时最先进的技术并取得了令人印象深刻的结果(VOC 2007上的平均精度 (mAP) 为83.8%)。

     单阶段目标检测模型包括“you only Look Once”(YOLO)[20]系列、RetinaNet和EfficientDet[21]。YOLOv1直接通过CNN回归物体的位置和类别,无需提取区域提案的步骤。YOLOv1的结构比较简单,仅使用一个CNN来预测物体的位置和类别信息。YOLOv4[22]利用跨阶段部分DarkNet(CSPDarkNet)作为主干。此外,YOLOv4在空间金字塔池化模块、马赛克数据增强、Mish激活函数等多个方面进行了改进。YOLOv4融合了同期物体检测领域的各种技巧。该方法对于目标检测模型的工业应用非常重要。RetinaNet更侧重于模型训练时利用focus损失函数对困难样本进行分类。EfficientDet探索了用于多尺度特征融合的双向特征金字塔网络模块和复合缩放方法。贾等人[23]提出了在智能驾驶领域使用特征深度交互和引导融合网络(TFGNet)的交通显着目标检测TFGNet融合特征图的局部信息和全局信息,进一步挖掘多尺度特征,达到聚焦完整物体的目的。

        近年来也出现了预设锚点。CenterNet[24]将要检测的对象视为临界点。 CenterNet在预测阶段定位关键点,并从中回归对象的其他属性。全卷积单级(FCOS)目标检测器[25]通过逐像素回归方法预测特征图的每个像素。此外,FCOS使用中心层来过滤低质量的预测框。近年来,许多学者研究了边缘计算的目标检测解决方案。王等人[26]利用Faster R-CNN自动检测工业产品图像中的缺陷,探索了一种云边缘计算系统的目标检测方法。王等人[27]设计了基于CNN的组件分类网络,并开发了云边缘计算环境来支持网络模型的运行、升级和维护。孔等人[28]设计了ECMask,一种基于边缘计算的口罩识别框架。ECMask显示出良好的识别精度和速度。

III 相关模型

A. YOLOX

        YOLOX在解耦头、数据增强、多重正向和最优传输分配等方面对YOLOv3 进行了改进。YOLOX保持了YOLO系列快速检测的优点,同时提高了检测精度。 而且YOLOX不仅性能出色,而且采用了anchor-free机制。YOLOX计算强度较小,不需要设置锚点相关的超参数。

B. Attention Mechanisms

        注意力机制可以通过与注意力模块融合的CNN选择性地提取模型感兴趣的特征。该方法分两步实施。步骤1在原来的网络结构上添加一个注意力机制分支,用于学习权重。步骤2将权重应用于CNN输出的特征图。在目标检测模型的训练过程中,模型根据特征图的重要性分配不同的权重,越重要的特征分配的权重越大。该模型可以通过分配不同的权重来关注有效的特征并抑制低效或无效的特征。该过程可以形式化如下:

                                                          Attention = F( f (x), x)                                           (1)

        其中f(x)表示注意力机制分支输出权重的过程,F(f(x),x)表示根据权重处理输入特征的过程。            根据网络结构和作用区域,注意力机制根据网络结构和作用的不同可分为通道注意力、空间注意力和混合域注意力。通道注意力机制包括挤压和激励网络 (SENet) [29]和深度CNN的高效通道注意力(ECANet[30])。通道注意力机制为特征图的每个通道设置权重。权重代表了渠道与关键信息之间的相关性。Nonlocalattention[31]是空间域注意力机制的典型代表。非局部注意力将C × W × H的特征图根据通道压缩为W × H的权重矩阵,其中C、W和H分别表示特征图中通道的数量、宽度和高度。权重矩阵中的每个元素都会学习一个权重,这些权重的值代表了某些空间位置信息的重要性。混合域注意力机制包括卷积块注意力模块和双重注意力网络。混合域注意力机制考虑了通道域和空间域,具有较高的性能,但参数数量和计算负担较大。

IV FDNET

        列车故障图像具有类别不均匀、多尺度、背景复杂、故障模糊等特点。因此,本研究提出了一种基于无锚架构的单阶段故障检测模型FDNet。FDNet中使用的损失函数、DECA-PAN和RFFB-Head可以有效地适应这些列车故障图像的特征。 本研究的目的是为边缘计算环境开发一种快速、轻量级且高效的列车图像故障检测模型。                                                                                                 本节概述了FDNet的整体结构,并深入研究了CSPDarkNet、DECA-PAN、RFFB-Head和损失函数的详细解释。

A.Overall Architecture

        FDNet的整体架构如图2所示。FDNet由CSPDarkNet、DECA-PAN和RFFB-Head组成。FDNet检测列车图像故障的过程涉及四个步骤。首先,将训练图像输入CSPDarkNet,通过五轮下采样(DS)完成特征提取。其次,将上一步生成的特征图C3-C5输入到DECA-PAN中进行特征融合。然后DECA-PAN对输入和输出特征图P3-P5执行自上而下和自下而上的特征融合。第三,RFFBHead用于检测P3-P5中对象的类别和位置信息。第四,通过非极大值抑制(NMS)消除RFFB-Head输出的冗余。

Fig. 2. Overall structure of FDNet.

B.CSPDarkNet

        FDNet采用CSPDarkNet作为主干,其结构如图3所示。CSPDarkNet是一种高效的特征提取网络,广泛应用于目标检测领域[11]。 输入图像在CSPDarkNet中已多次提取特征信息。在这个过程中,特征图的尺寸变小,通道数增加。CSPDarkNet在DS放大倍数分别为8、16和32时输出特征图C3-C5

        CSPDarkNet 结合了DarkNet和跨阶段部分网络(CSPNet)。如图3中的残差单元(RU)所示,CSPDarkNet使用的残差结构包括两个分支。主干分支由1×1和3×3卷积组成,其中前者负责减少通道数,后者负责恢复通道数。另一个分支直接添加到主干分支的输出。这种跳跃连接的方法缓解了由极深网络引起的梯度消失问题。因此,使用残差结构构建的CNN可以适当增加网络深度来提高模型的性能。

        CSPDarkNet的CSP模块将原来的卷积运算分成两部分,如图3中的CSP1_N和CSP2_N所示,其中N表示当前模块重复的次数。假设输入特征图T的通道数为C,主分支首先进行1×1卷积,将T的通道数减少到C/2,并进行原始的卷积操作。另一个分支也使用1×1卷积将T的通道数减少到C/2。最后,两个分支的输出在通道维度上连接起来。CSP结构可以减少计算量,保留更多的网络梯度信息,保证模型的性能。

Fig. 3. CSPDarkNet network structure.

C. DECA-PAN

        DECA-PAN由DECA注意力模块和PAN模块组成。而且,DECA-PAN用focus模块取代了负责DS功能的标准卷积,以减少参数数量和计算量。

        ECA注意力模块只需要添加少量的参数和计算即可实现显着的性能提升。当FDNet中添加更多的ECA模块时,性能提升变得更加显着,但检测速度大幅下降。鉴于这一理念,本研究设计了一种基于ECA的创新DECA。FDNet在网络中添加了少量的DECA模块,从而在不增加模型复杂度的情况下实现了显着的性能提升。图4中,DECA中设计了一条附加的并行全局最大池(GMP)路径。GMP路径和全局平均池化(GAP)路径输出一组权重,从而聚焦有效特征并抑制低效或无效特征。GAP对整个特征图进行平均,关注特征图的全局信息。同时,GMP关注特征图中具有最高值的区域。因此,GAP和GMP可以相互补充以提高DECA的性能。DECA的实施包括四个步骤。首先,对输入特征图进行GAP和GMP操作,输出两组大小为1×1×C的张量。其次,两组1×1×C的特征图通过卷积核K大小的一维卷积捕获局部跨通道交互信息,并输出两组通道的权重。第三,利用sigmoid函数将两组权重的值限制在0和1之间。第四,将两组权重与输入特征图相乘。

Fig. 4. DECA module structure.

        随着CNN深度的增加,特征图的语义信息变得丰富,而空间信息变得稀疏。 分类任务依赖于语义信息,定位任务依赖于空间信息。浅层特征图具有丰富的空间信息和较小的感受野,有利于小物体检测。深度特征图具有丰富的语义信息和较大的感受野,适合大物体检测。DECA-PAN使用PAN结构来平衡分类和回归任务。DECA-PAN的网络结构如图5所示。自上而下的特征融合路径传递了深层特征图的语义信息。自下而上的特征融合路径传输浅层特征图的空间信息。 FDNet通过多次融合浅层和深层特征图,可以极大地提高对多尺度物体的检测能力。在DECA-PAN中,DECA模块的功能是抑制低效或无效的特征。上采样(US)和DS模块分别执行特征图的US和DS操作。在此过程中通道数保持不变。CSP层提取特征并调整通道数。

Fig. 5. DECA-PAN module structure.

D. RFFB-Head

        RFFB-Head由扩展感受野的RFFB和回归物体信息的检测头组成。此外,RFFB-Head网络结构简单,检测速度快。

        FDNet的解耦头可以提高收敛速度和精度。RFFB-Head结构如图6所示。考虑到检测速度和性能,输入特征图由RFFB压缩以最小化计算量。RFFB-Head 模块中的两个分支执行分类和回归操作。回归运算的分支并行输出交并比 (IoU) 和回归。IoU分支用于确定预测框是前景还是背景。回归分支用于预测预测框的位置信息(X,Y,W,H),其中(X,Y)表示框的中心点坐标,W和H分别表示框的宽度和高度。分类分支用于预测物体属于哪个类别。

Fig. 6. RFFB-Head module structure.

        更大的感受野可以获得更丰富的信息,从而提高大中型物体的检测精度[32]。当模型的感受野小于待提取的特征区域时,故障对象的全局信息将会丢失。在标准卷积的基础上,扩张卷积(DConv)引入了扩张率(d),它定义了卷积核处理特征图时值的间距。DCovn可以在不改变特征图大小的情况下有效扩大感受野。 鉴于此,提出RFFB来实现不同感受野的高效融合。在图7中,RFFB由四个分支组成。

Fig. 7. RFFB module structure. k is the convolutional kernel size; d is the dilation rate; s denotes the stride size; and C and C1 denote the number of input and output channels, respectively.

        四个分支执行的操作是深度卷积(DWConv)、DConv(d = 3)、DConv(d = 5)和恒等映射。假设输入RFFB的特征图(F)中的通道数为C,RFFB沿通道维度分割F并输出具有相同通道数(C/4)的特征图(F1、F2、F3和 F4此后,F1、F2和F3并行输入DWCovn和DCovn以获得不同尺度的感受野。上述过程可以表述为

F_{1}, F_{2}, F_{3}, F_{4} = Spilt(F)          (2)

{F_{1}}'=DWConv_{k=3}(F_{1})             (3)

{F_{2}}'= DConv_{d=3}(F_{2)}                  (4)

{F_{3}}'= DConv_{d=5}(F_{3})                  (5)

        其中k表示卷积核的大小,d表示膨胀率。从四个并行分支生成的特征图(F1'、F2'、F3'和F4)沿通道维度连接。最后,通过1×1卷积得到每组特征图之间的交互信息,并调整输出特征图(F′)的通道数。这个过程可以表述为

F{}' = Conv_{k=1} (Concat( {F_{1}}',{F_{2}}', {F_{3}}', F4 )).        (6)

        DConv的计算复杂度与输入通道的数量成二次方。在 RFFB 中,输入 DConv的通道数为 (C/4)。这个概念意味着每个DConv的计算量减少了15/16。 因此,RFFB是一种以较低计算成本扩大感受野的有效模块。

E. Loss Function

        损失函数用于衡量模型的预测值与样本真实值之间的差异。好的损失函数可以增强模型的学习能力,从而提高模型的性能。FDNet的损失函数如下所示:

Loss = \lambda _{0} L_{cls} +\lambda_{1}L _{obj}+ \lambda_{2}L_{bbox}       (7)

        其中Loss为FDNet预测结果的总损失,Lcls表示分类损失,Lobj表示对象的置信度损失,Lbbox表示回归损失,λ0、λ1、λ2为对应类别损失的权重值。在YOLOX中,Lcls和Lobj使用交叉熵损失,Lbbox使用IoU损失。考虑到故障图像样本少、训练图像数据中类别不平衡的特点,FDNet分别采用focal和Alpha-CIoU损失作为Lobj和Lbbox对应的损失函数。

        通过交叉熵损失来改善focus损失,以解决正负样本比例严重不平衡的问题。 focus损失可以表示为:

        其中y和y′分别表示真实值和预测值;α和γ(即α = 0.3且γ = 2)是常数。当γ=0时,focus损失与交叉熵损失一致。当γ > 0时,focus损失使分类良好的样本的计算量最小化,并增加难分类样本的计算量。平衡因子α缓解了正负样本数量的不平衡。

        Alpha-CIoU损失是通过对CIoU损失进行幂变换而获得的。CIoU损失定义如下:

        其中ρ2(b, bgt)表示预测框和真实框之间的欧氏距离。c表示可以包含预测框和真实框的最小封闭区域的对角线长度。IoU是预测框和真实框之间的交集比。将α添加到CIoU损失后,Alpha-CIoU损失可以表示为

        当α > 1时,IoU较高的对象被设置为更大的权重,这有助于CNN更快地学习高IoU对象。此外,α增加了绝对损失量,从而为优化各个级别的对象创造了巨大的空间。Alpha-CIoU损失可以提高检测模型对抗噪声的鲁棒性和准确性。

V 实验与分析

A实验环境及参数设置

        实验使用的服务器操作系统为Ubuntu 20,配备Intel Core i7-7700,128GB内存,四块1080Ti显卡,具有PyTorch 1.8.0和CUDA 11.1软件环境。使用四块1080Ti显卡来加速模型的训练。模型检测过程中仅使用一块1080Ti显卡,模拟边缘服务器有限的计算资源。该服务器的硬件资源与实际场景中的边缘服务器处于同一水平。数据增强仅使用马赛克方法。训练epoch为300,优化器采用随机梯度下降,batch size为32,初始学习率为0.01,采用余弦学习率策略。实验中对比模型的其余参数与FDNet保持一致,以避免通过改变训练参数的差异而导致对比模型的退化。

B数据集

        实验中使用的列车故障图像数据集(TestTD)由训练集和测试集组成。训练集包含7408张图像,测试集包含3176张图像。TestTD包含三个典型列车部件的故障和正常图像,即截断插门把手(TPDH)、上拉杆(UL)和锁定板(LP),如图8所示。FDNet根据列车部件的状态对其进行分类和定位。数据集中的列车图像使用PASCAL VOC数据集格式进行注释。在训练和推理过程中,所有图像的分辨率都缩放至416 × 416。 我们还使用公共数据集COCO2017来分析模型的性能,以更好地评估FDNet的性能。COCO2017包含80类生活中常见的物体,如汽车、椅子、飞机等。COCO2017的训练集和验证集分别涉及118287张和5000张图像。

Fig. 8. Three types of typical faults of the train. (a) Image in the fault state. (b) Image in the normal state.

C评价指标

        mAP、每秒帧数(FPS)、模型参数(parameters)和浮点运算(FLOPs)分别用于评估模型检测精度、速度、参数和计算量方面的指标。mAP是所有类别的平均精度(AP)的平均值,其定义如下:

        其中N是类别数。第i类的AP表达式计算为:

        其中P(R)表示精度(P)和召回率(R)之间的函数。在P-R曲线中,曲线下方的面积就是物体类别的AP值。P和R的计算公式如下:

        其中TP表示检测类别和实际标签为i的样本数量。FP表示检测类别为i但实际标签不是i的样本数量。FN表示检测类别不是i但实际标签为i的样本数量。

        FPS是指网络模型每秒可以检测到的图像帧数,常用于衡量模型的速度。 参数直接决定模型的大小,影响物体检测模型使用时的内存占用。FLOP 用于评估模型的计算量。

D实验结果分析

        本节对FDNet的三个改进点进行消融实验。具体来说,在基线(YOLOX-s)的基础上分别添加DECA-PAN、RFFB-Head和损失函数(包括focus损失和Alpha-CIOU损失)来验证相应模块的有效性。实验结果如表I所示。在基线的基础上每次只改变一个模块,其余结构保持一致。当DECA-PAN 添加到基线时,mAP和 FPS分别增加了0.69%和4.42%。与此同时,参数和FLOPs分别下降了5.03%和3.37%。这种方法受益于DECA注意力机制和DECA-PAN中的focus模块。DECA-PAN模块不仅减少了参数数量,还提高了精度和检测速度。当基线中仅添加RFFB-Head时,参数和FLOPs分别下降了5.59%和15.90%。此外,mAP和速度分别增加了0.47%和3.68%。当将focus和Alpha-CIoU损失添加到基线时,mAP 增加了1.27%,而其他指标几乎没有变化。与YOLOX-s相比,FDNet的mAP和FPS分别增加了2.33%和8.73%,而参数和FLOPs分别减少了10.63%和19.27%。

  1. TABLE I ABLATION EXPERIMENTS

        为了评估损失函数中不同参数值对模型性能的影响,我们使用FDNet作为基线在TestTD上进行了两组实验。图9(a)显示了focus损失中的α和γ对FDNet mAP的影响。值得注意的是,当γ = 2或γ = 3时,FDNet实现的mAP明显高于其他γ值。此外,比较不同的α值发现,将α设为0.3时,FDNet的mAP值高于其他α值。很明显,当α = 0.3且γ = 2时,模型达到最高mAP值。图9(b) 显示了 Alpha-CIoU损失中的变化α如何影响模型的性能。随着α的增大,模型的mAP呈现先增大后减小的趋势。当α=3时,FDNet的mAP达到最大值。

Fig. 9. (a) Performance of FDNet using focal loss with different α and γ values. (b) Performance of FDNet using Alpha-CIoU loss with different α values.

        在 RFFB 模块内,只有四个分支中包含的三个卷积具有可调整的参数。为了评估不同的k(卷积核大小)和d(膨胀率)值对FDNet性能的影响,设计并测试了RFFB的六种变体,如表II所示。对于每个实验,都使用单个变体来替代FDNet中的RFFB,同时保持结构的其他部分不变。三组不同k值的结果表明,随着k值的增加,mAP没有明显变化,但观察到FPS相应下降。因此,RFFB将DWConv的k值确定为3。RFFB和具有不同d值的三个变体的实验结果表明,RFFB 实现了最高的mAP。虽然变体(DWConvk=3、DConvd=2、DConvd=4)的FPS优于RFFB,但其mAP下降0.39%。通过比较所有六种变体,可以得出结论:RFFB的参数设置更加合理和有效。

TABLE II ABLATION EXPERIMENTS FOR RFFB

        我们在TestTD上将其性能与其他最先进的(SOTA)物体检测模型进行了比较,以进一步验证FDNet的性能。实验结果如表III所示。比较的模型包括广泛使用的 YOLOv4、YOLOv4-tiny、YOLOv5-s、YOLOv5-m、YOLOX-tiny、YOLOX-s、YOLOv6-T和YOLOv7-tiny。YOLOv4 的mAP最高,但其参数和FLOP分别是 FDNet的7.64倍和6.54倍,FPS仅为FDNet的36.36%。虽然YOLOv4性能不错,但对资源的需求却很高。这种情况不利于该模型在边缘终端设备上的应用。YOLOv4-tiny和YOLOX-tiny的参数、FLOPs和FPS均优于FDNet。然而,YOLOv4-tiny和YOLOX-tiny的mAP值分别为88.63%和89.99%。较低的mAP难以满足行业的实际需求。FDNet的mAP分别比YOLOv4-tiny和YOLOX-tiny高6.19% 和4.83%。FDNet的参数和FLOPs均高于YOLOv5-s,但其mAP比 YOLOv5-s高4.70%。faster-RCNN和FDNet的性能特别接近,但FDNet的参数和FLOPs更低。faster-RCNN的FPS只有16.3 FPS,明显低于实时物体检测的标准。在TestTD上,FDNet的mAP、参数和FLOPs均优于YOLOv6-T。与计算成本最低的YOLOv7-tiny相比,FDNet的mAP提高了3.50%。虽然FDNet的速度低于YOLOv6-T和YOLOv7-tiny,但足以满足实时检测的需要。与YOLOv7-tiny 和YOLOv6-T相比,FDNet综合考虑了模型的检测精度、计算成本和检测速度,以适应列车故障检测的实际场景。FDNet在TestTD上的视觉检测结果如图10所示。实验结果表明,FDNet可以快速、准确地对列车图像故障进行定位和分类。

TABLE III COMPARISON WITH SOTA MODELS ON TESTTD

Fig. 10. Examples of the FDNet detection results on TestTD. (a) and (c) are the input images, where the red boxes represent the ground truth annotations. (b) and (d) show the output results of FDNet.

        六种轻量级物体检测模型在COCO2017上的实验结果如表IV所示。对比模型的mAP参数和FLOPs均来自官方公布的数据(输入图像的分辨率为 640 × 640)。可以看出,FDNet的mAP最高,达到60.60%。与YOLOX-s相比,FDNet除了提高了mAP和FPS,还减少了参数数量和FLOP。与FLOPs最少的 YOLOv7-tiny相比,FDNet的mAP提高了5.40%,令人印象深刻。FDNet的三个评价指标(mAP、参数和 FLOPs)均优于检测速度最快的YOLOv6-T。图11显示了FDNet在COCO2017上的视觉检测结果。这些结果表明,FDNet可以在 COCO2017中准确定位和分类小而密集的物体。

TABLE IV COMPARISON WITH SOTA MODELS ON COCO2017

Fig. 11. Example of the FDNet detection results on COCO2017.

        热力图可以反映输入图像各区域对模型预测结果的影响FDNet和YOLOX-s的输出热力图图12所示。越接近暖色的区域对模型的预测结果贡献越大。同时,接近冷色的区域对预测结果的贡献较小。图12显示FDNet输出热力图的暖色区域更接近故障目标,并且暖色区域的颜色比YOLOX-s的颜色更深。 这一发现表明FDNet具有更强的定位和分类能力。

Fig. 12. Comparison of the heat maps output from YOLOX and FDNet.

E鲁棒性测试

        光线和天气的变化会严重影响设备捕获图像的质量,从而阻碍检测模型识别故障。因此,一个优秀的列车故障检测模型应该具有较高的鲁棒性,以适应实际环境。本节设计了两组实验来测试FDNet的鲁棒性。一组在测试集中的图像中添加了不同级别的高斯噪声,以模拟实际噪声对FDNet性能的影响。测试集中的其他组图像进行更改,以模拟实际环境中不同亮度级别对FDNet性能的影响。

        在表V中,测试集图像分别添加了不同标准差(SD)的高斯噪声。当添加的高斯噪声的SD值为3时,FDNet的mAP和各类故障的AP没有明显下降。随着高斯噪声SD值的增加,FDNet的mAP和各类故障的AP略有下降。随着高斯噪声标样值的增加,FDNet的mAP和各类故障的AP都略有下降。尽管高斯噪声的SD值为 9,但 FDNet的mAP仍高达91.69%,这表明FDNet能够在强噪声干扰环境下准确检测列车图像故障。三个不同标度值的高斯噪声足以模拟实际环境中列车图像故障检测设备的干扰噪声。

TABLE V FDNET NOISE ROBUSTNESS TEST RESULTS ON TESTTD

        TestTD中的图像亮度级别设置为原始图像的110%、120%、130%、90%、80%和70%。FDNet的测试结果如表VI所示。该实验旨在通过设置不同的亮度级别来模拟实际环境中的各种光照条件。通过增加或减少TestTD上的亮度,FDNet的mAP不会降低超过1%。降低亮度对FDNet性能的影响比增加亮度更大。在各类列车图像故障中,亮度对车牌检测精度影响最大,车牌的AP最多下降1.77%。亮度对其他类型的故障影响不大。因此,FDNet具有更好的光照鲁棒性。

TABLE VI ILLUMINATION ROBUSTNESS TEST RESULTS OF FDNET ON TESTTD

VI 结论

        由于实际环境中干扰因素的存在以及列车图像故障的特点,现有的检测模型很难满足边缘计算资源约束下的目标检测需求。在本研究中,提出了一种用于边缘计算环境的轻量级列车图像故障检测网络FDNet。FDNet可以对三种典型的列车图像故障进行分类和定位。FDNet包括DECA-PAN模块、与RFFB集成的RFFB-Head以及高效的损失函数。TestTD数据集上的FDNet消融实验结果显示了三个模块的高效率。在COCO2017上的实验表明,FDNet作为一种轻量级的目标检测模型,具有更好的检测精度和速度。两组鲁棒性实验通过添加噪声和改变测试图像的亮度来模拟实际环境中的干扰因素。结果表明FDNet对噪声和光照具有较高的鲁棒性。与YOLOX-s相比,FDNet在TestTD数据集上的mAP和FPS分别提高了2.33%和8.73%。同时,FDNet的参数和FLOPs分别下降了10.63%和19.27%。FDNet大大降低了对计算资源的需求,提高了性能和速度。因此,FDNet适合边缘计算环境中设备上的目标检测。

        近期,我们将探索基于Transformer的目标检测模型,进一步提高列车图像故障检测的准确性。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值