期刊简介:《Advanced Engineering Informatics》创刊于2002年,由Elsevier Ltd出版商出版,出版周期Quarterly。该刊已被SCIE数据库收录,在中科院最新升级版分区表中,该刊分区信息为大类学科工程技术1区,2023年影响因子为8。这篇文章收录于五月份,是一篇最近发表的文章,让我们一起看看它有何过人之处,能得到一区期刊的赏识。
文章标题:BFA-YOLO: A balanced multiscale object detection network for building façade elements detection
(翻译)BFA-YOLO:用于建筑立面元素检测的平衡多尺度目标检测网络
摘要和第一、第二章节内容及解析可以看上篇文章:
三、方法
建筑物独特的建筑特征导致立面元素的丰富程度存在显著差异,这给深度学习网络的训练带来了显著挑战。在这项研究中,我们利用先进的YOLOv 8算法开发了BFAYOLO,这是一个专门为识别立面元素而设计的基于深度学习的目标检测框架。我们工作的核心贡献在于BFA-YOLO网络的架构,图4中详细描述了该方法,其集成了与传统YOLOv8 [50]方法相比的明显增强。在这些创新中,特征平衡主轴模块(FBSM)通过新颖的重新定位技术增强稀疏表示类中的特征检测能力,从而旨在提高识别准确性。此外,为了解决大图像中小尺寸元素的检测,我们引入了目标动态对准任务检测头(TDATH),此外,位置记忆增强自我注意力机制(PMESA)的实施,以减少由复杂的城市背景造成的分心,通过减少背景元素的影响,显著提高检测精度。我们使用IOU为0.5的阈值进行三组检测输出对最终输出进行后处理。这个小阈值允许同时存在更多重叠的边界框,这对于检测建筑物立面元素的目标密集型任务是有益的[51,52]。总之,FBSM,TDATH,和BFA中的PMESA-YOLO框架提供了一个创新的和潜在的更准确的系统来检测立面元素。这种集成有望有效地减轻与对象相关的挑战。不平衡、小物体检测和背景干扰,从而潜在地提高了立面元素检测的精度。(总体介绍了BFA-YOLO在YOLOv8基础上的三个改进)
3.1 特征平衡主轴模块 FBSM
本节介绍了一种新颖的特征平衡机制,即特征平衡主轴模块(FBSM),如图5所示。FBSM的目的是通过特征重定位技术提高网络从建筑立面元素的代表性不足的类别(例如,门、广告牌等)中检测特征的能力,从而显著提高类别识别率。(总结FBSM的作用)
在FBSM中,为了提高计算效率和降低复杂性,输入特征图的每个通道都使用不同的卷积核进行处理。然后将输出合并,从而增强网络融合和展示更广泛特征的能力。FBSM通过包含不同大小卷积核的特征恢复策略来进行特征融合(5,7,9,11).这种方法允许网络捕获更广泛的特征,从而降低计算复杂度,同时保持这些特征的多样性.这种方法特别有利于增强识别数量较少的类别,如门和广告牌,模型不太可能遇到。输出结果,即,公式表示为,其中,表示值为5、7、9、11。这种采用多方面高级工程信息学的方法65(2025)103289𝑥𝑛𝑥。深度卷积运算能够实现更有效的特征融合和扩散,从而增强对多样和复杂特征阵列的学习。(详细说明了FBSM的原理)
3.2 目标动态对准任务检测头 TDATH
建筑物外立面元素(如空调和小窗户)的检测往往因其相对于整体图像的小尺寸而困难,带来了相当大的挑战。为了解决这个问题,我们概念化了TDATH(目标动态对准任务检测头),如图6所示。TDATH旨在提高小尺寸目标的检测性能。(总结TDATH的作用)
TDATH设计策略性地适应小对象特征,接受三个主要输入以捕获不同尺度和特征级别的对象信息。这些输入通过双卷积和组归一化(Conv_GN)[53]操作进行优化,以进行高级特征提取和增强,这对于辨别局部和全局上下文对象细节至关重要。随后,来自Conv_GN层的丰富特征图与初始特征图相结合,允许跨尺度和深度的信息的有效集成。该集成特征集通过跨尺度细化模块(CRCS)进行进一步细化,为精确的检测任务做好准备。taskpliter和CRCS处理的特征图被输入到可变形卷积(Conv_D)[54],其能够根据特征图的细节灵活准确地调整卷积核的位置,以捕捉特征图中目标的形状和位置,适用于位置和形状敏感的小目标的探测任务[55]。Conv_D运算深度融合后,网络模型将更适应小目标的包围盒,同时,一个涉及级联特征图的过程输出对象的类,最终得到的'' Conv_Reg''和'' Conv_Cls''被归纳为三组结果,这样,精心构造的TDATH通过跨多个尺度和特征动态地适应和分解任务来实现小对象的鲁棒检测。(详细说明TDATH的原理)
3.3 位置记忆增强自我注意机制 PMESA
为了减少城市环境中复杂的空间背景干扰,提高目标检测的准确性,我们提出了一种位置记忆增强自注意机制,其结构如图7所示。该机制旨在通过引入位置信息来支持目标检测任务,从而增强网络模型处理复杂背景干扰的能力。(总结PMESA的作用)
我们用RetBlock [56]替换了YOLOv8中原始C2f模块中的瓶颈层。我们还将RelPos相对位置信息合并到RetBlock中,RetBlock为检测到的目标对象提供了重要的位置数据。在RetBlock中,使用了曼哈顿自注意机制,它精细地捕捉了输入特征图中复杂的空间关系,从而提高了模型处理局部细节的能力,提高了整体性能。C2f模块的结构,RetBlock的结构,利用PMESA度量特征相似度,实现了一种有效的自适应搜索算法。PMESA将原始特征与从处理RetBlock模块获得的特征合并,RetBlock模块接收𝑛不同范围的RelPos以丰富特征信息的表示。
其中,RetBlocks的数量为,在BF-YOLO网络结构的第2层和第8层,我们将RetBlocks设置为3;在第4层和第6层,我们将RetBlocks设置为6。通过不同的RetBlocks值来增加特征提取的全面性。RetBlocks和RetBlocks的定义可以在论文[56,57]中详细找到。(详细介绍了PMESA的原理、设置)
解析:本章结构清晰,内容干练,废话很少,甚至公式也不多。绘图精良,风格统一,简单易懂。模块改进虽也有拼接的嫌疑,但从论述中可以看出作者阅读量之大,经验之丰富。
四、实验
4.1 实验设计
实验包括两个主要方面:我们介绍的BFA-YOLO方法对现有先进的目标检测技术和消融研究的评估。(总起)
我们在BFA-3D数据集以及Facade-WHU数据集上比较了BFA-YOLO与其他主流高级目标检测网络模型的性能,以说明我们提出的模型在识别建筑立面元素方面的有效性。我们在相同的BFA-3D训练集上训练了BFA-YOLO和高级目标检测网络模型,为了验证BFA-YOLO在街景条件下的性能,我们还在街景Facade-WHU数据集上将训练集、验证集和测试集按8:1:1的比例进行了划分,并进行了与BFA-3D数据集相同的实验过程。(不同数据集验证)
在消融研究中,我们使用基于BFA-3D数据集的YOLOv8作为基线模型,并逐步将FBSM,TDATH和PMESA单独添加到YOLOv8网络模型中,以验证每个模块在提高建筑立面元素检测效率方面的贡献。我们还将FBSM,TDATH和PMESA添加到基线模型中,以验证它们可以协同工作。最后,我们添加了三个模块,将FBSM、TDATH和PMESA添加到基线模型以形成BFA-YOLO模型。(消融、对比)
4.2 实验设置
我们使用AP 50,AP 75,AP 50 ∶95,AP𝑠𝑚𝑎𝑙𝑙,AP𝑚𝑒𝑑𝑖𝑢𝑚和AP作为评估指标。我们使用PyTorch 2.0.1深度学习框架和CUDA 11.7计算架构在具有4 × 16 GB视频内存的Nvidia Tesla V100上进行了实验。我们从Ultralytics的官方代码库中改编了YOLOv8 [50]。我们实现了Faster R-CNN [58],TridentNet [59]𝑙𝑎𝑟𝑔𝑒,Cascade R-CNN [60]和Tood [61]使用MMDetection框架[62]。我们使用Ultralytics框架实现RT-DETR [63],Yolov5,Yolov8和BFA-YOLO。为了确保实验在一致的环境中进行,所有上述网络都使用随机梯度下降进行端到端训练500个epoch。批量大小设置为16。学习率,动量和权重衰减设置为0.001,0.937,和0.0005。 (将评价指标、训练环境、对比模型、超参数设置都一段讲清楚了)
解析:通过将实验和分析分开,提高了文章的可读性。继续体现的是文字信息密度很高。另外,训练epoch达到500轮,后续应该会说明过拟合的风险,正常200-300轮在论文中比较常见。但这种分段的思路可以学习。