SCI论文解读复现【NO.3】MSFT-YOLO：基于变压器的改进YOLOv5钢表面缺陷检测(代码已复现)

人工智能算法研究院

已于 2023-05-27 13:36:45 修改

阅读量4k

点赞数 6

分类专栏：英文论文解读复现文章标签：算法计算机视觉人工智能

于 2023-01-02 22:09:22 首次发布

本文链接：https://blog.csdn.net/m0_70388905/article/details/128525702

版权

英文论文解读复现专栏收录该内容

28 篇文章

订阅专栏

此前出了目标检测算法改进专栏，但是对于应用于什么场景，需要什么改进方法对应与自己的应用场景有效果，并且多少改进点能发什么水平的文章，为解决大家的困惑，此系列文章旨在给大家解读发表高水平学术期刊中的SCI论文，并对相应的SCI期刊进行介绍，帮助大家解答疑惑，助力科研论文投稿。解读的系列文章，本人会进行创新点代码复现，有需要的朋友可关注私信我获取。

百度网盘链接：https://pan.baidu.com/s/10LeM9LPAG1q8fFPwtV1ngQ

提取码：关注后私信留言获取。

一、摘要

随着人工智能技术的发展和智能化生产项目的普及，智能检测系统逐渐成为工业领域的热门话题。作为计算机视觉领域的一个基础性问题，如何实现工业中的目标检测，同时兼顾检测的准确性和实时性，是智能检测系统发展中的一个重要挑战。钢铁表面缺陷的检测是物体检测在工业中的重要应用。正确快速地检测表面缺陷可以大大提高生产率和产品质量。为此，本文引入了MSFT-YOLO模型，该模型是在单级检测器的基础上改进的。针对图像背景干扰大、缺陷类别易混淆、缺陷尺度变化大、小缺陷检测效果差的工业场景，提出MSFT-YOLO模型。通过在主干和检测头中加入基于Transformer设计的TRANS模块，使特征与全局信息相结合。通过组合多尺度特征融合结构对不同尺度的特征进行融合，增强了检测器对不同尺度目标的动态调整。为了进一步提高MSFT-YOLO的性能，我们还引入了大量有效的策略，如数据扩充和多步训练方法。在NEU-DET数据集上的测试结果表明，MSPF-YOLO能够实现实时检测，MSFT-YOLO的平均检测准确率为75.2，较基线模型（YOLOv 5）提高约7%，较Faster R-CNN提高约18%，具有一定的优势和启发性。

二、网络模型及核心创新点

MSFT-YOLO的总体原理图如图所示，主要包括三个部分：骨干网部分、特征增强部分和预测部分。在第一部分主干中，我们没有使用YOLOv5原有的卷积层，而是主要使用了自主开发的TRANS结构，通过将其组装到CSPDarknet中来扩展卷积的接收域。TRANS为检测提供了具有全局信息的多层次特征，增强了MSFT-YOLO对钢铁表面背景特征的识别能力。在网络的颈部，用简单有效的BiFPN结构代替PANet对骨干网的多层次特征组合进行加权，并将TRANS模块集成到预测头中，替代原有的预测头，挖掘了YOLOv5自注意的预测潜力，能够在高密度场景中准确定位目标，并能处理目标的大尺度变化。TRANS的具体细节见第3.2节。

三、应用数据集

论文中使用的主要数据集NEU-DET是东北大学发布的表面缺陷数据库，收集了热轧带钢的六种典型表面缺陷，包括银纹、夹杂物、补丁、麻面、轧制氧化皮和划痕。该数据库包括6种不同类型的典型表面缺陷的1800幅灰度图像，每种缺陷包含300个样本。

四、实验效果（部分展示）

消融研究的结果。从实验数据中可以观察到，通过在主干处增加TRANS模块，对两种较为明显的缺陷斑和划痕的检测有了很大的提高，而BiFPN对裂纹斑、麻面、轧入氧化皮和划痕的检测效果更大，这些缺陷斑、麻面、轧入氧化皮和划痕的bon均大于3%。通过分析检测结果，TRANS使模型能够适应更宽范围的纵横比，解决了缺陷分布不均匀的样品问题，如传感器2022、22、3467 15个中的13个表面凹陷、滚入氧化皮和划痕，所有这些都有超过3%的奖金。通过对检测结果的分析，TRANS使模型能够适应更宽的长径比范围，解决了缺陷长径比分布不均匀的样品问题。同时，由于缺陷经常以独立和不规则形状的组合出现，TRANS对严重干扰、扰动和区域移动的高鲁棒性以及整合高级视觉语义信息的能力使得能够收集与较大邻域中的缺陷特征相关的信息，MSFT-YOLO集成了TRANS模块和BiFPN模块，能够捕捉模型中不同位置的信息，这再次提高了划痕和麻点表面两个类别的检测精度。BiFPN结构使模型能够适应更大的缺陷尺寸变化，解决了缺陷尺寸分布差异大的问题。我们的方法以YOLOv 5为基线进行了改进，虽然检测速度降低了40%，但仍然具有实时检测的潜力，检测准确率从0.682提高到0.757，检测准确率有了较大的提高。通过对检测样本的分析，我们加入TRANS模块和融合BiFPN对模型精度的提高起到了积极的作用，可以看出，我们的方法结合全局特征进行多层次特征融合，对于背景复杂、目标尺度差异大的工业场景中的缺陷检测效果非常明显。

对比实验结果。表2显示了我们在NEU-DET数据集上评价的模型结果。在工业场景中，不仅目标检测任务的准确性很重要，而且检测效率也是衡量其能否在工业场景中投入使用的因素之一。只有在保证检测结果和检测速度的前提下，才能真实的做出正确的判断，满足工业生产的使用要求。因此，在本部分的论述中，将使用平均精度（mAP）作为模型和每秒帧数（FPS）来对缺陷检测模型进行综合评价。

五、实验结论

本文设计了一种基于YOLOv 5的钢材表面缺陷检测仪MSFT-YOLO。MSFT-YOLO结合了计算机视觉中的一些现有技术，包括Transformer编码块、多层次特征融合、数据扩展和一些训练技术。针对缺陷图像背景杂乱、缺陷类别易混淆的问题，提出在主干和检测头中增加基于Transformer的TRANS模块。针对缺陷尺度变化大、小缺陷检测效果差的问题，提出了BiFPN结构，通过融合不同尺度的特征，增强了检测器对不同尺度物体的调节能力。通过在NEU-DET数据集上的测试，MSFT-YOLO达到了0.752mAP，较基线提高了7.5%，FPS为30.6，表明该算法达到了很好的准确率，同时也具有实时检测的潜力，是一种具有实用价值的目标检测算法。在未来的研究中，将向模型中引入更丰富的数据集以增强其泛化能力，并对模型进行压缩以更好地适应工业场景下的实时监控。在实验过程中，我们在钢材表面缺陷数据处理和检测算法设计方面积累了大量经验，希望本文能对更多钢材表面缺陷的开发人员和研究人员有所帮助。

六、投稿期刊介绍