基于动态Snake卷积YOLO模型的轮胎X射线无损缺陷检测方法研究

程序小K

已于 2025-03-21 09:57:20 修改

阅读量52

点赞数

分类专栏：目标检测 yolo 文章标签： YOLO

于 2025-03-10 11:40:43 首次发布

原文链接：https://www.nature.com/articles/s41598-024-80006-z

版权

目标检测同时被 2 个专栏收录

3 篇文章

订阅专栏

yolo

1 篇文章

订阅专栏

摘要：

轮胎出厂前的X射线无损检测对驾驶安全至关重要。鉴于轮胎结构的复杂性和缺陷类型的多样性，传统的人工目视检查和机器学习方法在准确性和效率方面面临重大挑战。本研究提出了一种基于YOLOv5模型的创新轮胎X射线图像无损检测技术，结合了多项先进技术以提升检测性能。具体而言，我们引入了动态蛇形卷积（DSConv），该技术能够自适应地聚焦于轮胎内部的细长和弯曲特征。此外，我们设计了一个基于DSConv的C3模块，专门针对诸如帘线重叠和帘线开裂等细长缺陷。为了提高小缺陷的检测精度，我们重新设计了颈部网络结构，并引入了尺度序列特征融合模块（SSFF）和三重特征编码模块（TFE），以整合来自不同网络层的多尺度信息。此外，我们开发了卷积块注意力模块，并将其集成到SSFF中，有效减少了复杂背景的干扰，专注于缺陷识别。在后处理阶段，我们采用了Soft-NMS算法来优化候选检测框的置信度，提高了框选的准确性。实验结果表明，与YOLOv5基准模型相比，本研究提出的算法在mAP0.5上提高了5.9个百分点，在mAP0.5:0.95上提高了5.7个百分点，显示出优于当前主流目标检测算法的检测精度，并有效完成了轮胎缺陷的无损检测任务。

Keywords Tire defect detection, Dynamic snake convolution, YOLOv5

轮胎是车辆最关键部件之一，其质量直接影响驾驶安全。X射线成像检测技术通过利用X射线穿透轮胎，能够捕捉内部结构信息并清晰呈现。在轮胎出厂前及时发现并消除缺陷，是确保不合格产品不流入市场的重要步骤。目前，工业无损检测技术已广泛应用于建筑、冶金、纺织和半导体等多个领域。如图1所示，然而，轮胎由多层不同复合材料组成，这些材料对X射线的吸收能力不同，导致成像中亮度和饱和度不均匀，从而影响图像质量。此外，轮胎复杂的纹理导致图像灰度分布非线性。轮胎缺陷类型繁多，缺陷位置复杂，部分缺陷与背景高度相似，这些都导致基于X射线成像的轮胎缺陷识别准确率较低。

缺陷通常被定义为与正常样本不同的缺失或不规则区域。子午线轮胎受其自身结构、生产设备和制造工艺的影响，容易出现多种缺陷。如图2所示，这些缺陷大致可分为灰度缺陷和纹理缺陷。灰度缺陷表现为图像中灰度分布不均匀，如胎面和侧壁中的异物、气泡等。纹理缺陷则是基于轮胎内部钢丝结构的变化来识别，包括胎面裂纹、帘线稀疏和帘线重叠等。这两类缺陷的检测对于确保轮胎质量和安全至关重要。图2展示了轮胎缺陷的示例。

Fig. 1 .X-ray image of tire.

Fig. 2 .Examples of tire defects.

目前，生产线上的轮胎缺陷检测仍广泛采用人工目视检查。然而，这种方法效率低下，检测效果不佳，并且对工人的健康构成严重风险。除了人工检查外，机器视觉方法在工业无损检测中的应用也越来越广泛。传统的机器视觉方法通常利用浅层特征进行图像分析，大致可分为基于投影、基于滤波和基于变换的方法。Liu等人提出了一种基于Radon变换的轮胎缺陷检测方法，而Cui等人则提出了一种基于主成分分析和逆变换的轮胎X射线图像缺陷检测方法。该方法通过对主成分残差进行逆变换来重建剩余的缺陷图像。为了精确定位缺陷区域，使用统计方法对残差图像进行上下阈值二值化处理。然而，这种方法不适用于大规模缺陷。此外，Guo等人提出了一种利用加权纹理独特性检测轮胎缺陷的方法。该方法通过利用轮胎图像的特征相似性来捕捉异常，适用于胎侧和胎面图像。

综上所述，尽管上述专家学者针对不同的轮胎缺陷设计了专门的方法，并取得了较为理想的效果，但考虑到轮胎缺陷的复杂性和多变性，若针对每种具体缺陷使用专门的方法，将大大增加计算时间并降低方法的可迁移性，这不利于大规模的工业应用。

随着人工智能的进步和计算能力的提升，深度学习算法已在多个领域成功应用。与之前提到的传统机器视觉方法依赖人工提取浅层图像特征不同，深度学习方法能够利用深度卷积神经网络从图像中提取更深层次的信息，使其非常适合于轮胎无损缺陷检测。在轮胎缺陷检测领域，基于深度学习的方法正在蓬勃发展。例如，Wang等人提出了一种使用生成对抗网络进行轮胎缺陷检测的无监督学习方法。该方法不需要大量带有缺陷图像的数据集支持，仅需无缺陷图像进行训练。然而，该方法只能确定轮胎是否存在缺陷，无法区分不同类型的缺陷，从而限制了其在工业场景中的适用性。另一方面，Li等人在2021年开发了一种高召回率的轮胎缺陷分类算法：TireNet。该算法使用ResNet-50和ResNet-101作为骨干网络，结果显示检测遗漏率仅为0.17%。然而，对于与背景差异不明显的缺陷（如气泡），仍需使用其他方法进行特征提取，导致该方法的通用性较低。此外，Wang等人在2019年提出了一种基于VGG16的全卷积网络用于轮胎缺陷检测。该网络具有像素级预测能力，能够同时实现缺陷定位和分割。然而，该方法未与现有的深度学习方法进行比较，因此缺乏说服力。

当前的研究通常依赖于主流的目标检测器，包括两阶段检测器（如Faster R-CNN）和单阶段检测器（如YOLO）。青岛理工大学的吴泽举教授团队通过改进网络和金字塔结构优化了Faster R-CNN，从而提高了检测精度。然而，对于一些边界模糊的气泡缺陷，检测结果相对较差。另一方面，Peng及其同事使用YOLO作为基础检测器，在精度和实时性之间取得了平衡，但在检测一些细长缺陷时表现不足。赵等人则基于YOLOv4-tiny开发了一种多尺度自注意力特征增强模型（MSAM），旨在提取具有丰富多尺度上下文信息的特征图。他们还提出了一种基于MSAM和CBAM的金字塔池化层，实现了更高的精度。

综上所述，使用深度学习方法进行缺陷检测有效提高了检测的准确性和效率。然而，由于轮胎缺陷的独特性，这为缺陷检测带来了特殊挑战：

原始轮胎数据分辨率高，而缺陷目标相对较小。直接将其作为输入会导致内存使用量大、训练速度慢且容易过拟合。
某些缺陷类型呈现细长形状，常规卷积操作无法适应，导致单个缺陷被误识别为多个独立实体，从而降低检测精度。
缺陷尺寸差异显著，小目标占比较大。因此，检测器需要具有较高的灵敏度，以准确识别各种尺寸的缺陷。

针对这些挑战，我们提出了一种基于YOLOv5的高效轮胎X射线缺陷无损检测方法——动态蛇形卷积YOLO模型（DSC-YOLO）。本文的主要贡献如下：

我们提出了一种基于YOLOv5单阶段目标检测器的高效轮胎缺陷检测网络DSC-YOLO。该网络模型能够有效识别复杂轮胎X射线纹理背景中的多尺度目标，实现精度与效率的平衡。
我们针对轮胎缺陷检测设计了蛇形卷积，考虑到缺陷管道结构的蛇形形态，在自由学习过程中引入约束，以增强对细长管道结构的感知能力。
结合轮胎缺陷的独特性，我们设计了一种新的注意力尺度序列融合模型，并在此基础上引入CBAM。该模型整合了不同分辨率的有效特征图，更好地保留了图像的细节信息。
我们建立了一个全面的轮胎X射线数据集，包括四种类型的缺陷，并在此数据集上进行了对比实验和消融实验，验证了所提方法的有效性。

本文的其余章节安排如下：第二部分详细描述了论文的算法；第三部分给出了对比实验和消融实验的结果与讨论；最后，第四部分对全文进行了总结。

材料与方法
总体框架

本文旨在构建一个在准确性和效率之间取得平衡的轮胎缺陷检测网络模型。为了实现这一目标，考虑到YOLOv5检测器在多个工业领域中已展现出良好的检测精度和实时性能，并且易于在机器上部署，我们选择其作为我们网络的基础模型。在YOLOv5的基础上，我们充分考虑了轮胎缺陷检测的独特性，在充分利用基础网络的前提下，对其进行了改进。图3展示了我们提出的整体网络架构。

YOLOv5融合了多种算法的优点，在检测精度和速度的平衡上表现优异，是目前应用最广泛的目标检测算法之一。YOLOv5共有s、m、l和x四个版本，这些架构一致，但在深度和宽度上有所不同，导致计算复杂度增加，精度提升的同时实时性能下降。考虑到轮胎无损检测的实际需求，本文选择YOLOv5m模型作为基础模型。

如图4所示，YOLOv5m网络架构图，网络结构分为三部分：Backbone、Neck和Head。Backbone网络负责在不同尺度上进行下采样，提取有效特征，并生成不同尺寸的特征图，随后输入到Neck中以构建特征金字塔。Neck网络通过特征金字塔网络（FPN）和路径聚合网络（PAN）融合不同层次的特征。Head网络设计了三层不同尺寸的检测层，分别用于预测大、中、小目标的类别和边界框回归。

动态蛇形卷积

普通卷积用于提取局部特征，在此基础上，学者们提出了空洞卷积和可变形卷积，有效增大了感受野并适应不同目标形状。然而，这些卷积方式允许网络自由学习几何变换，可能导致感知区域偏离目标，尤其是在细长管状结构的情况下。2023年，Qi等人提出了动态蛇形卷积（DSConv），针对具有细长和弯曲特征的目标（如血管和远距离道路），在x和y方向上拉伸卷积核，取得了显著效果。在轮胎缺陷检测中，带束层重叠和带束层缺失均属于细长缺陷。受上述工作的启发，本文针对细长轮胎缺陷设计了动态蛇形卷积模块。动态蛇形卷积模块基于输入特征图学习形变，并结合对管状结构形态的理解，自适应地聚焦于细长和弯曲结构的局部特征。图5展示了蛇形卷积形变的示意图。

在卷积核为9的卷积中，每个网格轴方向可以表示为Ki±c = (xi±c, yi±c)，其中c取值为{1, 2, 3, 4}，表示到中心网格的距离。卷积核K中的每个网格位置Ki+1相对于Ki添加一个偏移量∆ = {δ|δ ∈ [−1, 1]}，因此需要对偏移量进行求和，以确保卷积核遵循线性形态结构。公式(1)表示卷积核中每个点的水平偏移量计算方式：

其中，表示从中心点 yi 到卷积核当前点的累积垂直偏移量。
与上述公式类似，公式（2）表示当卷积核垂直移动时，各点坐标的计算公式。

其中，表示从中心点 xi 到卷积核当前点的累积水平偏移量。

由于卷积核在变形后可能位于非整数坐标位置，因此使用双线性插值来估计该位置的像素值。具体公式如公式 (3) 所示。

其中，K′ 是构成卷积核变形可能覆盖区域的所有可能整数像素坐标点的集合。B(K′, K) 表示双线性插值核，其中每个 K′ 位置的像素值与相应的双线性插值核 B(K′, K) 相乘，然后累加以获得最终的像素值。双线性插值核如公式 (4) 所示：

其中，b 表示一维插值核。

本文设计了一个基于动态蛇形卷积（Dynamic Snake Convolution, DSConv）的C3模块，该模块的具体细节如图6所示：(a) 表示DSConv模块。输入特征图首先通过一个offset_conv卷积层来学习每个位置的偏移量。学习到的偏移量随后通过一个批归一化（Batch Normalization, BN）层进行归一化。接着，归一化后的偏移量通过tanh激活函数进行限制，使其范围在-1到1之间。使用DSC模块，基于这些归一化后的偏移量创建坐标映射，并进行双线性插值以变形特征图。变形后的特征图随后沿x或y方向进行卷积操作，接着通过一个组归一化（Group Normalization, GN）层进行特征归一化。最后，归一化后的特征通过ReLU激活函数进行非线性变换，得到最终输出的特征图。在(a)的基础上，设计了DySnakeConv模块，如(b)所示。该模块将输入特征图分成两个分支。一个分支进行常规卷积，而另一个分支依次通过两个DSConv层。然后使用Concatenation模块将两个分支的输出连接起来，并通过一个1×1卷积核生成输出特征图。(c)和(d)分别表示改进后的Bottleneck模块和C3模块。
注意力模块
在处理视觉信息时，人类大脑并不会均匀关注视野的所有部分；相反，它会选择性地聚焦于某些区域。注意力机制模仿了这种选择性聚焦行为，使得机器学习模型在执行视觉任务时更符合人类的视觉感知。
CBAM模块在中间特征图上依次推断二维注意力图（通道和空间），然后将这些注意力图与输入特征图相乘，以进行自适应特征细化。CBAM是一个轻量级且多功能的模块，可以无缝集成到任何CNN架构中，并且可以与基础CNN进行端到端的训练。
CBAM模块主要由两部分组成：通道注意力模块和空间注意力模块。每个模块包括三个组件：信息聚合、注意力计算和加权操作。
如图7所示，对于输入特征图F ∈ RC×H×W，C、H、W分别表示特征图的通道数、高度和宽度。首先，通过全局平均池化和全局最大池化聚合空间信息，得到两个特征描述符：Favgc和Fmaxc。前者捕捉全局空间信息；后者突出最显著的特征。

图7所示。通道注意模块示意图。

接下来，这两个特征描述符被输入到一个共享的多层感知机（MLP）中，该MLP包含一个大小为RC×1×1的隐藏层，其中r是降维比例。MLP的输出通过sigmoid函数进行归一化，得到通道注意力图Mc，其公式表示为公式(5)：

其中，σ表示sigmoid函数，W0 ∈ RC/r×C，W1 ∈ RC×C/r表示多层感知机（MLP）的权重。
最后，通道注意力图Mc与原始特征图F进行逐元素相乘操作，得到通道加权的特征图F′，其计算公式为（6）：
F′ = Mc(F) ⊗ F （6）

如图8所示，对于通道加权的特征图F′，首先在通道轴上应用平均池化和最大池化操作，得到两个2D特征图Favgs和Fmaxs，将它们拼接并输入卷积层以生成空间注意力图Ms(F)，其计算公式为（7）：

其中，f 7×7表示7×7卷积，AvgPool表示平均池化，MaxPool表示最大池化。

图8所示。空间注意模块示意图。

最后，空间注意力图Ms与通道加权的特征图F′在逐元素级别相乘，得到细化后的特征图，其计算公式为8：

注意力尺度序列融合与CBAM
现有文献使用特征金字塔结构进行特征融合，仅通过求和或拼接来融合金字塔特征。然而，各种特征金字塔网络的结构无法有效利用所有金字塔特征图之间的相关性。本文使用的尺度序列特征融合模块（SSFF）28能够将深层特征图的高维信息与浅层特征图的细节信息相结合。
通过一系列高斯滤波器生成不同尺度的图像作为SSFF模块的输入，该过程由以下公式（9）表示：

式中，Fσ(w, h)为高斯滤波后的图像。Gσ(w, h)为二维高斯滤波器，可表示为式（10）：

其中，σ 是高斯滤波器的标准差。f(w, h) 表示原始输入图像的宽度和高度。
通过这种方式，可以生成具有相同分辨率但不同尺度的图像，这些图像可以被视为尺度空间的一部分。
SSFF 模块的结构如图 9 所示。SSFF 模块接收来自 YOLO 骨干网络的 P3、P4 和 P5 特征图。这些特征图在空间维度和特征深度上可能有所不同。为了融合这些特征图，首先需要将它们调整为相同的大小，并在深度维度上进行堆叠。
P4 和 P5 特征图使用最近邻插值方法进行上采样，以使其尺寸与 P3 特征图匹配。通过 unsqueeze 操作将每个特征图从三维张量转换为四维张量，即增加一个深度维度。调整后的 P3、P4 和 P5 特征图沿深度维度堆叠，形成一个四维特征张量。对堆叠后的四维特征张量应用 3D 卷积、3D 批量归一化和 SiLU 激活函数，以完成尺度序列特征的提取。

通过这种方法，SSFF 模块能够整合来自不同网络层的多尺度信息，从而为后续的细胞实例分割任务提供更丰富的特征表示。这种融合策略有助于模型更好地理解细胞图像中的小尺度细节和大尺度上下文信息，从而提高分割的准确性和鲁棒性。

TFE 模块通过在空间维度上拼接不同尺寸的特征图来捕捉小目标的细节信息。如图 10 所示，TFE 模块接收来自骨干网络的不同尺寸的特征图，首先对大尺寸特征图进行卷积操作，并通过最大池化和平均池化的混合结构对特征图进行下采样，以保留高分辨率特征和缺陷图像的有效性和多样性。对小尺寸特征图进行卷积操作，并通过最近邻插值方法进行上采样，以保持分辨率图像的局部特征丰富性，并防止小目标特征信息的丢失。
调整后的大尺寸、中尺寸和小尺寸特征图在通道维度上进行拼接，并将每个特征图的特征整合为统一的特征表示。
最终拼接后的特征图像具有相同的分辨率和三倍的通道数，这确保了在融合过程中不会丢失尺度信息。

整个过程可以用公式 (11) 表示：

其中，FTFE 表示 TFE 模块输出的特征图，Concat 表示拼接操作，Fl、Fm、Fs 分别表示大尺寸、中尺寸和小尺寸的特征图。

在目标检测中，目标的周围经常会出现冗余的候选框，因此需要非极大值抑制（Non-maximum suppression, NMS）来去除一些冗余的候选框。NMS的核心思想是选择置信度得分最高的候选框，然后计算其与得分次高的候选框的交并比（Intersection over Union, IoU）。如果两个框之间的IoU大于预设的阈值，则认为这两个候选框识别的是同一个目标。此时，得分较低的候选框将被丢弃，这个过程会一直持续，直到得到最终的结果。该算法可以用以下公式（12）表示：

其中，si 表示第 i 个候选框的得分，M 是当前得分最高的候选框，bi是第 i 个候选框，iou(M,bi) 是 M 和 bi之间的IoU值，Nt 是预设的IoU阈值。

然而，非极大值抑制（Non-maximum suppression, NMS）存在一些问题。NMS 的问题在于它会强制将相邻检测框的置信度分数设为零。如果在重叠区域中存在真实目标，它将无法被正确检测到，从而导致检测精度下降。此外，确定 NMS 的阈值并不容易；阈值设置过大会导致误检（false positives），而阈值设置过小则会导致漏检（false negatives）。为了解决这些问题，许多学者提出了不同的改进方案。

Soft-NMS 是 NMS 的一种改进方法。其核心思想是，当抑制一个检测框时，不是立即将其分数设为零，而是将其分数乘以一个系数，使其分数逐渐降低，具体可以用公式 (13) 表示。

上述函数通过线性衰减分数的方式，解决了传统非极大值抑制（NMS）的缺点。因此，远离M的检测框不会受到影响，而那些非常接近M的检测框则会受到显著的影响和惩罚。然而，由于该函数在重叠度方面不是连续的，当达到阈值Nt时，它会突然产生效果。为了解决这个问题，我们可以在更新步骤中使用以下高斯惩罚函数，该函数可以用公式（14）表示：

其中，D 代表最终检测结果的集合。
Soft-NMS 的流程图如图 11 所示。

实验与讨论
Dateset
由于没有公共数据集应用于轮胎缺陷检测，我们制作了自己的数据集应用于该场景，其中包含四种常见的轮胎缺陷，数据集的每个类别的具体数量如表所示。

从生产线获得的轮胎X射线图像分辨率为1819*11,400，在深度学习训练过程中，输入大分辨率图像会存在内存占用大、训练速度慢、容易过拟合等问题。因此，在深度学习训练时，通常会对图像进行裁剪、缩放等操作，以降低图像分辨率，减少计算量和内存消耗。对于轮胎X射线图像，如图12所示，本文以宽度为基准，沿高度方向将图像分割成若干张，此外，为了防止在裁剪图像的同时将缺陷裁剪掉，导致缺陷不完整，在分割时采用了重叠区域分割。最终，将图像裁剪为分辨率为1819×1819的单张图像。

图12. 轮胎图像交叉裁剪示意图。

丰富的数据是深度学习的基础，为了获得更好的训练效果，我们在裁剪后的图像基础上进行数据增强。数据增强方法包括水平和垂直翻转、随机角度旋转、增加噪声等。这些数据增强方法可以单独或组合作用于图像。数据增强的结果如图13所示。

经过裁剪和数据增强操作后，最终的数据集如表1所示。数据集信息。最后，将数据集按8:1:1的比例划分为训练集、验证集和测试集。

为了提高检测器的针对性性能，我们根据COCO的分类方法30将缺陷分为大、中、小目标。其中，大目标占57%，中目标占10%，小目标占33%，具体分布和数据统计如图14所示。从(a)中可以看出，数据集中缺陷的整体长宽比较大，缺陷XBJO和缺陷XTFM的尺寸分布相对均匀，缺陷XFM整体较小，而缺陷XBJO尺寸适中但长宽比较大。

图14. 目标尺寸分布及小、中、大目标数量统计。(a) 分布图; (b) 统计图。

超参数是调整模型训练的关键设置，选择合适的超参数可以显著提升目标检测模型的性能。YOLOv5模型的默认超参数是基于COCO数据集配置的；然而，本研究中使用的轮胎X射线数据集与COCO数据集有较大差异，因此需要进行超参数优化，以更好地适应轮胎缺陷检测任务。由于YOLO模型中的超参数数量较多，传统的优化方法（如网格搜索）并不实用。因此，本实验采用遗传算法进行超参数优化。
遗传算法是一种受自然选择启发的优化方法，能够有效解决传统方法中指数级增长的问题，并在高维空间中高效找到最优解。遗传算法的核心操作包括选择、交叉和变异，具体步骤如下：遗传算法通过在种群中定义个体解，使用基于准确率、召回率和mAP0.5的适应度函数进行评估，应用交叉和变异生成新解，并迭代选择最适应的个体以实现持续进化。
本文使用Windows 10操作系统，编译器为Python 3.8.10，Pytorch 1.9.0，CUDA 11.1，torch 1.9.0，torchvision 0.10.0。所有模型均在NVIDIA RTX4090（24 GB）上进行训练、验证和推理，训练超参数如表2所示。

为了准确评估改进算法的检测性能，选择了平均精度均值（mAP）、参数量（Params）和浮点运算次数（GFLOPs）作为评估指标。mAP0.5表示在IoU阈值为0.5时所有目标类别的平均精度。mAP0.5:0.95表示在IoU阈值从0.5到0.95范围内，以0.05为步长计算的10个IoU阈值下的检测精度的平均值。较高的IoU阈值对模型的检测能力提出了更严格的要求。如果模型在高阈值下的检测指标较高，则意味着模型的检测性能更好，检测结果在实际应用中更令人满意。Params表示模型的参数量，用于衡量计算内存资源的开销。GFLOPs是每秒10亿次浮点运算的次数，用于衡量模型训练时的计算复杂度。
mAP综合了模型精度和召回率两个指标，是评估模型的最重要指标之一，具体公式（15）如下：

式中TP为真阳性，FP为假阳性，TN为真阴性，FN为假阴性，可由式（16）表示。

其中，TP表示真正例，FP表示假正例，TN表示真负例，FN表示假负例。为了验证本文提出方法的优越性，本文与当前主流检测算法进行了对比实验。主要使用mAP、参数量（Param）和浮点运算次数（GFLOPS）作为评估指标，测试算法模型的准确性和模型复杂度。

对比实验
从表3不同检测算法的对比中可以看出，与两阶段检测算法Faster-RCNN相比，单阶段检测算法在轮胎缺陷检测精度上占据明显优势：Faster-RCNN的mAP0.5仅为33.4%，mAP0.5:0.95仅为17.7%，仅为单阶段检测算法精度的一半。在模型参数量方面，Faster-RCNN的mAP0.5:0.95仅为17.7%，仅为单阶段检测算法的一半，检测精度仅为单阶段目标检测算法的一半，且在模型参数数量和复杂度方面也不占优势。对于单阶段目标检测算法，SSD30031的mAP0.5达到59.4%，mAP0.5:0.95达到30.4%，虽然高于Faster-RCNN，但与YOLO模型相比仍有较大差距。

对于YOLOv5系列检测器，YOLOv5m和YOLOv5l的参数量和浮点运算次数相同，但mAP0.5和mAP0.5:0.95分别比后者高出0.5%和0.9%，因此选择YOLOv5m模型作为研究基础是合理的。尽管YOLOv5s的参数量较小，但其精度与YOLOv5m相比存在较大差距。与YOLO系列2023年推出的最新算法YOLOv7和YOLOv8相比，本文算法在mAP0.5上分别高出6.1%和3.2%，在mAP0.5:0.95上分别高出10%和1.7%，且浮点运算次数少于两者。

消融实验
为了验证改进效果，本文选择YOLOv5m作为基准模型，通过在相同实验条件下进行消融实验，评估不同模块和方法组合对目标检测性能的影响。消融实验中的损失收敛情况如图15所示，可以看出所有消融实验中的损失均已收敛。

从表4的消融实验结果可以看出，本文提出的模块和模型改进方法均在缺陷检测精度上提供了一定的提升。就单个模块而言，实验B在模型后处理阶段引入了Soft-NMS，mAP0.5提高了4.8个百分点，mAP0.5:0.95提高了3.7个百分点，表明使用Soft-NMS可以有效弥补传统NMS强制将置信度设为零的缺点，改善了目标相互遮挡导致的漏检增加问题，并在不增加额外训练参数的情况下大幅提高了模型的检测精度。实验C使用蛇形卷积代替普通卷积，与基础网络相比，mAP0.5提高了0.4个百分点，mAP0.5:0.95提高了0.6个百分点，表明蛇形卷积在细长目标检测中发挥了其优势，但同时也增加了模型参数量和浮点运算次数。实验D改进了网络模型的FPN结构，mAP0.5提高了2.4个百分点，mAP0.5:0.95与原网络基本持平。SSFF模块能够将深层特征图的高维信息与浅层特征图的细节信息相结合，TFE模块则在空间维度上拼接不同尺寸的特征图以捕捉小目标的细节信息。实验E引入了CBAM，mAP0.5提高了2.4个百分点，mAP0.5:0.95提高了0.5个百分点，表明CBAM能够有效加权特征图中的通道和空间信息，从而增强网络对重要特征的关注并抑制不重要的特征，最终实现特征的自适应细化。

在不同模块组合方面，实验F结合了Soft-NMS和DSConv，两者的组合充分发挥了各自的优势，mAP0.5提高了4.9个百分点，mAP0.5:0.95提高了4.7个百分点，均高于单独使用时的检测精度。在实验F的基础上，实验G使用了ASF结构，mAP0.5提高了5.3个百分点，mAP0.5:0.95提高了5.6个百分点，且模型参数量较实验F有所减少。最后，实验H表明，通过结合本文所有改进措施，最终的检测精度较单独使用时有所提升，mAP0.5提高了5.9个百分点，mAP0.5:0.95提高了5.7个百分点，证明改进后的模型能够有效完成轮胎缺陷检测任务。

可视化分析
图16展示了通过本文方法训练的模型在X射线缺陷图上的检测结果。图(a)中有两个缺陷，代码分别为XBJO和XTFM，这两个缺陷的形状为细长形，本文提出的算法能够准确判断缺陷的类型和位置，表明本文提出的基于蛇形卷积的方法非常适合此类缺陷的检测；图(b)为XFM缺陷的代码，此类缺陷较小，对检测器在小目标上的性能提出了更高要求，本文改进了颈部网络结构，能够有效增加对小目标的关注，实际检测中也证明了该方法的有效性；图(c)展示了相似类型的缺陷，两者均为细长形且灰度值较高，但本文提出的方法能够清晰区分这两种不同的缺陷，检测精度非常高；图(d)中的缺陷与背景非常相似，均为细长形且灰度值较低，本文算法能够准确区分目标与背景，具有客观的检测效果。

结论
本文提出了一种基于主流目标检测器YOLOv5的轮胎X射线缺陷检测方法DSC-YOLO，并在综合考虑轮胎X射线照片和缺陷特殊特性的基础上，提出了一系列有针对性的改进措施。

首先，针对轮胎缺陷中存在大量细长形缺陷的问题，本文采用动态蛇形卷积自适应聚焦于细长和弯曲的局部特征，并设计了基于动态蛇形卷积的C3模块，增强了对重叠帘线和缺失帘线等细长缺陷的关注，提高了模型的准确性。

其次，针对缺陷中小目标占比较大且常规检测器对小目标检测效果不佳的问题，本文在模型颈部引入了SSFF和TFE模块，整合了来自不同网络层的多尺度信息，并通过嵌入CBAM注意力模块，削弱了轮胎复杂各向异性纹理背景的独立特征，增强了轮胎表征中缺陷的有用特征。随后，使用Soft-NMS算法进一步优化候选框的处理，提高了模型对密集遮挡小目标的检测精度。

最后，在自建的轮胎X射线缺陷数据集上进行了消融实验和对比实验，结果表明本文算法在检测精度和模型大小之间取得了平衡，能够满足轮胎生产线视觉检测的要求。

尽管本文提出的方法在数据集中相比基础网络取得了更好的检测效果，但仍存在检测不佳的情况。图17展示了一个失败案例，由于该缺陷在灰度值和形状上与背景非常相似，且目标尺寸较小，导致模型在下采样时特征显著减少，检测器误将其识别为背景。在后续研究中，可以重点关注增加对此类缺陷的注意力。