【读点论文】Defect Spectrum: A Granular Look of Large-Scale Defect Datasets with Rich Semantics，基于扩散模型的生成

最新推荐文章于 2025-04-01 11:50:21 发布

羞儿

最新推荐文章于 2025-04-01 11:50:21 发布

阅读量2.1k

点赞数 30

分类专栏：论文笔记文章标签：人工智能计算机视觉深度学习扩散模型缺陷检测

本文链接：https://blog.csdn.net/weixin_43424450/article/details/141846646

版权

论文笔记专栏收录该内容

163 篇文章

订阅专栏

Defect Spectrum: A Granular Look of Large-Scale Defect Datasets with Rich Semantics

Abstract.

缺陷检测在闭环制造系统中至关重要。然而，现有的缺陷检测数据集通常缺乏实际应用所需的精度和语义粒度。在本文中，我们介绍了缺陷谱，这是一个全面的基准，可为各种工业缺陷提供精确、语义丰富和大规模的注释。我们的数据集基于四个关键的工业基准，改进了现有的注释并引入了丰富的语义细节，区分了单个图像中的多种缺陷类型。利用我们的数据集，我们能够将工业模拟实验中的召回率提高 10.74%，将假阳性率 (FPR) 降低 33.10%。此外，我们介绍了 Defect-Gen，这是一种基于两阶段扩散的生成器，旨在创建高质量和多样化的缺陷图像，即使在使用有限的缺陷数据时也是如此。Defect-Gen 生成的合成图像显著提高了缺陷分割模型的性能，在 Defect-Spectrum 子集上实现了 mIoU 分数高达 9.85 的提升。总体而言，缺陷光谱数据集展示了其在缺陷检测研究中的潜力，为测试和改进高级模型提供了坚实的平台。我们的项目页面位于 https://envision-research.github.io/Defect_Spectrum/ 。
论文地址：[2310.17316] Defect Spectrum: A Granular Look of Large-Scale Defect Datasets with Rich Semantics (arxiv.org)
在现代制造业中，精准的缺陷检测不仅是保证产品质量的关键，更是提升生产效率的核心。然而，现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性，导致模型无法识别具体的缺陷类别或位置。相比其他工业数据集，“Defect Spectrum”数据集提供了最多的缺陷标注（5438张缺陷样本），最细致的缺陷分类（125种缺陷类别），并为不同种类的缺陷都提供了像素级的细致标签。此外，该数据集还为每一个缺陷样本提供了精细的语言描述。
“Defect Spectrum”基于最先进的扩散模型，推出了一种革命性的方法——“DefectGen”。通过利用极少量的工业缺陷数据生成图像与像素级缺陷标签，该方法显著提升了工业缺陷检测模型的性能，在多个行业标准数据集上（如MVTec AD、VISION、DAGM2007及Cotton-Fabric）实现了前所未有的性能突破。

Introduction

工业制造是现代社会的基石。在这种环境下，微小的缺陷都可能导致重大故障，因此确保顶级质量至关重要。制造主要依赖于闭环系统，包括生产、缺陷检查、过滤和分析，如图 1 所示。
- 图 1：(a) 识别缺陷的大小、位置和类型对于质量控制至关重要，因为它可以指导产品的后期处理。拉链齿错位等重大问题需要工厂返工，而织物破损等小问题则可能导致不同的分销策略。这种方法可确保产品质量的维持并改善分销流程。(b) 表明我们的注释更精细，并且包括源注释中省略的内容。© 源注释忽略了单个图像中的多个缺陷类别，而我们的注释为每个不同的类别提供注释，以不同的颜色显示。彩色显示效果最佳。
在这个系统中，缺陷检测起着关键作用，它与大多数阶段相联系，并最终决定产品质量。根据缺陷的大小、位置和类型，在识别缺陷产品和确认次优产品之间取得适当的平衡变得至关重要。以“拉链”缺陷为例。如图 1 (a) 所示，服装拉链的齿错位。这种缺陷虽然在大小或可见度方面看起来很小，但会严重影响服装的功能，需要将其送回工厂进行纠正。然而，位于织物上的缺陷，如轻微的钩痕或轻微的颜色变化，需要仔细考虑其大小和影响。小规模的织物缺陷可以归类在可接受的范围内，从而允许差异化的分销策略，包括以折扣价销售这些产品，从而在不影响整体质量标准的情况下保持产品流动。此外，记录缺陷的类别和位置可以为预测性维护铺平道路，并为改进产品维修流程提供宝贵的见解。
然而，目前的数据集难以满足工业缺陷检测的复杂实际需求。一个明显的限制是缺陷类型和位置的粒度不足。例如，MVTEC 和 AeBAD 等异常检测数据集提供了像素级注释，但仅限于二进制掩码。同时，VISION 等数据集虽然更详细，但偶尔会遗漏或错误分类缺陷实例。
为了解决这些差距，我们推出了缺陷谱，旨在为广泛的工业缺陷提供语义丰富、精确和大规模的注释。这使实用的缺陷检测系统能够提供更彻底、更精确的分析，从而支持自动化工作流程。基于四个关键的工业基准，缺陷谱通过严格的标记工作提供了增强的注释。我们重新评估和改进了现有的缺陷注释，以确保整体表示。例如，细微缺陷（如划痕和凹坑）的轮廓经过精心改进，以提高精度，缺失的缺陷在专家的帮助下得到仔细填补。除此之外，我们的数据集通过提供具有丰富语义细节的注释而脱颖而出，即使在单个图像中也可以区分多种缺陷类型。
最后，我们为每个样本添加了描述性标题，旨在在未来的研究中整合视觉语言模型 (VLM) 的使用。在此过程中，我们使用了我们创新的注释工具 Defect-Click。它极大地加速了我们的标记过程，强调了它的实用性和效率，确保即使在我们的数据集范围很广的情况下也能进行细致的标记。
另一个明显的挑战是数据集中缺陷样本的数量有限。例如，在 DAGM 中，只有 900 张有缺陷的图像。在 MVTEC 中，虽然总共有 5354 张图像，但其中的缺陷只有 1258 张。即使是广泛的 VISION 数据集与 ImageNet （100 万张图像）和 ADE20k（2 万张图像）等自然图像数据集相比也显得不足。为了解决这个问题，我们利用生成模型的强大功能，提出了“Defect-Gen”，一种基于两阶段扩散的生成器。即使训练数据数量有限，我们的生成器在图像多样性和质量方面也表现出色。我们表明，这些生成的数据可以大大提高我们 Data Spectrum 基准中现有模型的性能。总而言之，我们的贡献如下。
- 我们推出了 Defect Spectrum 数据集，旨在通过其语义丰富、精确和大规模的注释来增强缺陷检查。与现有数据集不同，我们不仅优化了现有注释以获得更全面的表示，还引入了丰富的语义细节。该数据集基于四个关键的工业基准，超越了二进制掩码，提供了更详细和精确的注释。
- 我们提出了 Defect-Gen，这是一种基于两阶段扩散的生成器，用于解决数据集中缺陷样本数量有限所带来的挑战。事实证明，即使在训练集有限的情况下，该生成器也能通过增强图像多样性和质量来提高现有模型的性能。
- 我们对我们的缺陷谱数据集进行了全面评估，重点突出了其在各种缺陷检测挑战中的多功能性和应用性。通过这样做，我们为研究人员评估和开发针对工业缺陷检测复杂需求的先进模型奠定了基础。

Related Work

工业数据集：工业缺陷检测有几个常用的数据集：DAGM2007 、AITEX 、AeBAD 、BeanTech 、CottonSFDG 和 KoektorSDD 提供常见的图像，涵盖了广泛的制造材料；MVTEC 是一个用于对异常检测方法进行基准测试的数据集，重点是工业检测；VISION V1 包括 14 个包含多个对象的工业检测数据集。上述工业数据集的一个显著缺点是它们通常缺乏关于缺陷类型或其精确位置的特殊性。为了改进这些问题，我们引入了缺陷谱数据集。更多细节将在第 3 节中解释。
缺陷掩模生成：缺陷检测在制造业、医疗保健和运输业等各个行业中发挥着至关重要的作用。先前基于传统计算机视觉方法的尝试已被证明可以有效地检测小缺陷，但它们都无法检测富含纹理的图案中的缺陷。近年来，基于卷积神经网络 (CNN)的模型通常用于缺陷检测，但现实世界中缺陷样本的有限可用性仍然是一个挑战。为了缓解这种数据不足的问题，传统的合成缺陷图像的方法会手动破坏正常样本或采用计算机辅助绘图 (CAD) 。基于深度学习的方法通常是有效的，但它们需要大量数据。基于 GAN 的方法用于进行缺陷样本合成以增强数据。
DefectGAN 采用编码器解码器结构，通过模仿污损和修复过程来合成缺陷。然而，值得注意的是，基于 GAN 的方法通常需要大量真实缺陷数据才能获得有效的结果。扩散模型的最新进展在图像生成方面表现出色。然而，当使用稀缺数据进行训练时，它们往往会重现现有样本，导致缺乏多样性。Stable Diffusion 是该领域最流行的方法之一。尽管如此，在生成掩模时使用预先训练的稳定扩散模型并不适用。另一方面，我们提出的方法即使在有限的数据集上进行训练，也能够生成具有多样性和高质量的缺陷图像-掩模对。

Dataset

Datasets Analysis

在表 1 中，我们对缺陷光谱数据集与其他流行的工业数据集进行了比较分析。值得注意的是，DAGM2007 和 Cotton-Fabric 数据集最初缺少像素标签，因此不太适合进行详细的缺陷检查。虽然 AITEX、AeBAD、BeanTech 和 KoektorSDD 等数据集提供了缺陷掩码，但它们仅关注有限范围的产品，提供有限数量的带注释图像和缺陷类别。
- 表 1：与真实世界制造数据集的比较。即使排除我们的合成数据，缺陷谱数据集也是第二大数据集。缺陷谱也是迄今为止最多样化、语义最丰富、最精确的制造基准数据集。我们使用 * 来表示合成数据的数量。
虽然一些高质量的数据集提供了大量带有像素级注释的图像，但它们并非没有局限性。例如，有些情况下，MVTEC 和 VISION 注释要么漏掉缺陷，要么提供不精确、粗略的标签，如图 1(b) 所示。此外，这些数据集通常将各种缺陷类别合并为一个同质类别。这一缺点在图 1© 中的“药丸”和“电容器”示例中尤为明显，其中原始注释仅提供二进制掩码，无法区分“划痕”、“裂纹”和“色点”等缺陷。这种方法无法反映现实世界的场景，其中工业图像经常同时显示多种类型的缺陷。
为了增强缺陷检测能力，缺陷谱数据集引入了从上述数据集中衍生的 3518 张高质量高分辨率图像的综合集合。这些选定的图像具有各种各样的物体和缺陷，确保广泛的差异和覆盖范围，以改进分析。这个精选的数据集为每幅图像提供了详细、精确和多样化的类别注释，并通过全面的标题丰富了数据，以促进更好的上下文理解。对于每种产品类型，缺陷谱数据集通过结合真实的合成数据及其准确的掩码来扩展其实用性，确保了全面而多功能的测试场地。

Annotation Improvements

我们对注释的改进主要在三个方面：准确性、语义丰富性和详细描述。
- 准确性：对于未注释或仅有图像注释的数据集，我们对其进行了提升，以满足我们的标准。我们通过细致的像素级注释丰富了这些数据集，划定了缺陷边界，并为每种类型的缺陷分配了不同的类别标签。对于那些已经拥有像素级掩模的数据集，我们提高了它们的精度并纠正了任何缺陷。我们努力解决任何被忽视的缺陷，确保全面覆盖。对于细微的缺陷，例如划痕和凹坑，我们细化了轮廓以实现更高的精度。
- 语义丰富性：与仅提供二进制缺陷掩码的数据集相比，缺陷谱提供了具有更多语义细节的注释，可在单个图像中识别多种缺陷类型。我们识别出有 552 张多重缺陷图像，并提供其多类标签。此外，我们重新评估并微调了现有的缺陷类别，以确保更细致和精确的分类。总共，我们提供 125 种不同的缺陷类别。
- 详细描述：随着视觉语言模型 (VLM) 的发展，我们通过集成详尽的标题来充实我们的数据集。值得注意的是，当前的标题模型（例如 BLIP2 和 LLaVa ）经常忽略缺陷信息。作为补救措施，我们手动完善了 VLM 中的标题并提供了详细的描述。这些叙述不仅可以识别对象，还可以阐明其特定缺陷。我们预计，这一增强功能将激励研究人员在未来的研究中越来越多地利用 VLM 进行缺陷检查。

Defect Generation

为了解决缺陷稀缺问题，我们转向了新兴的生成模型领域。利用有限的可用数据，我们提出了一种基于两阶段扩散的生成器，称为“Defect-Gen”。
- 背景：给定一组有缺陷的图像掩模对，我们的目标是学习一个能够捕捉真实数据分布的生成模型，以便它可以生成更多的对来扩充训练集。我们将数据集表示为 $D = \{(I_1, M_1),(I_2, M_2), . . . ,(I_N , M_N )\}$ ，其中图像 $I_i ∈ \R ^{h×w×3}$ 和掩模 $Mi ∈ \{0, n\} ^{h×w×n}$ 分别表示缺陷图像及其对应的缺陷掩模。N 是训练集中的样本数量，实际上这个数字很小。n 表示掩码图像中的缺陷类型数量。具体来说，我们将掩码转换为每个通道的独热编码方案。我们表明，只需进行很小的修改，它就可以生成具有相应标签的图像。我们对 I 和 M 进行通道级联，即 x = I ⊕ M，其中 ⊕ 表示级联， $x ∈ \R ^{h×w×n_{total}}$ ，且 ntotal = ndef ect + 3。然后我们将 x 作为输入来训练生成器。这提高了生成模型的可用性，而计算开销可以忽略不计。在下文中，为了方便起见，我们将 x 称为“图像”而不是“带标签的图像”。
- 少量样本挑战：请注意，缺陷图像在实践中很难收集，因此，模型必须用很少的样本进行训练。在这种情况下，我们观察到生成的结果缺乏多样性。具体来说，模型倾向于记住训练集。原因可能是生成模型（例如扩散模型）倾向于预测训练样本周围的高密度，而无法捕捉真实的数据分布，如图 2 所示。
- 图 2：DDPM 预测训练样本周围的密度较高，但无法捕捉真实的数据分布。
- 过度拟合问题：上面讨论的局限性并不令人惊讶。在统计学习理论中，众所周知，分类模型的泛化能力与样本量呈正相关，与维度呈负相关。根据 Vapnik-Chervonenkis 理论，我们可以合理地假设扩散模型中也存在类似的趋势。从这个意义上讲，由于数据维度 (h×w×ntotal) 远大于样本量（在我们的设置中为 N = 25），因此 vanilla 扩散模型遭受严重的过度拟合。如图 4 (a) 所示，DDPM 复制了训练案例，导致多样性生成较低。
- 图 4：(a) 中的视觉案例表明使用 DDPM 缺乏多样性。 (b) 中的案例表明多样性过度。© 显示了使用我们的框架生成的样本。我们在引入局部方差的同时保持了全局结构。
- 对补丁级分布进行建模：为了缓解上述问题，我们建议对补丁级分布进行建模，而不是对图像级分布进行建模。通过将补丁视为一个样本，数据维度 (hpatch× wpatch × ntotal) 大大减少，而样本大小 (Npatch) 则显著增加。这降低了过度拟合的风险。图 5 展示了我们策略的有效性。
- 图 5：块级建模的属性。右侧图像由小感受野模型生成，左侧两幅图像是来自训练集的两幅最相似的图像。
- 限制感受野：虽然我们可以简单地用裁剪的图像块替换 x 来实现块级建模，但是在推理过程中很难使用学习到的块重建成整幅图像。换句话说，如果明确训练一个补丁生成器，我们必须引入一个重建项来合并这些块。或者，我们利用网络架构来限制感受野的大小来实现这一点。标准 U-Net 用于原始扩散模型。它由一系列下采样层组成。随着下采样层数量的减少，输出感受野逐渐减小。这使得模型仅对原始图像上的小块可见。 这种策略不会改变一幅图像中每个块的位置，因此有可能保持整幅图像。因此，通过使用较小的感受野，可以实现块级建模。
- 处理全局失真虽然块级建模可以有效克服过度拟合，但它无法表示整个图像的全局结构，导致结果不切实际。如图 4(b) 所示。为了解决这个问题，我们提出了一个两阶段扩散过程，如图 3 所示。我们的方法受到 [Perception prioritized training of diffusion models] 的启发，它揭示了扩散过程中的不同时间步骤对应不同的信息级别。在早期阶段，生成粗略的几何信息，而在后期阶段，生成更精细的信息。
具体来说，我们训练两个模型：一个具有我们之前介绍过的小感受野，另一个具有更大的感受野。在推理过程中，我们使用大感受野模型在早期步骤中捕捉几何结构，然后切换到小感受野模型在剩余步骤中生成多样化的局部块。图 4 © 展示了此策略的有效性。我们的模型有两个关键超参数：切换时间步长 u 和小模型的感受野。它们都可以控制保真度和多样性之间的权衡。我们使用 FID 来衡量生成保真度。LPIPS 最初用于衡量两幅图像之间的相似性，分数越低表示相似度越高，反之亦然。在这种情况下，为了实现更高的生成多样性和保真度，我们希望在相似的 FID 分数下保持更高的 LPIPS 分数。由于页数限制，切换时间步长u和小模型的感受野的详细选择可以在附录的B节中找到。

Auxiliary Annotation Tool

在标记领域，注释像素掩码是一项极其艰巨的任务，尤其是在 Defect Spectrum 的严格标准下。从头开始执行这样的任务是不可行的。为了缓解这一挑战，我们引入了一个辅助注释工具“Defect-Click”，旨在节省我们专家的精力。
Defect-Click 是一种先进的交互式注释工具，旨在根据用户的点击点自动分割缺陷区域。与传统的交互式分割方法不同，Defect-Click 利用其预先训练的工业缺陷知识来熟练地精确定位不规则的缺陷区域。基于 Focal-Click 框架，我们通过整合 21 个专有标记数据集、引入针对小缺陷的多级裁剪训练以及在训练过程中加入边缘敏感损失，为工业缺陷领域量身定制了 Defect-Click。21 个专有标记数据集包含用于工业检测的缺陷图像-掩模对。多级裁剪训练意味着我们将训练样本随机重新缩放为 [512, 1024, 1536, 2048, 2560, 3072] 的分辨率，然后裁剪 512×512 的块进行训练。边缘敏感损失表示 Mask2Former 中的损失函数。我们在实践中使用losscls:lossmask:lossdice = 2:5:5。这些专门的方法确保 Defect-Click 在工业数据集领域的表现明显优于其他注释工具，如图 6 所示。Segment Anything 很难识别划痕缺陷，而 Defect-Click 可以清晰地勾勒出缺陷的轮廓。
- 图 6：缺陷点击和分割任意点的比较。通过人工点击逐步注释划痕胶囊：使用我们的“缺陷点击”工具，我们可以快速精确地找出两个划痕。但是，当使用“分割任意点”时，准确识别缺陷变得具有挑战性，如红框所示。最好以彩色显示。
借助 Defect-Click，我们只需点击几下鼠标即可初步获得粗糙的缺陷掩模，然后对其进行细化。平均而言，这种方法可节省约 60% 的时间。尽管如此，这项综合注释项目仍然耗时 580 个小时。

Experiments

Benchmarking existing methods

在工业缺陷检测领域，主要有三项任务：缺陷检测（确定图像中是否包含缺陷）、缺陷分类（识别缺陷类型）和缺陷分割（精确定位图像中缺陷的边界和类型） 。典型的缺陷检测方法，如 Patchcore 、PADIM 和 BGAD ，强调识别缺陷的存在，但在辨别缺陷类型方面存在不足。缺陷分类方法可以确定缺陷的类型，但不提供有关其位置或大小的信息。我们的缺陷谱数据集带有详细而全面的注释，旨在解决最复杂的任务。因此，我们专注于在缺陷分割方面表现出色的方法。
此外，由于许多工业产品的机密性，通常禁止将数据传输到外部。这需要能够在本地设备上有效运行的模型。考虑到这一点，我们精心挑选了几种 SOTA 分割方法，并将它们改编为轻量级版本。我们的基线包括 UNet - small 、ResNet18 - PSPNet 、ResNet18 - DeepLabV3+ 、HRNetV2W18 - small 、BiseNetV2 、ViT - Tiny Segmenter 、Segformer - MiT - B0 和 HRNet - Mask2Former 。模型缩写如下：UNet（UNet - small）、PSP（ResNet18 - PSPNet）、DL（ResNet18 - DeepLabV3+）、HR（HRNetw18small）、Bise（BiseNetV2）、V-T（ViT-Tiny - Segmenter）、M-B0（Segformer - MiT-B0）和M2F（HRNet Mask2Former）。
我们对缺陷谱基准的每个子集上的上述方法进行了全面评估。对于性能指标，我们选择了平均交并比 (mIoU)。结果如表 2 所示。DeepLabV3+ 在多个数据集上的一致性能表明，它是适用于各种类型缺陷分割任务的稳健模型。基于 Transformer 的模型似乎对棉织物特别有效。这可能是由于 Transformer 在捕获远程语义信息方面具有固有优势，这在“棉织物”中很常见。不同类别的模型的性能各不相同，这表明没有通用的解决方案。模型选择应考虑数据集的具体情况。一些数据集对所有模型都提出了挑战，凸显了需要进行更多研究。
- 表 2：不同缺陷谱重新注释数据集中各种缺陷分割方法的定量比较。结果反映了 mIoU。我们用红色突出显示每个数据集的最佳 mIoU。“DS”是缺陷谱的缩写。

Generation Quality

图 7 定性比较了我们的生成结果与其他合成方法的结果。在左侧，我们展示了不同的对象来证明我们方法的高保真度。在右侧，我们使用“真实缺陷”中显示的两幅图像来生成样本，以证明我们的高多样性。我们观察到 CycleGAN 和 DDPM 生成的模型完全无法学习多样化的缺陷模式，因此无法通过生成训练集的简单重复来生成具有多样性的样本。另一方面，sinDiffusion 和 SinGAN 可以生成多样化的样本，但在视觉上并不逼真。在补充文件中找到更多视觉案例，包括其他类别。图 8 显示了我们生成的图像-蒙版对。我们的图像质量很高，相应的蒙版与它们很好地对齐。
- 图 7：我们的方法与其他图像合成方法的定性比较。在左侧，我们比较了不同数据集中的不同对象，以证明我们的生成方法具有高保真度。在右侧，我们展示了我们的方法可以在保持高质量的同时展现多样性。最好以彩色显示。
- 图 8：我们提出的缺陷生成方法的定性结果。生成的图像表现出丰富的语义，质量很高。生成的掩模精确反映了缺陷区域。最好以彩色显示。

Synthetic Data for Performance Boost

使用合成数据提升 SOTA 方法：表 3 中的结果显示，DS-MVTec 和 DS-Cotton 数据集的性能均有大幅提升，DS-VISION 数据集的性能提升相对较小，但每个子类的性能都有所提升。我们没有为 DS-DAGM2007 生成额外数据，因为它已经是一个合成数据集。结果证明了我们的合成数据的有效性。我们还与其他生成方法在提升性能方面进行了比较。详细比较可在补充文件中找到。
- 表 3：使用和不使用合成数据训练的模型之间的性能（mIoU）比较。粗体文本表示使用合成数据的结果。“DS”是缺陷谱的缩写。
合成数据的影响：在图 9 中，我们深入研究了合成数据量变化对模型性能的影响。图 9 (a) 显示了使用 DeepLabV3+ 对不同数量合成数据的性能改进。有趣的是，我们发现基于 Transformer 的模型 (MiT-B0) 使用合成数据比基于 CNN 的模型受益更多，如图 9 (b) 所示。
- 图 9：使用不同比例的合成数据对 mIoU 的改进。该实验在 Defect Spectrum (MVTec) 上使用 DeeplabV3+ 和 MiT-B0 进行，分别如图 (a) 和 (b) 所示。
当使用原始训练集大小的 20% 合成数据时，结果会有所增强。此外，值得注意的是，所需的最佳合成数据量可能因具体图像类别而异。当使用原始训练集大小的 200% 合成数据时，性能会有所增强，但会导致更大的差异。此外，在达到 300% 后，性能开始下降。从整体上看，集成 100% 的合成数据似乎是一个合理的选择。

Comparison between original and Defect Spectrum dataset

我们的数据集增强包含两个重大修改：1）扩展以包含更多缺陷类别，2）提高训练和验证集的注释准确性。鉴于这些重大变化，直接评估我们改进的模型在原始基本事实上的性能（如计算 mIoU）变得不切实际，反之亦然。
为了客观评估我们数据集的优越性，我们设计了一个模拟实验来反映现实世界的制造过程。我们邀请制造专家为检查的项目设定一个质量控制基准，如表 4 所示。该基准规定了不可接受的严重缺陷，并为轻微缺陷设定了一个阈值——例如，拉链上的任何齿缺陷都是不能容忍的，而只有拉链上的大量织物缺陷才被认为是有害的。根据这些标准，我们将验证样本分为良性或有缺陷。
- 表 4：待检测对象的质量控制基准。我们以拉链、药丸和木材为例。
然后，我们训练两个相同架构的分割模型：一个在我们精炼的数据集上，另一个在原始数据集上。利用这些分割结果和既定标准，我们计算了图像级召回率 ( $\frac{T P} {F N+T P}$ ) 和假阳性率 ( $\frac{F P} {T N+F P}$ )。较高的召回率表示更有效的缺陷产品识别，而降低的假阳性率表示更少的良性产品被误标记为有缺陷。如表5所示，使用我们精炼的标注训练的模型在召回率和假阳性率方面优于使用原始数据集训练的模型，从而在不影响质量的情况下提高了产品的盈利能力。
此外，我们对缺陷谱中的所有子集进行了定性比较。我们将原始数据集中的注释与精炼数据集中的注释进行了比较。此外，我们还根据原始数据集注释对分割模型的掩码进行了评估，并将其与精炼数据集中的掩码进行了比较。与原始数据集相比，掩码和注释都表现出更高的准确性，并且缺陷类型之间的区分度也得到了改善。附录中包含了这些注释和分割掩码的视觉示例，以供进一步参考。

Conclusion

总之，我们的缺陷谱数据集与 Defect-Gen 生成器相辅相成，解决了工业缺陷检测中的关键问题。通过提供语义丰富、精确且大规模的注释，我们的贡献将促进缺陷检测方法的进步。视觉语言模型的潜在集成、标记助手 DefectClick 的实际价值，再加上 Defect-Gen 缓解数据稀缺的能力，为未来更强大的缺陷检测系统奠定了基础。

Supplementary Material for Defect Spectrum

Visual Comparison between Original and Defect Spectrum Dataset

在本节中，我们首先对我们的注释（最后一行）和原始数据集的注释进行视觉比较。图 1、2、3 显示了 MVTec 数据集的比较，我们根据缺陷类型对其进行了重新分类，并实现了更多的语义丰富性。至于 VISION 数据集的图 4，我们改进了原始注释以获得更高的粒度。原始 DAGM 和 Cotton 数据集不包含像素级注释，因此我们提供如图 5、6 所示的注释。我们还通过使用分割模型证明了我们改进的注释对缺陷检查的有效性。如图 7、8 和图 9 所示，与在原始数据集上训练时的性能相比，在我们改进的数据集上训练的分割模型表现出更高的精度和更好的区分各种缺陷的能力。
- 图 1：MVTec 数据集中“电缆”和“胶囊”类别的注释比较。第一行显示缺陷图像。第 2 行和第 3 行显示原始注释和我们改进的注释。最好以彩色显示。
- 图 2：MVTec 数据集中“牙刷”和“榛子”类别的注释比较。第一行显示缺陷图像。第 2 行和第 3 行显示原始注释和我们改进的注释。最好以彩色显示。
- 图 3：MVTec 数据集中“木材”和“药丸”类别的注释比较。第一行显示缺陷图像。第 2 行和第 3 行显示原始注释和我们改进的注释。最好以彩色显示。

Defect Generation

实现细节在本节中，我们将首先详细说明 Defect-Gen 的架构。然后，我们将介绍我们模型的数据集和训练设置。最后，我们将它与其他方法进行了定量比较，以证明我们方法的优越性。
实验设置：由于 MVTec AD 数据集中没有训练-测试分割，为了训练大型和小型扩散模型，我们为每个对象每种缺陷类型使用 5 张图像，这与我们的分割训练设置相同。对于 VISION、DAGM2007 和 Cotton-Fabric，我们使用预分割训练集。表 1 至表 4 展示了大型和小型感受野模型的架构。扩散模型的训练在四个 3090 GPU 上进行，批量大小为 2，学习率为 1e − 4，训练迭代次数为 150,000。我们使用 Adam 优化器，权重衰减为 2e − 3。
- 表 1：上采样块
- 表 2：下采样块
- 表 3：大型感受野模型的架构。
- 表 4：小型感受野模型的架构。
参数分：正如我们在第 3.4.2 节中讨论的那样，我们的模型有两个关键超参数：切换时间步长 u 和小模型的感受野。它们都可以控制保真度和多样性之间的权衡。我们使用 FID 来衡量生成保真度。由于没有现有的指标可以有效地衡量生成多样性，因此我们使用 LPIPS 分数来表示。在相似的 FID 分数下，更高的 LPIPS 分数表明数据集中的多样性更高。表 5 显示了不同 u 和感受野的 FID 和 LPIPS。如图所示，当 u 增加时，保真度增加而多样性减少。类似地，当感受野从小切换到大时，也会出现同样的趋势。根据经验，我们使用 u=50 和中等感受野来实现 FID 和 LPIPS 之间的良好权衡。
- 表 5：该表显示了胶囊类多样性和图像质量之间的权衡。列代表 3 种不同的感受野大小，大、中、小，相应的下采样块分别为 6、3、2。行代表用于小感受野模型的时间步长（v）。
定量评估：我们比较了原始 MVTec 数据集上不同方法的分割性能提升。排除基于 GAN 的方法，因为它们几乎无法生成逼真的图像，从而进一步破坏了原始数据分布。缺陷分割的结果如表 6 所示。第一列显示仅使用原始训练数据的缺陷分割 mIoU 分数。每列的其余部分显示使用原始训练数据对和通过不同合成方法生成的增强对的缺陷分割性能。由于输出图像结构不正确和蒙版标签错误，SinDiffusion 降低了 mIoU 分数。但是，它可以略微提高某些类别的分割性能，例如“地毯”、“网格”、“皮革”、“瓷砖”和“木材”。由于这些类别不包含任何工业零件，因此在合成过程中不需要任何全局结构信息。DDPM 生成的样本可以提高性能分数，但是由于生成过程中缺乏多样性，性能提升有限。
- 表 6：sinDiffusion、DDPM 和我们的方法之间的分割性能定量比较。为了证明我们的方法在 Defect Spectrum 之外的其他数据集上的有效性，我们在原始 MVTec 数据集上进行了比较