题目:Real-IAD D³: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection
题目:真实工业异常检测数据集D³:一个用于工业异常检测的真实世界二维/伪三维/三维数据集
Real-IAD D³ 真实工业异常检测数据集D³
A Real-World Dataset 一个真实世界数据集
2D/Pseudo-3D/3D 二维/伪三维/三维
for Industrial Anomaly Detection 用于工业异常检测
Abstract 摘要
工业异常检测(IAD)日益复杂,使得多模态检测方法成为机器视觉研究的焦点。然而,专门为工业异常检测定制的多模态数据集仍然有限。像MVTec 3D这样的开创性数据集通过整合RGB + 3D数据,为多模态工业异常检测奠定了重要基础,但由于在规模和分辨率上存在限制,在与真实工业环境接轨方面仍面临挑战。
为应对这些挑战,我们引入了真实工业异常检测数据集D³,这是一个高精度的多模态数据集。它独特地纳入了通过光度立体技术生成的额外伪三维模态,同时包含高分辨率RGB图像和微米级三维点云。真实工业异常检测数据集D³在20个类别中呈现出更细微的缺陷、多样的异常情况以及更大的规模,为多模态工业异常检测提供了具有挑战性的基准。
此外,我们还引入了一种有效的方法,融合RGB、点云以及伪三维深度信息,以利用各模态的互补优势,提升检测性能。我们的实验结果突出了这些模态在增强检测稳健性和整体工业异常检测性能方面的重要性。该数据集和代码可在https://realiad4ad.github.io/Real-IAD_D3/公开获取,供研究使用。
1. Introduction 引言
1.1 异常检测的重要性
异常检测对于确保工业生产中的产品质量和可靠性至关重要。计算机视觉和工业人工智能领域的进展极大地提高了识别和分类异常的准确性与效率。由于工业制造是社会发展的基础,严格的质量控制必不可少[6]。在零部件生产过程中出现的缺陷会严重影响产品质量和使用寿命,尤其在制药、食品生产和电池制造等敏感行业,这些缺陷会给消费者带来巨大的安全风险[11, 12]。
1.2 现有数据集
1.2.1 二维工业检测数据集
为降低这些风险,工业异常检测(IAD)已成为维护各行业产品质量和运行安全不可或缺的工具。MVTec AD [2]、VisA [35]和Real - IAD [28]等数据集的开发是异常检测领域的重要里程碑,它们使无监督学习技术得以应用,该技术对正常样本分布进行建模,并将离群值分类为异常。
然而,基于二维图像的异常检测在工业环境中往往存在不足,特别是对于像划痕和凹痕这类对颜色和纹理变化高度敏感的缺陷。
1.2.2 整合二维和三维点云数据的多模态数据集
认识到这些挑战后,人们开发了一些整合二维和三维点云数据的多模态数据集,以便更有效地捕捉现实工业环境的复杂性。例如,MVTec 3D - AD [4]旨在进行无监督三维异常检测和定位,针对划痕、凹痕和污染等几何异常,涉及10类物体。另一个值得注意的数据集Eyecandies [5],引入了10个类似糖果物体的合成图像,并带有精确的二维、深度和法向量图标注,利用合成数据实现自动化和无偏差标注。
1.3 融合二维和三维数据的异常检测方法
随着多模态数据集的扩展,工业异常检测领域出现了新方法,这些方法利用二维和三维数据的综合优势,在复杂工业环境中提高检测准确性和稳健性。
1.3.1 形状引导的双记忆学习/对称师生网络
例如,形状引导的双记忆学习通过学习三维结构和二维视觉特征来检测细微的表面不规则和体积异常[9];对称师生网络使用师生模型检测与未学习的正常分布的偏差,从而实现更有效的无监督检测[23]。
1.3.2 混合方法:记忆网络存储正常模式Total Recall/合成深度图与二维、点云数据结合,增强细微检测Cheating Depth
混合方法进一步整合二维和点云数据,以捕捉表面和结构异常,提供更稳健的检测机制[30]。诸如工业异常检测中的全召回(Total Recall in Industrial Anomaly Detection )等技术,通过在记忆网络中存储正常模式来扩大异常检测召回率,从而增加正常数据分布的范围[22];而“作弊深度”(Cheating Depth )则将合成深度图与二维和点云数据相结合,以增强对细微表面异常的检测[33]。
1.4 现有数据集的局限性
尽管取得了这些进展,但现有数据集仍存在显著局限性,阻碍了它们在工业异常检测中的实际应用能力。最明显的是,当前数据集的点云分辨率往往不足以捕捉精细细节,材料类型和缺陷类别的有限多样性限制了模型在实际应用中的泛化能力。因此,在这些数据集上报告的高异常检测指标可能无法准确反映实际工业环境中的性能,因为实际工业环境中的条件变化更大。
1.5 本文提出的数据集:Real-IAD D³
1.5.1 数据集规模和细节
为解决这些局限性,我们引入了真实工业异常检测数据集D³,这是一个更大规模的高精度多模态数据集。它独特地纳入了通过光度立体技术生成的伪三维模态,以及高分辨率RGB图像和微米级三维点云。
真实工业异常检测数据集D³包含20个产品类别,每个类别包含4 - 6种缺陷类型,并在8450个样本中提供分辨率低至0.002毫米的点云数据。具体来说,它包括5000个正常样本和3450个异常样本,每个样本包含同步的RGB、点云和伪三维图像。
1.5.2 数据集的优势和特点
这些异常的设计紧密模拟了实际工业场景,使其对单模态和多模态应用都更具挑战性和实用性。数据集规模和多样性的大幅增加,给异常检测算法带来了更大挑战,促使其提高稳健性和准确性。
能够捕捉受材料属性影响的细微缺陷特征
真实工业异常检测数据集D³的一个显著特点是其通过光度立体技术生成的伪三维数据,该数据通过捕捉受材料属性影响的细微缺陷特征,解决了现有数据集的局限性。大量实验表明,D³多模态数据显著提升了工业异常检测标准,为多模态异常检测提供了全面且具有挑战性的基准。此外,我们为D³异常检测提出了一个基准模型,为该领域的未来研究建立了基础参考。
1.6 论文的贡献
总体而言,我们的贡献总结如下:
- 我们引入了真实工业异常检测数据集D³,这是一个高精度、严格对齐的多模态数据集,它同步了RGB和三维点云数据,并精心策划了具有挑战性的缺陷。该数据集包含8450个样本,涵盖20个不同的工业类别,在规模和多样性方面为多模态工业异常检测树立了新的基准。
- 我们在真实工业异常检测数据集D³中引入了通过光度立体技术生成的伪三维模态,该模态提供相对深度信息,以改进像素级缺陷检测,特别是对于细微划痕和微小凹痕等细微表面细节。
- 我们引入了D³M基准,它对齐了二维、伪三维和三维模态,以提供工业部件的全面表征。这个基准展示了多模态融合在提高工业异常检测的精度和可靠性方面的优势。
2. Related Work 相关工作
2.1. Multi-modal 3D-AD Methods 多模态三维异常检测方法
二维异常检测领域的最新进展引入了复杂的方法(文献[3, 6, 10 - 12, 17, 20, 22 - 25, 27, 29]),包括图像重建、特征蒸馏和小样本学习。
受此推动,①MVTec 3D - AD(文献[2])激发了人们对三维异常检测(3D - AD)的兴趣,尽管前景可期,但该领域仍欠发达(文献[2, 7, 30, 35])。在三维异常检测中,深度数据被广泛用于减少背景噪声并补充RGB数据。
②Bergmann等人(文献[1])采用师生模型
③而Horwitz等人(文献[15])在KNN框架中整合三维描述符。
④AST(文献[23])将基于深度的背景去除与二维技术相结合
⑤而欺骗深度(Depth - Beating Depth,文献[33])模拟深度特征以克服RGB数据的局限性。
⑥形状引导的双记忆学习(文献[9])融入形状信息以实现更精准的定位
⑦PatchCore(文献[21])通过特征匹配在多模态异常检测中表现出色。
⑧M3DM(文献[30])强调RGB数据与点云融合,展示了多模态方法在复杂场景中增强检测效果的有效性。
2.2. 3D-AD Datasets 三维异常检测数据集
2.2.1 二维
自2007年以来,在众多数据集的推动下,二维异常检测(2D - AD)领域取得了显著进展。这些数据集助力了多种方法的发展,包括图像重建(文献[4, 13, 14, 32, 33] )、特征蒸馏(文献[6, 12, 26] )以及小样本异常检测(文献[8, 16, 18, 31, 34] )。
2.2.2 三维数据集
相比之下,三维异常检测(3D - AD)仍是一个相对新兴的领域,目前仅靠有限数量的基础数据集支撑。
①值得注意的是,MVTec 3D - AD(文献[4] )提供了一个用于无监督三维异常检测的基准数据集,它包含高分辨率深度扫描数据,以及针对10类物体的精确缺陷标注。
②同样,Eyecandies(文献[5] )提供了一个合成的、逼真的数据集,其中包含RGB数据、深度数据和法向量图,可在受控光照条件下实现自动化、无偏差的缺陷标注。
③Real3D - AD(文献[19] )进一步贡献了一个大规模、高精度的数据集,该数据集专门设计用于利用点云数据进行工业异常检测。
尽管有这些成果,但现有的三维数据集在工业材料和缺陷类型的代表性方面存在局限,这凸显了对更多样化、更全面数据集的需求,以推动三维异常检测研究的发展。
3. Real-IAD D³ Dataset Description 真实工业异常检测数据集D³描述
20类产品+69个缺陷组
真实工业异常检测数据集D³(Real-IAD D³ )是一个广泛的多模态工业异常检测数据集,涵盖20个不同的产品类别和69个缺陷组。每个缺陷组平均包含50个样本,即每种材料平均有3.45个缺陷。
两种数据+两种数据格式
该数据集总共包含8450个样本,其中5000个正常样本,3450个异常样本。每个样本包含同步的二维数据、伪三维光度立体融合数据、TIFF格式数据和PLY格式数据。
1. 二维数据
通常以二维图像形式存在 ,像普通相机拍摄的照片、屏幕显示的图像等都属于二维数据。
2. 伪三维光度立体融合数据
原理:基于光度立体技术生成 。该技术利用多个不同方向的光源照射物体,相机从固定位置拍摄物体在不同光照下的图像。通过这些图像的亮度、阴影等信息,依据特定算法计算出物体表面各点的法向量等信息,进而得到相对深度信息,模拟出类似三维的效果 ,但并非真正通过三维空间坐标精确描述物体 ,所以称为伪三维 。
3. TIFF格式
定义:Tagged Image File Format的缩写,即标签图像文件格式 ,是一种用于存储图像的文件格式 。
特点:应用广泛、兼容性强,兼备多种格式特点。
4. PLY格式
定义:Polygon file format的简称 ,即多边形文件格式 ,由斯坦福大学开发 ,是一种用于描述多边形模型对象的三维mesh模型数据格式 。
结构与存储信息:文件结构包括文件头和元素数据列表 。文件头描述文件类型、格式版本、元素类型及属性等 ,然后依文件头元素类型顺序记录属性数据 。可存储构成面片的多边形顶点三维坐标 ,还能储存颜色、透明度、表面法向量、材质等信息。并且允许以ASCII码格式(便于阅读和编辑 )或二进制形式(存储紧凑、读写速度快 )存储文件 ,在图形学研究领域是常用且重要的格式 。
缺陷面积范围+缺陷点占比
数据集涵盖了广泛的缺陷面积比例范围,从0.46%到6.39%。多光源设置支持四种点云分辨率,最高可达1620万点(5328x3040),精度达0.002毫米。缺陷点占比从0.033%到7.34%不等。
3.1. Data Collection and Construction manner 数据采集与构建方式
3.1.1 Data Collection and Annotation 数据采集与标注
3.1.1.1 四种材料类型
我们精心整理了一个包含20种工业产品的数据集,这些产品涵盖多种材料类型,包括金属、塑料、陶瓷和复合材料。对这些对象进行了仔细挑选,以覆盖广泛的工业场景。
3.1.1.2 五种缺陷类型
对于每个对象,我们人工引入了几种类型的缺陷,如划痕、凹痕、裂缝、部件缺失和变形。这种多样性为异常检测营造了真实且具有挑战性的环境。随后,我们为多模态数据采集准备了正常样本和缺陷样本,确保不同缺陷类型的平衡表示。
3.1.2 Prototype Construction 原型构建
3.1.2.1 三种数据的采集:二维RGB、伪三维表面法向和三维数据PC
采集装置是一个集成系统,能够采集同步的二维数据、伪三维表面法向量数据和三维点云数据。如图2所示,该采集系统旨在通过统一的装置采集二维、伪三维和三维数据,确保不同模态数据之间精确对齐且无缝衔接。
①使用一台分辨率为3648×5472像素的高分辨率相机来捕捉详细的RGB图像。
②对于三维数据采集,如图2©所示,采用四向结构光系统获取高精度的三维点云,从而能够检测到精细的表面细节。
③同时应用光度立体技术,通过综合来自四个方向光源的表面法向量来生成伪三维深度信息。
这个集成系统可实现全面的多模态数据采集,提高了缺陷检测的精度和可靠性。
这是 Real-IAD D³ 数据集 的制作流程图,展示了从 “样本准备” 到 “多模态数据产出” 的完整流程。核心是用 结构光 + 光度立体技术 采集 2D、伪 3D、3D 多模态数据,为工业异常检测提供高质量样本。以下是分模块拆解:
1. 模块 (a):材料准备(Material Preparation)
Normal Objects(正常样本):收集 20 类工业部件(如电子连接器、机械零件)的 “无缺陷原始样本”,作为异常检测的 “正常基准”。
Anomaly Objects(异常样本):对正常样本 人工制造缺陷(如划痕、凹痕、裂缝),生成带缺陷的异常样本,模拟真实工业场景。
作用:构建 “正常 - 异常” 样本对,为异常检测模型提供训练数据。
2. 模块 (b):图像采集系统(Image Acquisition Setup)
用 单相机 + 多光源 实现多模态数据采集:
4 - zone Multi - Light Source(四区多光源):通过 “光度立体技术(Photometric Stereo)” 采集 伪 3D 数据。原理是多方向光源照射物体,利用表面亮度变化反推法向量(表面朝向),生成 “带深度信息的 2D增强图”。
4 - Direction DLP Projection(四方向 DLP 投影):用结构光技术采集 3D 点云数据。DLP 投影图案到物体表面,相机捕捉变形图案,计算表面三维坐标。
输出:同步获取 2D 纹理图、伪 3D 法向图、3D 点云,实现多模态对齐。
3. 模块 ©:标注与清洗(Labeling and Cleaning)
Pixel - level Annotation(像素级标注):对采集的多模态数据,人工标注缺陷区域(如红色掩码标记缺陷位置),确保标注精度。
Data Cleaning(数据清洗):过滤低质量数据(如模糊图像、标注错误),保证数据集质量。
4. 模块 (d):多模态数据展示(Multimodal Objects Display)
展示最终产出的 多模态数据:
每行/每列对应同一工业部件的不同模态:
- 2D 图像:常规视觉纹理(颜色、表面细节)。
- 伪 3D 图像:表面法向可视化(颜色编码深度/朝向,突出细微凹凸)。
- 3D 点云:三维结构(精准还原几何形状)。
价值:直观体现多模态互补性(2D 看纹理、伪 3D 看深度、3D 看结构),为异常检测提供全面特征。
5. 整体流程逻辑
“正常/异常样本制备 → 多模态数据采集(结构光 + 光度立体) → 像素级标注清洗 → 多模态数据输出”
核心是用硬件(多光源、DLP 投影)+ 算法(光度立体、结构光重建) 生成高质量多模态工业数据集,解决传统单模态(如仅 2D 图像)检测缺陷的局限性(如深度缺陷难识别)。
从做缺陷样本,到用多光源相机拍 2D/伪 3D/3D图,再标注清洗,最后产出多模态数据集,给工业异常检测研究用 。
3.1.2.2 光度立体过程计算表面法向量
光度立体过程基于在不同光照条件下捕捉对象的图像来计算表面法向量。如图2(b)所示,使用四个不同的光照方向,每个方向都会生成具有不同阴影效果的图像。
然后,通过以下光度立体方程,利用这些图像的强度值来计算每个像素的表面法向量
n
(
x
,
y
)
\mathbf{n}(x, y)
n(x,y):
I
(
x
,
y
)
=
L
⋅
n
(
x
,
y
)
\mathbf{I}(x, y) = \mathbf{L} \cdot \mathbf{n}(x, y)
I(x,y)=L⋅n(x,y)
I
(
x
,
y
)
\mathbf{I}(x, y)
I(x,y)是来自四张图像的给定像素
(
x
,
y
)
(x, y)
(x,y)的强度值向量。
L
\mathbf{L}
L是光照方向矩阵,其每一行代表四个光源之一的方向。
n
(
x
,
y
)
\mathbf{n}(x, y)
n(x,y)是像素位置
(
x
,
y
)
(x, y)
(x,y)处的表面法向量。
在已知强度值
I
(
x
,
y
)
\mathbf{I}(x, y)
I(x,y)和光照方向
L
\mathbf{L}
L的情况下,通过求解以下方程可计算表面法向量
n
(
x
,
y
)
\mathbf{n}(x, y)
n(x,y):
n
(
x
,
y
)
=
(
L
T
L
)
−
1
L
T
I
(
x
,
y
)
\mathbf{n}(x, y) = (\mathbf{L}^T\mathbf{L})^{-1}\mathbf{L}^T\mathbf{I}(x, y)
n(x,y)=(LTL)−1LTI(x,y)
3.2. Comparison with Popular 3D Datasets 与主流三维数据集的比较
表1对真实工业异常检测数据集D³与两个基准数据集(MVTec 3D - AD和Real3D - AD)在几个关键参数上进行了比较概述。
Photometric Stereo:是否支持光度立体(伪 3D 技术)
Multi-modal Sync:多模态数据是否对齐
Multi-Direction DLP:是否支持多方向 DLP 结构光
3.2.1 产品种类和缺陷覆盖范围广
真实工业异常检测数据集D³覆盖范围广泛,包含20个产品类别和69种缺陷类型,样本总数达8450个,远远多于MVTec 3D - AD(10个产品类别、33种缺陷)和Real3D - AD(12个产品类别、40种缺陷)。
3.2.2 点精度更精细
真实工业异常检测数据集D³的一个显著优势在于其精细的点精度可达0.002毫米,超过了MVTec 3D - AD(0.11毫米)和Real3D - AD(0.011 - 0.015毫米)的分辨率和精度。
3.2.3 支持多种三维格式
此外,真实工业异常检测数据集D³支持多种三维格式(ASC、PLY、STL、OBJ、IGES、TIFF ),并采用光度立体技术来增强深度信息,捕捉精细的表面细节。
3.2.4 统一平台采集二维和三维数据,无需额外校准
与MVTec 3D - AD和Real3D - AD不同,真实工业异常检测数据集D³ 在同一平台上采集 RGB数据和三维数据,确保了数据自然对齐,无需额外校准 ,并且支持多方向的数字光处理(DLP)投影,使其成为工业异常检测的宝贵数据集。
这是 Real-IAD D³ 数据集的统计分析图,对比了 MVTec 3D-AD、Real3D-AD,从 “样本数量、缺陷分布、材料覆盖” 三个维度,展示 Real-IAD D³ 在工业异常检测数据多样性和复杂性上的优势。以下分图拆解:
1. 图 (a):正常/异常样本数量对比
- 3D 柱状图:对比 Real-IAD D³、MVTec 3D-AD、Real3D-AD 的 “正常样本数(Normal)” 和 “异常样本数(Anomaly)”。
- Real-IAD D³ 的样本总量(Normal + Anomaly)远高于前两者,且异常样本占比更均衡。
- 说明 Real-IAD D³ 提供了更丰富的训练数据,覆盖更多工业场景。
2. 图 (b):样本面积区间分布
- 折线图:统计 Real-IAD D³ 中样本的 “面积区间分布”(横轴是面积区间,纵轴是样本数量)。
- 曲线峰值集中在 “小面积区间”,说明数据集中 大量样本是小尺寸工业部件(呼应 Real-IAD D³ 专注 “小部件、细缺陷” 的特点 )。
- 这种分布让数据集更贴近真实工业场景(很多缺陷出现在小部件表面),增加检测难度和实用性。
3. 图 ©:材料与缺陷分布
- 左侧散点图(Normal Data):横轴是 20 类工业材料(如耳机插孔、湿度传感器等 ),纵轴是样本数量。每个点代表一类材料的正常样本数,数量稳定(均为 250 左右 ),说明数据集 类别覆盖均匀。
- 右侧散点图(Anomaly Data):横轴是缺陷类型(如划痕、凹坑、变形等 ),纵轴是对应材料类别。不同颜色点代表不同材料,分布分散且覆盖所有缺陷类型,说明:
- 缺陷类型多样:涵盖划痕、凹坑、变形等常见工业缺陷。
- 材料 - 缺陷关联丰富:同一缺陷可能出现在不同材料上,同一材料可能有多种缺陷,模拟真实工业的复杂性。
4. 核心结论
Real-IAD D³ 相比传统数据集,在 “样本规模、小部件覆盖、缺陷多样性” 上更贴近真实工业场景:
- 样本更多、类别更全;
- 聚焦小部件 + 细微缺陷(难检测,但工业中常见 );
- 材料与缺陷的关联更复杂,能有效训练模型应对真实工业异常检测需求。
Real-IAD D³ 样本多、小部件多、缺陷杂,专治工业异常检测的 “数据少、场景单一”问题,让模型练得更狠、用得更稳 。
3.3. Real-IAD D³ visualization 真实工业异常检测数据集D³可视化
3.3.1 20个不同工业产品类别
真实工业异常检测数据集D³包含20个不同的产品类别,涵盖了各种工业部件,如机械零件、电子设备、连接器和传感器。这种多样性能够对不同缺陷类型的异常检测方法进行全面评估。
三种模态数据
每个类别包含三种模态数据:RGB图像、三维点云以及通过光度立体技术得到的伪三维表面法向量,提供了对物体的完整表征。
3.3.2 多模态的优势
如图3所示,这种多模态方法——包括原始图像、带掩码的二维图像、带有掩码的伪三维图像以及三维点云——表明,为了进行全面的缺陷检测,结合伪三维和三维模态数据是必要的。
在深色背景上,由于深度和细节有限,像划痕和凹痕这样的细微缺陷在二维图像中很难识别。
然而,伪三维图像能够揭示这些表面缺陷(例如,在“直流电源连接器”和“电源插座”上),而三维点云则能有效地捕捉较大的几何异常,比如“乐高螺旋桨”和“保险丝座”中的几何异常。
这说明了伪三维和三维数据的互补优势,确保能够准确识别各种规模的复杂缺陷。
4. Benchmark for D³ AD 真实工业异常检测数据集D³的异常检测基准
为应对二维和三维异常检测中的挑战,我们提出了一种名为D³ - Memory(D³M)的全新基准和异常检测框架,该框架整合了二维(RGB)、点云和伪三维光度立体数据。此系统有效利用了每种模态的优势,以增强对表面和结构异常的检测,尤其是那些仅靠传统二维或三维数据难以捕捉的异常。
4.1 Unsupervised Contrastive Feature Fusion 多模态特征提取
4.1.1 DINO提取二维和伪三维,PointMAE提取三维
我们使用DINO(ViT - b/8)(文献[30])来提取关键视觉特征(纹理、颜色、边缘、表面法向量),并利用PointMAE从三维点云数据中捕捉几何和深度特征。
4.1.2 特征融合
4.1.2.1 加强融合二维RGB和伪三维表面法向,引入通道-空间交换
为加强二维数据和光度立体数据的融合,我们在特征融合策略中引入了通道 - 空间交换(Channel - Spatial Swapping, CSS)。该模块在RGB(
X
2
D
X_{2D}
X2D)和光度立体(
X
P
S
X_{PS}
XPS)特征图之间交换10%的通道和空间信息,使视觉特征和几何特征能进行更深度的交互。给定形状为
R
C
×
H
×
W
\mathbb{R}^{C\times H\times W}
RC×H×W的特征图
X
2
D
X_{2D}
X2D和
X
P
S
X_{PS}
XPS,交换定义如下:
X
2
D
s
w
a
p
=
(
1
−
α
)
×
X
2
D
+
α
×
X
P
S
c
↔
s
X
P
S
s
w
a
p
=
(
1
−
α
)
×
X
P
S
+
α
×
X
2
D
c
↔
s
X
s
=
Block
k
×
k
(
X
)
∘
α
s
w
a
p
⊆
X
c
↔
s
\begin{align*} X_{2D}^{swap}&=(1 - \alpha) \times X_{2D} + \alpha \times X_{PS}^{c\leftrightarrow s}\\ X_{PS}^{swap}&=(1 - \alpha) \times X_{PS} + \alpha \times X_{2D}^{c\leftrightarrow s}\\ X^{s}&=\text{Block}_{k\times k}(X) \circ \alpha_{swap} \subseteq X^{c\leftrightarrow s} \end{align*}
X2DswapXPSswapXs=(1−α)×X2D+α×XPSc↔s=(1−α)×XPS+α×X2Dc↔s=Blockk×k(X)∘αswap⊆Xc↔s
4.1.2.2 分块处理,按比例交换块的特征
其中 α = 0.1 \alpha = 0.1 α=0.1为交换比率, ∘ \circ ∘表示复合运算, X c ↔ s X^{c\leftrightarrow s} Xc↔s表示通道 - 空间交换, X s X^{s} Xs包含于 X c ↔ s X^{c\leftrightarrow s} Xc↔s,描述基于内核的空间交换,即将输入划分为 k × k k\times k k×k块,并以 H k × W k \frac{H}{k} \times \frac{W}{k} kH×kW的粒度按比率 α \alpha α交换特征。这就生成了富集特征 X 2 D s w a p X_{2D}^{swap} X2Dswap和 X P S s w a p X_{PS}^{swap} XPSswap ,它们融合了彼此10%的特性,为异常检测创造了更稳健的伪三维表征。
4.2 Unsupervised Contrastive Feature Fusion 无监督对比特征融合
4.2.1 采用M3DM种的特征对齐方法,对交换后的二维特征和三维特征进行对齐
为利用伪三维和三维模态的互补性,我们采用了一种受M3DM(文献[30])启发的融合方法。使用无监督对比学习,我们将交换后的二维(含伪三维)和三维数据特征进行对齐,以学习共享表征,同时保留模态特定细节。对于样本
i
i
i ,以及来自交换后的二维特征图
X
2
D
(
i
,
j
)
X_{2D}^{(i,j)}
X2D(i,j)和三维特征图
X
3
D
(
i
,
j
)
X_{3D}^{(i,j)}
X3D(i,j)的图像块
j
j
j ,我们应用如下对比损失:
L
c
o
n
=
∑
j
=
1
N
p
h
2
D
(
i
,
j
)
⋅
h
3
D
(
i
,
j
)
∑
k
=
1
N
b
∑
j
=
1
N
p
h
2
D
(
k
,
j
)
⋅
h
3
D
(
k
,
j
)
L_{con} = \frac{\sum_{j = 1}^{N_p}h_{2D}^{(i,j)} \cdot h_{3D}^{(i,j)}}{\sum_{k = 1}^{N_b}\sum_{j = 1}^{N_p}h_{2D}^{(k,j)} \cdot h_{3D}^{(k,j)}}
Lcon=∑k=1Nb∑j=1Nph2D(k,j)⋅h3D(k,j)∑j=1Nph2D(i,j)⋅h3D(i,j)
其中
h
2
D
(
i
,
j
)
h_{2D}^{(i,j)}
h2D(i,j)和
h
3
D
(
i
,
j
)
h_{3D}^{(i,j)}
h3D(i,j)是样本
i
i
i中图像块
j
j
j的二维和三维特征的多层感知器(MLP)投影向量。
4.2.2 特征融合产生一个新的D³表征 M D M_D MD:用二维和三维融合得到的
这种融合产生了D³表征 M D M_D MD,促进了不同模态对应图像块之间的联系,捕捉了每种模态的优势。
4.3 Decision Layer Fusion 决策层融合
4.3.1 记忆库的方法
遵循M3DM(文献[30])的方法,我们融合二维(交换后)、伪三维(交换后)和三维特征,创建三个记忆库:
M
2
D
M_{2D}
M2D、
M
P
S
M_{PS}
MPS和融合后的
M
D
M_D
MD 。
这里,
M
2
D
M_{2D}
M2D和
M
P
S
M_{PS}
MPS存储来自交换后的二维和伪三维模态的特征,而
M
D
M_D
MD保存通过对交换后的二维(含伪三维)和三维特征进行对比学习得到的融合表征 。
4.3.2 异常分数
最终的异常分数
a
a
a和分割图
S
S
S通过使用单类支持向量机(SVM)分类器,将测试样本的特征与这些记忆库中的正常特征进行比较而生成:
a
=
D
a
(
ϕ
(
M
2
D
,
f
2
D
)
,
ϕ
(
M
P
S
,
f
P
S
)
,
ψ
(
M
D
3
,
f
D
3
)
)
S
=
D
s
(
ψ
(
M
2
D
,
f
2
D
)
,
ψ
(
M
P
S
,
f
P
S
)
,
ψ
(
M
D
3
,
f
D
3
)
)
\begin{align*} a&=D_a(\phi(M_{2D}, f_{2D}), \phi(M_{PS}, f_{PS}), \psi(M_{D^3}, f_{D^3}))\\ S&=D_s(\psi(M_{2D}, f_{2D}), \psi(M_{PS}, f_{PS}), \psi(M_{D^3}, f_{D^3})) \end{align*}
aS=Da(ϕ(M2D,f2D),ϕ(MPS,fPS),ψ(MD3,fD3))=Ds(ψ(M2D,f2D),ψ(MPS,fPS),ψ(MD3,fD3))
其中
ϕ
(
⋅
)
\phi(\cdot)
ϕ(⋅)和
ψ
(
⋅
)
\psi(\cdot)
ψ(⋅)分别代表异常评分和分割函数。
5. Experiment 实验
5.1. Anomaly Detection on Real-IAD D³ 在真实工业异常检测数据集D³上的异常检测
5.1.1 D³优于2D + 3D
D³优于2D + 3D:表2中的实验结果验证了我们基于D³的多模态异常检测方法在真实工业异常检测数据集(Real - IAD)上的有效性。通过整合二维(RGB)、伪三维和三维模态数据,我们的方法始终优于单模态(二维或三维)以及双模态(2D + 3D)方法,突显了额外模态信息的价值。
5.1.2 单模态方法的局限性
5.1.2.1 2D vs 3D vs 2D+3D
单模态方法存在局限性:二维方法难以检测与深度相关的缺陷,如划痕和凹痕;而三维方法缺乏表面纹理细节。2D + 3D的组合提供了互补信息,但仍会遗漏细微的表面不规则情况。
5.1.2.2 伪三维表面方向:增强对于纹理的检测
我们的D³M方法利用伪三维光度立体数据捕捉表面方向和深度信息,增强了对基于纹理的异常的检测能力。
5.1.3 不同模态的全面可视化比较
图6对不同模态进行了全面的可视化比较,展示了我们的方法在像素级异常检测性能上的显著提升,远超仅利用二维和三维数据的M3DM基准方法。
通过纳入伪三维信息,我们的方法捕捉到了更丰富的表面纹理和更精细的深度细节,能够更精确地识别可能被忽略的细微缺陷。这种提升突显了在多模态框架中整合伪三维特征的价值,为工业应用中复杂且精细的异常检测提供了更强大的解决方案。
5.2. Analysis of Modality Combinations 模态组合分析
5.2.1 不同方法在不同模态组合下的异常检测性能
表3对使用PatchCore、M3DM和D³M时,不同模态组合下的异常检测性能(I - AUROC和P - AUROC )进行了对比分析。通过整合二维、伪三维和三维数据,我们的方法取得了最高性能。
5.2.2 伪三维和三维的重要性
值得注意的是,2D + 伪三维的组合通过捕捉关键表面细节,已展现出出色的结果,而加入三维数据进一步增强了深度信息,提升了检测准确率。这些结果突显了伪三维在多模态融合中的重要性,以及三维数据在稳健的工业异常检测中所起的互补作用。
5.2.3 各种模态组合的可视化结果
在图7中,我们展示了各种模态组合的可视化结果,进一步验证了实验发现。伪三维模态有效地突出了表面不规则性,特别是细微纹理和微小表面缺陷,而加入二维数据增强了这些细节的清晰度。2D + 伪三维组合捕捉到了关键表面特征,取得了如表格所示的出色结果。纳入三维数据增加了有价值的深度信息,使我们的D³M模型达到最高的准确率。
5.3. Effect of Point Cloud Resolution 点云分辨率的影响
5.3.1 数据集中的部件种类尺寸小,导致全分辨率下可见的细微瑕疵在40倍下采样下难以检测
如图8所示,我们对点云数据进行了下采样实验,将原始分辨率分别降低4倍和40倍,以模拟Real3D - AD和MVTec 3D - AD的分辨率。由于我们的部件尺寸约为MVTec 3D - AD和Real3D - AD中部件尺寸的十分之一,较低的分辨率会显著妨碍缺陷检测。观察不同尺度(原始、4倍下采样、40倍下采样)的性能,在全分辨率下清晰可见的细微瑕疵,在40倍下采样时变得难以检测或完全消失,这强调了在涉及较小部件的工业场景中,需要高分辨率=数据来捕捉精细细节。
表4中的结果表明,点云数据下采样会导致性能明显下降,尤其是对于“划痕”和“凹坑”等小面积缺陷。对于这些受影响面积小于0.1%的缺陷,分辨率降低会显著削弱检测能力。
5.3.2 插值模块对结果的影响
表5展示了使用M3DM(DINO + PointMAE,文献[30] )时,插值模块对MVTec 3D - AD和真实工业异常检测数据集D³中异常检测性能的影响。M3DM插值模块在骨干网络提取特征后,通过插值提高三维点云特征的密度和表征能力。
实验结果表明,在MVTec 3D - AD数据集中,移除插值模块会导致像素级AUROC显著下降(下降0.111 ),表明其对维持特征密度和提取质量的贡献。
然而,在本身具有更高分辨率点云的真实工业异常检测数据集D³中,即使没有插值,像素级AUROC仍保持稳定。这证实了高分辨率点云在骨干网络特征提取后仍能保持其原始特征完整性,无需插值。
6. Conclusion 结论
总之,本研究引入了真实工业异常检测数据集D³,这是一个高精度、大规模的多模态数据集,它整合了RGB、三维点云以及伪三维数据,以解决现有工业异常检测(IAD)数据集存在的局限性。真实工业异常检测数据集D³涵盖20个产品类别及多样的缺陷类型,在规模、分辨率和多样性上进行了提升,真实地呈现了工业场景。伪三维图像的纳入完善了表面和深度细节信息,显著提高了检测精度。实验结果表明,当前的方法在复杂工业环境中面临挑战,这凸显了对更强大解决方案的需求。真实工业异常检测数据集D³及其基准为推动多模态方法在工业应用中的工业异常检测发展奠定了坚实基础。
Acknowledgements 致谢
本研究工作部分得到了中国国家自然科学基金(项目编号:62171139和62302296 )以及上海市科技项目(项目编号:24YF2716900 )的资助。
附录
A. Expanded Details of the Real-IAD D³ Dataset 真实工业异常检测数据集D³的扩展细节
A.1 更小的材料尺寸
表A1展示了真实工业异常检测数据集D³中所包含材料的尺寸。与现有数据集(如MVTec 3D - AD和Real3D - AD)相比,真实工业异常检测数据集D³中的部件尺寸明显更小,这给异常检测任务带来了独特的挑战。具体而言,该数据集中材料的长度范围为7毫米至27毫米,宽度范围为5毫米至25毫米,高度大多低于15毫米。这些紧凑的尺寸为检测细微缺陷增添了额外难度,因为异常通常仅占材料表面的一小部分,一般不到3%,在某些情况下甚至低至0.46% 。
A.2 源自真实的工业部件,材料类型和几何形状具有多样性
此外,数据集中的材料源自实际工业部件,包括电子设备、机械零件和连接器。示例包括湿度传感器、音频插孔、叉形压接端子和以太网连接器。材料类型和几何形状的这种多样性确保了数据集对工业应用具有实际相关性,反映了异常在外观和位置上可能存在显著差异的真实场景。
A.3 检测任务难度增加:小材料尺寸结合细粒度缺陷
小材料尺寸与细微缺陷(如划痕、凹痕和凹坑)的结合,大幅增加了异常检测任务的难度。这些缺陷往往难以察觉,需要高分辨率成像和精确算法来捕捉表面纹理和几何形状的细微变化。因此,真实工业异常检测数据集D³为推进复杂工业场景下的多模态异常检测提供了严格的基准。
B. Analysis of Additional Defects and Modalities in Real-IAD D³ Dataset 真实工业异常检测数据集D³中额外缺陷及模态的分析
B.1 前十个产品类别的缺陷示例及其对应的掩码的可视化
图A1展示了前十个产品类别的缺陷示例及其对应的掩码。这些示例体现了材料的多样性以及数据集中缺陷标注的高精度。所展示的部件涵盖从电子连接器到机械零件,包含各种表面异常类型,如划痕、凹痕和裂缝。提供的掩码精准勾勒出缺陷区域,这对于异常检测模型的监督训练和客观评估都是必不可少的。
B.2 另外十个产品类别的缺陷及掩码的可视化
图A2补充了上述内容,呈现了另外十个产品类别的缺陷及掩码的更多示例。这些类别具有更广泛的几何形状和纹理多样性,使检测任务更复杂。标注仍保持着高精度,为检测算法的稳健训练和可靠基准测试提供支持。详细标注与多样材料的结合,让该数据集成为评估真实工业场景中异常检测方法的出色基准。
B.3 数据集的多模态方法
图A3突出了数据集的多模态方法,展示了二维图像、伪三维数据和三维点云的融合。
①二维图像提供表面纹理、颜色变化等关键视觉细节,对识别表面划痕等浅缺陷有效。
②伪三维数据捕捉深度变化,适用于检测在标准二维图像中难以察觉的凹痕等表面不规则情况。
③最后,三维点云提供精确的几何信息,对于定位裂缝或变形等结构缺陷不可或缺。
这些模态相互补充,为工业应用中各类异常的检测提供了全面框架。
C. Imaging Report Analysis 成像报告分析
C.1 不同成像模态的对比
图A4和图A5展示了使用所提出的四目结构光系统开展实验生成的成像报告,以及其与其他替代成像模态的对比。
这些报告全面评估了该系统在捕捉表面细节、解决遮挡问题以及重建工业部件精确三维模型方面的能力。