一、声明
- MVTec 3D-AD数据集下载网址:https://www.mvtec.com/company/research/datasets/mvtec-3d-ad/downloads
- 注意MVTec 3D AD和MVTec AD是两个不同的数据集
- mvtec_3d_anomaly_detection.tar.xz:这是MVTec 3D AD的数据集压缩文件
- mvtec_anomaly_detection.tar.xz: 这是MVTec AD的数据集压缩文件
二、基本信息介绍
- 包含4147模型
- 10个类:bagel、cable gland、carrot、cookie、dowel、foam、peach、potato、rope、tire
三、数据集目录
├── bagel
│ ├── calibration
│ │ └── camera_parameters.json:包含了相机的内参参数
│ ├── class_ids.json
│ ├── license.txt
│ ├── readme.txt
│ ├── test:包含了不同类型异常点的子文件夹,每个子文件夹包括gt、rgb和xyz
│ │ ├── combined
│ │ │ ├── gt:包含png文件,每个png中的像素值代表是否异常点(是个二值图),即真值标签
│ │ │ ├── rgb:包含了有颜色的png文件
│ │ │ └── xyz:包含了tiff文件,即xyz值
│ │ ├── ...
│ │ └── hole
│ ├── train
│ │ └── good
│ └── validation
│ └── good
├── cable_gland、carrot、cookie、dowel、foam、peach、potato、rope、tire:子目录结构同bagel
├── license.txt
└── readme.txt
四、简介
MVTec 3D-AD数据集是用于异常检测的计算机视觉数据集。该数据集包含来自工业生产中不同材料和产品的图像,包括玻璃、塑料、纺织品等。每个类别都包含正常样本和异常样本。这些异常样本包括各种常见的生产缺陷,如划痕、裂纹、凹陷等。MVTec AD数据集旨在帮助研究人员和从业者开发和评估用于检测工业制造中物体缺陷的算法和系统。
五、每类模型训练集/验证集/测试集个数
train / validation / test | combined | contamination | crack | good | hole | cut | bent | thread | open | color | 合计 |
---|---|---|---|---|---|---|---|---|---|---|---|
bagel | 0/0/23 | 0/0/22 | 0/0/22 | 244/22/22 | 0/0/21 | 0/0/0 | 0/0/0 | 0/0/0 | 0/0/0 | 0/0/0 | 244/22/110 |
cabel gland | 0/0/0 | 0/0/0 | 0/0/0 | 223/23/21 | 0/0/22 | 0/0/22 | 0/0/21 | 0/0/22 | 0/0/0 | 0/0/0 | 223/23/108 |
carrot | 0/0/27 | 0/0/27 | 0/0/26 | 286/29/27 | 0/0/26 | 0/0/26 | 0/0/0 | 0/0/0 | 0/0/0 | 0/0/0 | 286/29/159 |
cookie | 0/0/25 | 0/0/25 | 0/0/27 | 210/22/28 | 0/0/26 | 0/0/0 | 0/0/0 | 0/0/0 | 0/0/0 | 0/0/0 | 210/22/131 |
dowel | 0/0/26 | 0/0/26 | 0/0/0 | 288/34/26 | 0/0/0 | 0/0/25 | 0/0/27 | 0/0/0 | 0/0/0 | 0/0/0 | 288/34/130 |
foam | 0/0/20 | 0/0/20 | 0/0/0 | 236/27/20 | 0/0/0 | 0/0/20 | 0/0/0 | 0/0/0 | 0/0/0 | 0/0/20 | 236/27/100 |
peach | 0/0/25 | 0/0/27 | 0/0/0 | 361/42/26 | 0/0/29 | 0/0/25 | 0/0/0 | 0/0/0 | 0/0/0 | 0/0/0 | 361/42/132 |
potato | 0/0/23 | 0/0/23 | 0/0/0 | 300/33/22 | 0/0/23 | 0/0/23 | 0/0/0 | 0/0/0 | 0/0/0 | 0/0/0 | 300/33/114 |
rope | 0/0/0 | 0/0/25 | 0/0/0 | 298/33/32 | 0/0/0 | 0/0/27 | 0/0/0 | 0/0/0 | 0/0/17 | 0/0/0 | 298/33/101 |
tire | 0/0/5 | 0/0/28 | 0/0/0 | 210/29/25 | 0/0/27 | 0/0/27 | 0/0/0 | 0/0/0 | 0/0/0 | 0/0/0 | 210/29/112 |
六、疑问
(1)为什么MVTec 3d AD数据集的train文件夹下没有gt的标签信息?
在许多异常检测的数据集中,特别是在无监督学习的上下文里,训练数据通常只包含正常样本而不包含任何异常样本或其对应的标签信息。这种设计理念基于以下几点考虑:
-
无监督学习:异常检测任务常常采用无监督学习方法,目的是让模型学习到正常数据的分布,以便在测试阶段识别出偏离这种分布的异常样本。因此,训练阶段不需要异常样本的标签信息。
-
正常样本的假设:在实际应用中,尤其是工业质量控制,往往假设可获得的训练数据主要是正常的,异常样本稀少或难以获得。因此,数据集设计反映了这一实际情况,以便更好地模拟真实世界的应用场景。
-
泛化能力:通过仅使用正常样本进行训练,模型需要学会从正常数据的内在特征中识别出异常,这有助于提高模型对未见异常类型的泛化能力。
因此,在MVTec 3D-AD数据集的训练文件夹下没有提供异常样本的标签信息(即“ground truth”),是因为这样设计可以使模型在学习阶段只对正常样本建模,进而在测试阶段识别那些与训练阶段不同的、异常的数据点。然而,对于测试集,提供异常样本及其相应的标签信息是必要的,以便评估模型在实际异常检测任务中的性能表现。
(2)md5sum码是多少?有时候数据包下载不完全导致无法解压
答:d8bb2800fbf3ac88e798da6ae10dc819