4 实验
4.1 设置:数据集、指标和细节
数据集(6个)
1.MVTec-AD:
包含5种类型的纹理和10种类型的对象,总共5,354张高分辨率图像。
实验:
3,629张正常图像被指定为训练。
剩下的 1,725 张图像被保留用于测试,包括正常和异常样本。
2.VisA:
特点:
12 个不同的对象,结合了三种不同的类型:复杂结构、多个实例和单个实例
构成:
由总共10,821张图像组成,其中9,621为正常样本,1200为异常样本。
3.Real-IAD:
特点:
- 30 个不同类别的对象
- 150K 高分辨率图像
构成:
由99,721张正常图像和51,329张异常图像组成
其余数据集:MVTec-3D +MVTec-3D + COCO-AD
指标
异常检测和分割:
分图像级 和 像素级
- 接收器工作特征曲线下面积 (AU-ROC)
- 平均精度 [44] (AP)
- F1-score-max [52] (F1_max)
异常分割(像素级)
- AU-PRO
mAD:
计算上述七个评估指标(表示为 asmAD)的平均值 —》模型的综合能力
细节
图片:
把所有输入图像的大小都调整为 256 × 256 的均匀大小,无需额外的增强一致性
Mamba 解码器:
第二个 LSS 模块中的级联 HSS 块数设置为 2
而所有其他 LSS 模块采用 3 个级联 HSS 块
希尔伯特扫描技术,利用八个不同的扫描方向
具体设置:
- AdamW优化器
- 学习率为0.005
- 衰减率为1 × 10−4
- 该模型在单个NVIDIA TESLA V100 32GB GPU上进行多类设置的训练周期为500 epoch。
训练:
损失函数:不同尺度的 MSE 之和
测试:
在测试阶段,利用不同尺度的余弦相似度之和作为异常图。
解释:
我们会在各种不同的放大倍数下观察照片,看看哪些地方与正常的产品不一样,然后把这些信息综合起来,生成一张显示异常区域的地图。这样,我们就能快速找出照片中的问题部分了1。
专业词解释:
不同尺度:这就像是我们用放大镜在不同的放大倍数下观察这些产品。有时候,我们需要近距离看细节(高尺度),有时候需要远距离看整体(低尺度)。 这里是额外的注释 。
2 余弦相似度:这是一种方法,用来衡量两个东西有多相似。想象你和一个朋友同时在两个不同的滑梯上往下滑,如果你们下滑的方式很相似,那么我们就说这两个滑梯的“余弦相似度”很高。
3 异常图:这是一张特殊的地图,用来告诉我们照片中哪些地方看起来不正常。如果某个地方在不同放大倍数下与正常情况的相似度都很低,那么这个地方就会被标记为异常。 ↩︎