基于ViT的无监督工业异常检测模型汇总
-
- 论文1:VT-ADL: A Vision Transformer Network for Image Anomaly Detection and Localization(2021)
- 论文2:Inpainting Transformer for Anomaly Detection(2021)
- 论文3:UTRAD: Anomaly Detection and Localization with U-Transformer(2022)
- 论文4:ADTR: Anomaly Detection Transformer with Feature Reconstruction(2022)
- 论文5:A Unified Model for Multi-class Anomaly Detection(2022)—— 多分类无监督异常检测统一模型
- 论文6:Exploring Plain ViT Features for Multi-class Unsupervised Visual Anomaly Detection(2024)- 多分类无监督异常检测统一模型
- 7. 总结
论文1:VT-ADL: A Vision Transformer Network for Image Anomaly Detection and Localization(2021)
1.1 主要思想
所提出的模型结合了传统的基于重建的方法和基于补丁的方法的优势。输入图像被细分为块,并使用 Vision Transformer 进行编码。然后将生成的特征馈送到解码器中以重建原始图像,从而使网络学习代表正常图像方面的特征(网络训练的唯一数据)。同时,高斯混合密度网络对 transformer 编码特征的分布进行建模,以估计该潜在空间中正常数据的分布。使用此模型检测异常会自动允许其定位,因为 transformer 编码的特征与位置信息相关联。
1.2 系统框架
使用基于重建的方法在全局级别检测到异常,通过应用于编码图像块的高斯混合模型进行定位。
论文2:Inpainting Transformer for Anomaly Detection(2021)
2.1 主要思想
区别与CNN,该论文作者采取基于自注意力机制的纯Transformer结构,将异常检测问题转换为图像覆盖修补问题。其解决方案实质上是基于图像重构的,其创新点在于采取自注意力机制进行全局的图像重建,重建后的图像与原图进行对比,差异部分就是异常部分。关于如何重建,还是由仅通过正常样本的训练得到的重建网络做到的。
2.2 模型架构
- 每个Transformer块的输入输出都是一个序列(左侧)
- inmatic 网络架构由一些简单的 Transformer 块堆栈组成。每个Transformer 由 MFSA 和多层感知器 (MLP) 组成。(右侧)
- 对最后一个Transformer块的输出序列进行了平均,得到了一个向量,该向量用于通过映射得到扁平化的补丁像素空间。
对这些Transformer块进行训练,可以根据相邻的补丁对覆盖的图像块进行很好的修复。
推理和检测部分的实施过程是先生成完整的修复图像,然后使用重建后的图像和原始之间的差异来计算像素级异常图。
论文3:UTRAD: Anomaly Detection and Localization with U-Transformer(2022)
3.1 主要思想
该篇论文的解决方案实质上还是基于图像重构的方式,针对重建方式的不稳定和调整困难,以及采用大数据集预训练网络特征空间泛化能力差的问题,研究者采用了一些新颖的思想去改进:
- 为避免预训练模型特征表示的不稳定性,在训练时采用冻结骨干网进行训练;
- 为更好的估计深度特征,采用特征级别进行重建(重要结论:正常样本和异常样本在特征空间中更容易区分);
- 构建了一个基于Transformer的多级自动编码器作为重建网络,利用提取到的正常样本的特征进行了训练;
- 加入了Transformer注意力模块,全局信息可以得到很好聚合,模型更具泛化能力;
- 考虑网络性能,降低计算成本,在构建时采用U型的Transfo