工业异常检测最新文章整理

DreamHigh_GRT

已于 2024-07-17 13:31:15 修改

阅读量719

点赞数 4

文章标签：视觉检测

于 2023-11-11 21:34:03 首次发布

本文链接：https://blog.csdn.net/weixin_37501173/article/details/134045107

版权

论文综述了多模态工业异常检测的最新进展，包括使用混合融合技术的M3DM、基于视觉语言模型的AnomalyGPT以及减少偏见的REB方法。这些研究通过深度学习和跨模态数据增强提高检测准确性和鲁棒性。

摘要由CSDN通过智能技术生成

CVPR

DeSTSeg	用于异常检测的分割引导的教师-学生降噪
EfficientAD	毫秒级延迟的准确视觉异常检测
VAND	零次异常检测第一名和少次异常检测第四名
WinCLIP	零次/少次异常分类和分割
SimpleNet	用于图像异常检测和定位的简单网络
Multimodal Industrial Anomaly Detection via Hybrid Fusion	这篇论文提出了一种新的多模态工业异常检测方法Multi-3D-Memory(M3DM)，通过混合融合点云和RGB图像两种模态的数据，首先使用无监督特征融合和局部对比学习来增进不同模态特征的交互，然后使用决策层融合、多个记忆库和额外的新颖性分类器进行最终决策。论文还提出了点特征对齐操作来更好地对齐两种模态的数据。

2023 Explicit Boundary Guided Semi-Push-Pull Contrastive Learning for Supervised Anomaly Detection 监督异常检测的显式边界引导半推拉对比学习

方法基于两个核心设计：首先，我们找到一个显式和紧凑的分离边界作为进一步的特征学习的指导。由于边界仅依赖于正态特征分布，因此可以缓解由少数已知异常引起的偏差问题。其次，提出边界引导半推拉损失，只将正常特征拉在一起，同时将异常特征从分离边界推出一定边缘区域。这样，我们的模型就可以形成一个更明确、更有区别的决策边界，从而更有效地从正常样本中区分已知和不可见的异常。提出了一种新的边界引导异常检测（BGAD）模型。
在这里插入图片描述
I-auroc 0.993±0.0012 p-auroc 0.992±0.0007

A Zero-/Few-Shot Anomaly Classification and Segmentation Method for CVPR 2023 VAND Workshop Challenge Tracks 1&2: 1st Place on Zero-shot AD and 4th Place on Few-shot AD

对于零射击轨迹，我们提出了一个基于CLIP模型的解决方案，通过添加额外的线性层。这些层用于将图像特征映射到联合嵌入空间，以便能够与文本特征进行比较，生成异常映射。此外，当参考图像可用时，我们利用多个内存库存储其特征，并在测试阶段与测试图像的特征进行比较。
在这里插入图片描述
在VAND异常检测比赛中，利用一个修改后的VisA [19]数据集来评估不同模型的有效性。在零射击轨道中，根据挑战规则，模型可以在任何允许的数据集上进行训练和预训练，但VisA [19]的训练和测试集除外。由于新引入的线性层的训练依赖于地面-真实异常图，文章使用MVTec AD 数据集的测试集。2)在少镜头的轨道中，我们合并了线性层，而没有使用参考图像进行任何额外的微调。

2022 Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection

异常检测的自监督预测卷积注意块
在这些成功的异常检测方法中，有一类独特的方法依赖于预测掩蔽信息（如补丁、未来帧等）。并利用对掩蔽信息的重构错误作为异常评分。与相关方法不同的是，我们提出将基于重构的功能集成到一个新的自我监督预测建筑构建块中。所提出的自监督块是通用的，可以很容易地纳入各种最先进的异常检测方法。我们的块从一个带有扩张滤波器的卷积层开始，其中接受野的中心区域被掩盖了。生成的激活映射通过一个通道注意模块传递。我们的块配备了一个损失，最小化重建误差相对于接受野的屏蔽区域。我们通过将其集成到几个最先进的图像和视频异常检测框架中，证明了我们的块的通用性
在这里插入图片描述
自我监督预测卷积注意块（SSPCAB）。对于每个应用扩张卷积滤波器的位置，块学习使用上下文信息重建掩蔽区域。信道注意模块通过利用全局信息选择性地强调或抑制重构图来进行特征重新校准。通过重建误差进行异常定位。

2022 Anomaly Detection via Reverse Distillation from One-Class Embedding

反向蒸馏异常检测
在这里插入图片描述
我们提出了一个新的T-S模型，由教师编码器和学生解码器组成，并相应地引入了一个简单而有效的“反向蒸馏”范式。学生网络不是直接接收原始图像，而是以教师模型的单类嵌入作为输入和目标来恢复教师的多尺度表示。本质上，本研究中的知识蒸馏从抽象的、高级的演示开始到低级的特征。此外，我们在我们的T-S模型中引入了一个可训练的单类瓶颈嵌入（OCBE）模块。所得到的紧凑嵌入有效地保留了正常模式的基本信息，但放弃了异常扰动。
是一种教师学生网络非相似性结构。在提出的T-S模型中，可以将教师编码器作为降采样滤波器，学生解码器作为上采样滤波器。“反向结构”避免了我们上面讨论过的由非区分滤波器[33]引起的混淆。紧凑性的嵌入。输入给学生解码器的低维嵌入可以作为正常模式恢复的信息瓶颈。让我们将异常特征表示为对正常模式的扰动。然后，紧凑的嵌入有助于阻止这种异常扰动对学生模型的传播，从而提高了T-S模型在异常情况上的表示差异。值得注意的是，传统的基于ae的方法[5,11,16,26]利用像素差异来检测异常，而我们使用密集的描述性特征进行识别。深度特征作为区域感知描述符提供了比每像素更有效的鉴别信息。
提出了一个单类瓶颈嵌入模块，将教师的高维特征投影到一个紧凑的单类嵌入空间中。这一创新有助于保留丰富而紧凑的代码，为学生进行无异常表示恢复
在这里插入图片描述

I-auroc average 98.5

2018 Adversarially Learned One-Class Classifier for Novelty Detection

基于对抗学习与单类分类器的新颖性检测
受生成对抗网络在无监督和半监督设置下训练深度模型的成功启发，我们提出了一种单类分类的端到端架构。体系结构由两个深度网络组成，每个网络都通过相互竞争进行训练，以协作理解目标类中的底层概念，然后对测试样本进行分类。一个网络作为新颖性检测器，而另一个网络通过增强初始样本和扭曲异常值来支持它。从直觉上看，增强的内部值和扭曲的离群值的可分性比决定原始样本要好得多。
在这里插入图片描述
一类分类框架的结构概述。R和D是模型的两个模块，它们是反向学习的。R被优化以重建属于目标类的样本，而它作为离群值输入的抽取函数，而D对输入数据的正（目标）和负（离群值或异常）进行分类。D（R(X)）度量给定的输入样本属于目标类的可能性。

IJCAI

NeurIPS

A Unified Model for Multi-class Anomaly Detection	用于多类异常检测的统一模型

2018 Generative Probabilistic Novelty Detection with Adversarial Autoencoders

具有对抗性自动编码器的生成概率新颖性检测
在这里插入图片描述
用于流形学习的网络的体系结构。它是基于训练一个对抗性的自动控制器（AAE）[14]。与[43,11]类似，它有一个额外的对抗性组件，以提高解码图像的生成能力和更好的流形学习。AAE和鉴别器Dx的架构层。

ICLR

ICCV

2021 DRÆM – A discriminatively trained reconstruction embedding for surface anomaly detection 一种用于表面异常检测的经过鉴别训练的重建嵌入

除了重构方法外，本文还将表面异常检测主要转化为一个判别问题，并提出了一种经过判别训练的重构异常嵌入模型（DRÆM）。该方法学习异常图像的联合表示及其无异常重建，同时学习正常和异常例子之间的决策边界。该方法可以直接异常定位，而不需要网络输出的复杂后处理，可以使用简单和一般的异常模拟进行训练。
在这里插入图片描述
自动编码器过度泛化到异常，而判别方法过度拟合到合成异常，而不能泛化到真实数据。我们的方法利用模拟的异常联合学习重构子空间和重构空间上的超平面，从而更好地推广到实际异常。（意在使用重构子空间提供一个更好更加紧致的正常特征表示，以便找到有效的分离边界）
在这里插入图片描述
I-auroc 98 p-auroc 97.3

ECCV

IEEE Transactions on Image Processing

2024 COFT-AD: COntrastive Fine-Tuning for Few-Shot Anomaly Detection

用于少镜头异常检测的精确微调
现有的异常检测（AD）方法通常依赖于大量的无异常数据来训练表示和密度模型。然而，在推理阶段之前，大型无异常数据集可能并不总是可用；在这种情况下，异常检测模型只能用少数正常样本，a.k.a.少量异常检测（FSAD）。在本文中，我们提出了一种新的方法来解决FSAD的挑战，它包含了两个重要的技术。首先，我们在一个大的源数据集上使用一个预先训练过的模型来初始化模型的权重。其次，为了改善源域和目标域之间的协变量偏移，我们采用对比训练对少量目标域数据进行微调。为了学习适合下游AD任务的表示，我们还加入了跨实例的正对，以鼓励正常样本的紧密集群，以及负对，以更好地分离正常和合成的负样本。我们评估了在3个受控制的AD任务和4个真实世界的AD任务上的少镜头异常检测，以证明该方法的有效性。
在这里插入图片描述

非最新顶会优秀论文

2024 Do LLMs Understand Visual Anomalies? Uncovering LLM’s Capabilities in Zero-shot Anomaly Detection llm能理解视觉异常吗？揭示了LLM在零镜头异常检测中的能力

在这里插入图片描述
ALFA的概述，一个无训练的零射击的VAD模型，专注于视觉-语言的协同作用。第一个和第三个提示由LLM生成，分别描述正常和异常图像。然而，第二个提示显示了一个模糊的描述，这给准确确定图像标签带来了挑战，这种现象被称为跨语义歧义。
在这里插入图片描述
具有运行时提示自适应策略的ALFA工作流，该策略生成信息提示，并通过上下文评分机制对每个图像自适应地管理提示集合，通过避免了跨语义歧义的提示出现，从而将正常提示和异常提示区分开。引入了一种细粒度对准器，将对准投影从全局推广到局部，以实现精确的异常定位。

CLIP3D-AD: Extending CLIP for 3D Few-Shot Anomaly Detection with Multi-View Images Generation 扩展CLIP使用三维多视图图像生成进行异常检测

少镜头异常检测方法可以有效地解决工业场景中的数据采集困难。与二维少镜头异常检测（2D-FSAD）相比，三维少镜头异常检测（3D-FSAD）仍是一项尚未探索但必不可少的任务。本文提出了CLIP3D-AD，一种有效的CLIP3D-FSAD方法，成功地将CLIP的强泛化能力转移到3D-FSAD中。具体来说，本文在给定的正常图像上合成异常图像作为样本对，以适应CLIP进行三维异常分类和分割。在分类方面，引入了一个图像适配器和一个文本适配器来微调全局视觉特征和文本特征。同时，我们提出了一种从粗到细的解码器来融合和促进CLIP的中间多层视觉表示。为了从点云的几何信息中获益，消除CLIP处理时的模态和数据差异，我们将点云投影和渲染为多视角的正常和异常图像。然后设计了多视图融合模块来融合由CLIP提取的多视图图像的特征，用于促进视觉表示，从而进一步增强视觉-语言相关性。大量实验表明，该方法在MVTec-3D AD数据集上具有三维少镜头异常分类和分割性能。
在这里插入图片描述
CLIP3D-AD的框架。在训练阶段，将给定的正常图像的异常图像合成为正样本。我们使用冻结的CLIP图像编码器𝑓（·）提取全局和局部的视觉特征，并使用冻结的CLIP文本编码器𝑔（·）提取正常和异常的文本特征。然后，我们引入了图像适配器𝐴𝑓（·）和两个文本适配器𝐴𝑐𝑔（·）和𝐴𝑠𝑔（·）来适应CLIP的原始表示。同时，我们将点云投影和渲染为多视图图像，并使用多视图融合模块来融合由CLIP提取的多视图视觉特征。我们使用融合的多视图特征来增强视觉表示。

AnomalyDINO: Boosting Patch-based Few-shot Anomaly Detection with DINOv2

一种基于DINOv2的少样本图片级异常检测算法
在计算patch距离时使用Cos距离
在这里插入图片描述

2023 Anomaly Detection with Conditioned Denoising Diffusion Models

基于条件去噪扩散模型的异常检测
MVTEC I-auroc 99.8 VisA I-auroc 98.9
在本文中，证明了普通扩散模型不适用于异常检测任务。因此，我们就做出了以下贡献。首先，我们提出了一种条件反射机制，它指导去噪过程来修改每个扰动图像，直到它接近一个正常的目标图像。这种调节机制使MVTec [4]和VisA [55]上的Image AUROC分别从85.7%提高到92.4%，从87.0%提高到94.1%。其次，对重建和输入图像的像素级和特征级比较的结合可以提高检测和定位精度。第三，引入了一种无监督域自适应技术，将预先训练的特征提取器的域转移到手头的问题。为此，去噪管道生成与目标图像相似的图像。然后，通过最小化提取的特征与两幅图像的距离，对预先训练好的特征提取器进行微调。为了避免预先训练好的网络的灾难性遗忘，算法使用了一个冻结的特征提取器的蒸馏损失。其领域自适应技术在保持通用性和学习新领域的同时，在重建过程中灌输了名义变化的不变性。这种领域适应的特征比较进一步提高了MVTec和VisA上的Image AUROC值分别为99.8%和98.9%。
在这里插入图片描述

2024 Absolute-Unified Multi-Class Anomaly Detection via Class-Agnostic Distribution Alignment

通过类不可知分布对准的绝对统一多类异常检测

提出了类不可知分布对齐（CADA），在不知道类信息的情况下对齐每个隐式类的不匹配分数分布，从而实现了对所有类和样本进行统一的异常检测。CADA的本质是预测每个类的正态样本的分数分布，给定的任何图像，正态或异常，在这个类。作为一个一般的组件，CADA可以激活几乎所有的UAD方法的潜力。
在这里插入图片描述

第一行：当三类混合时，不能分离正常样本和异常样本。第二行：对于每一类，异常分数由正常样本的平均值（uc）和最大值（γc）归一化；因此，统一分布是可分离的。在绝对统一的设置下，uc和γc不能被定向计算，因为图像是“匿名的”。CADA可以在不知道图像类的情况下估计和对齐分布。
在这里插入图片描述
绝对统一UAD的异常评分对齐。(a)类感知的。在培训和测试阶段提供课程标签。(b)类感知的。课程标签仅在培训阶段提供。©类-不可知论者。没有提供类标签（CADA)

DMAD: Dual Memory Bank for Real-World Anomaly Detection

双记忆库增强表示学习的异常检测

由于统一模型的泛化能力和存储效率，被认为更适合于实际的工业异常检测场景。然而，这种只使用正常数据的多类设置忽略了现实世界中少数但重要的可访问的注释异常。为了解决现实世界中异常检测的挑战，我们提出了一个新的框架，称为双记忆库增强表示学习的异常检测（DMAD）。该框架在一个统一的（多类）设置中处理无监督和半监督的场景。DMAD采用双存储库来计算正常模式和异常模式之间的特征距离和特征注意，从而封装了关于正常实例和异常实例的知识。然后利用这些知识构建异常分数学习的增强表示。
在这里插入图片描述

MemSeg: A semi-supervised method for image surface defect detection using differences and commonalities

2022 Engineering applications of artificial intelligence
半监督工业图像表面缺陷检测新方法

Image Anomaly Detection and Localization with Position and Neighborhood Information

2022 arxiv

Masked Swin Transformer Unet for Industrial Anomaly Detection

2023 顶刊 IEEE Transactions on Industrial Informatics
论文提出了用于工业异常检测的Swin transformer Unet，该方法首先在无异常样本上利用异常模拟和蒙版策略生成模拟异常，然后利用Swin Transformer的全局学习能力预测蒙版区域，最后采用卷积Unet网络进行端到端异常检测。

Towards Total Recall in Industrial Anomaly Detection-Patch core

2022 CVPR
在大规模工业制造中，识别缺陷零部件至关重要。本文解决"冷启动问题"，仅使用正常图像来建模。论文提出PatchCore，利用最具代表性的正常图像块特征，实现了卓越的检测和定位性能。在MVTec AD基准测试上，PatchCore的异常检测表现超过了其他方法。

AnomalyGPT: Detecting Industrial Anomalies using Large Vision-Language Models

中科院 2023 arxiv
https://arxiv.org/pdf/2308.15366v3.pdf
大型视觉语言模型（LVLMs），如MiniGPT-4和LLaVA，已经证明了理解图像的能力，并在各种视觉任务中取得了显著的性能。尽管由于大量的训练数据集，他们在识别常见对象方面有很强的能力，但他们缺乏特定的领域知识，对对象内的局部细节理解较弱，这阻碍了他们在工业异常检测（IAD）任务中的有效性。另一方面，大多数现有的IAD方法只提供异常分数，并且需要手动设置阈值来区分正常样本和异常样本，这限制了它们的实际实施。在本文中，我们探索了利用LVLM来解决IAD问题，并提出了一种新的基于LVLM的IAD方法AnomalyGPT。我们通过模拟异常图像并为每个图像生成相应的文本描述来生成训练数据。我们还使用图像解码器来提供细粒度语义，并设计一个提示学习器来使用提示嵌入来微调LVLM。我们的异常GPT消除了手动阈值调整的需要，从而直接评估异常的存在和位置。此外，AnomalyGPT支持多回合对话，并表现出令人印象深刻的小样本上下文学习能力。只需一个正常的样本，AnomalyGPT就可以实现86.1%的准确率、94.1%的图像级AUC和95.3%的像素级AUC的最先进性能。在MVTec AD数据集上。代码可在https://github.com/CASIA-IVA-Lab/AnalomalyGPT。

REB: Reducing Biases in Representation for Industrial Anomaly Detection

202308
香港理工大学
现有的基于k -最近邻(KNN)检索的工业异常检测方法通常分为两个阶段:通过预训练的CNN模型获得特征表示，并执行距离度量进行缺陷检测。然而，由于这些特征忽略了域偏置和局部密度在特征空间中的差异，从而限制了检测性能。在本文中，我们通过考虑预训练模型的领域偏差，并建立一个自监督学习任务来更好地适应领域，提出了减少偏差(REB)的表示方法

Random Word Data Augmentation with CLIP for Zero-Shot Anomaly Detection

Big Data Analytics Solutions Lab Hitachi America, Ltd.
20230822
本文提出了一种利用视觉语言模型CLIP作为零射击异常检测数据源的新方法。由于异常探测器具有潜在的工业应用前景，人们在开发异常探测器方面付出了巨大的努力。考虑到获取各种异常样本进行训练的难度，现有的方法大多只使用正态样本训练模型，并在推理过程中测量正态样本分布的差异，这需要为每个对象类别训练一个模型。通过设计一种基于clip的异常检测器，以滑动窗口的方式对风扇图像的每个部分进行快速引导分类，解决了这种低效的训练要求的问题。然而，该方法仍然需要与已知的对象类别进行仔细的快速集成。为了克服上述问题，我们建议利用CLIP作为培训的数据源。我们的方法使用CLIP中的文本编码器生成文本嵌入，并使用包含正常和异常单词的典型提示。除了这些单词外，我们还在提示符中插入一些随机生成的单词，这使得编码器能够生成一组不同的正常和异常样本。将生成的嵌入作为训练数据，前馈神经网络学习从CLIP的嵌入中提取正常和异常特征，从而在不需要任何训练图像的情况下获得与类别无关的异常检测器。实验结果表明，我们的方法达到了最先进的性能，而不需要在零射击设置中费力地进行提示集合。

SelFormaly: Towards Task-Agnostic Unified Anomaly Detection

2023.7
Yonsei University
视觉异常检测的核心思想是从正常图像中学习正态性，但以往的工作都是针对特定的任务开发的，导致各种任务之间的碎片化:缺陷检测、语义异常检测、多类异常检测和异常聚类。这种一任务一模型的方法是资源密集型的，并且随着任务数量的增加，会产生很高的维护成本。本文提出了一种通用的、功能强大的异常检测框架SelFormaly。我们通过指出以前基于在线编码器的方法中性能波动的次优问题来强调我们的现成方法的必要性。此外，我们质疑以前文献中使用卷积神经网络的有效性，并确认自监督vit适用于统一的异常检测。我们引入了后补丁掩蔽，并发现了顶k比特征匹配的新作用，实现了统一的、强大的异常检测。后贴片掩蔽消除了不相关的区域，可能会阻碍以目标为中心的检测与场景布局的表示。top k-ratio特征匹配统一了各种异常级别和任务。最后，对于上述所有任务，SelFormaly可以跨各种数据集获得最先进的结果。