ECCV 2024 名字里带 Anomaly 的论文合集

ECCV 2024 论文合集

一、视频异常检测

1.1 Learning Anomalies with Normality Prior for Unsupervised Video Anomaly Detection

论文地址

基于正态先验的无监督视频异常检测中的异常学习

在这里插入图片描述
摘要:无监督视频异常检测(UVAD)旨在无需任何标注的情况下检测视频中的异常事件。这一任务颇具挑战性,因为异常情况既罕见又多样,且通常难以明确定义。现有的无监督视频异常检测方法完全依赖数据驱动,通过识别视频中的各种异常模式来进行无监督学习。由于这些方法在很大程度上依赖特征表示和数据分布,它们只能学习到与正常事件差异显著的突出异常,而忽略了那些不太明显的异常。为应对这一挑战,本文采用了一种不同的方法,即利用与数据无关的关于正常和异常事件的先验知识来进行无监督视频异常检测。我们首先为无监督视频异常检测提出一种新的常态先验,即认为视频的起始和结尾部分大多是正常的。然后,我们提出常态传播方法,该方法基于视频片段之间的关系来传播常态知识,从而估计未标记片段的常态程度。最后,基于传播得到的标签和一种新的损失重加权方法,进行异常检测的无监督学习。这些组件与常态传播相互补充,可减轻错误传播标签带来的负面影响。在上海科技大学和UCF - Crime基准数据集上进行的大量实验证明了我们方法的优越性能。代码可在https://github.com/shyern/LANP-UVAD获取。

1.2 FedVAD: Enhancing Federated Video Anomaly Detection with GPT-Driven Semantic Distillation

论文地址

FedVAD:利用GPT驱动的语义蒸馏增强联邦视频异常检测

在这里插入图片描述
摘要:鉴于视觉数据的敏感性和隐私问题,智能监控系统要稳健地检测异常面临着独特挑战。我们提出一种用于视频异常检测的全新联邦学习框架,该框架在数据异构性和隐私保护的限制下运行。我们利用联邦视觉一致性聚类在服务器端对客户端进行分组。进一步的创新在于自适应语义增强蒸馏策略,该策略将公开视频知识融入我们的框架。在此过程中,利用大语言模型进行公开视频的语义生成和校准。然后,这些视频 - 文本对用于微调一个多模态网络,该网络在更新全局模型时充当教师模型。这种方法不仅优化了视频表示,还提高了对异常事件的敏感度。我们大量的评估表明,FedVAD在提升无监督和弱监督异常检测方面能力出众,在保护隐私的同时可与集中式训练范式相媲美。代码将在https://github.com/Eurekaer/FedVAD公开。

1.3 Cross-Domain Learning for Video Anomaly Detection with Limited Supervision

论文地址

有限监督下的视频异常检测跨域学习

在这里插入图片描述
摘要:视频异常检测(VAD)可自动识别不寻常事件,比如监控视频中的安全威胁。在实际应用中,VAD模型必须能在跨领域场景中有效运行,识别罕见异常以及训练数据中未充分体现的场景。然而,现有的跨领域VAD方法多基于无监督学习,导致性能达不到实际应用的预期。 由于获取源领域的弱监督(即视频级标签)成本较低,我们推测将其与外部无标签数据相结合,对提升跨领域性能颇具潜力。为此,我们提出一种全新的用于VAD跨领域学习(CDL)的弱监督框架,该框架在训练时通过估计预测偏差并利用预测不确定性自适应地最小化偏差,融入外部数据。 我们在两个大规模VAD数据集UCF - Crime和XD - Violence上进行多种配置的综合实验,以验证所提CDL框架的有效性。我们的方法在跨领域评估中显著超越当前先进方法,在UCF - Crime数据集上绝对提升19.6% ,在XD - Violence数据集上提升12.87% 。

1.4 Interleaving One-Class and Weakly-Supervised Models with Adaptive Thresholding for Unsupervised Video Anomaly Detection

论文地址

采用自适应阈值交织一类和弱监督模型用于无监督视频异常检测

在这里插入图片描述
摘要:视频异常检测(VAD)在单类分类(OCC)和弱监督学习(WS)的设定下已被广泛研究,但这两种方法都需要耗费大量人力来标注正常/异常标签。在本文中,我们研究无监督视频异常检测(UVAD),通过将OCC和WS整合到一个统一的训练框架中,实现不依赖任何标签的检测。具体而言,我们将OCC扩展为加权OCC(wOCC),并提出一个wOCC - WS交叉训练模块,使两个模型能够自动为彼此生成伪标签。 要使这种结合有效,我们面临两个挑战:(1)由于伪标签不可避免的随机性,模型在训练过程中的性能偶尔会波动。(2)需要阈值来确定伪标签,这依赖于用户干预的准确性。对于第一个问题,我们提议使用需要软标签的wOCC,而非使用硬零/一标签训练的OCC,因为软标签在不同训练周期中表现出高度一致性,而硬标签容易出现突然变化。对于第二个问题,我们多次重复交叉训练模块,并提出一种自适应阈值策略,该策略可以逐步将粗略阈值优化为相对最优阈值,从而减少用户交互的影响。 将OCC和WS方法结合成UVAD方法的一个好处是,我们可以将最新的OCC或WS模型纳入我们的框架。实验证明了所提出的UVAD框架的有效性。代码可在https://github.com/benedictstar/Joint-VAD获取。

1.5 Follow the Rules: Reasoning for Video Anomaly Detection with Large Language Models

论文地址

遵循规则:使用大语言模型进行视频异常检测推理

在这里插入图片描述
摘要:视频异常检测(VAD)在安全监控和自动驾驶等应用中至关重要。然而,现有的VAD方法在检测背后缺乏合理依据,这阻碍了其在实际应用中的公众信任度。在本文中,我们采用一种推理框架来处理VAD问题。尽管大语言模型(LLMs)展现出了革命性的推理能力,但我们发现直接将其用于VAD存在不足。具体而言,LLMs中的预训练隐含知识聚焦于通用上下文,可能无法适用于每一个具体的实际VAD场景,从而导致灵活性和准确性欠佳。 为解决这一问题,我们提出AnomalyRuler,这是一种全新的基于规则的结合LLMs的VAD推理框架。AnomalyRuler主要包括两个阶段:归纳演绎在归纳阶段,向LLM输入少量正常参考样本,然后由其总结这些正常模式,归纳出一组用于检测异常的规则演绎阶段则依据归纳出的规则,在测试视频中找出异常帧。此外,我们还设计了规则聚合、感知平滑和稳健推理策略,以进一步增强AnomalyRuler的稳健性。AnomalyRuler是首个针对单类VAD任务的推理方法,它仅需少量正常样本进行提示,无需完整训练,从而能够快速适应各种VAD场景。在四个VAD基准上进行的全面实验证明了AnomalyRuler的先进检测性能和推理能力。AnomalyRuler是开源的,可在https://github.com/Yuchen413/AnomalyRuler获取。

二、二维异常检测

2.1 Few-Shot Anomaly-Driven Generation for Anomaly Classification and Segmentation

论文地址

用于异常分类和分割的少样本异常驱动生成

在这里插入图片描述
摘要:由于在工业检测中异常样本稀缺,异常检测是一项既实用又具有挑战性的任务。现有的一些异常检测方法通过利用噪声或外部数据合成异常来解决这一问题。然而,合成异常与真实世界的异常之间总是存在很大的语义差距,导致异常检测的性能较弱。为解决这个问题,我们提出了少样本异常驱动生成(AnoGen)方法,该方法仅使用少量真实异常样本,就能引导扩散模型生成逼真且多样的异常样本,从而有利于训练异常检测模型。具体来说,我们的工作分为三个阶段。在第一阶段,基于少量给定的真实异常样本学习异常分布,并将学到的知识注入到嵌入向量中。在第二阶段,我们使用嵌入向量和给定的边界框来引导扩散模型,针对特定物体(或纹理)生成逼真且多样的异常样本。在最后一个阶段,我们提出一种弱监督异常检测方法,利用生成的异常样本训练更强大的模型。我们的方法以DRAEM和DesTSeg为基础模型,并在常用的工业异常检测数据集MVTec上进行实验。实验表明,我们生成的异常样本能够有效地提高模型在异常分类和分割任务上的性能。例如,DRAEM和DseTSeg在分割任务的AU - PR指标上分别提高了5.8%和1.5%。代码和生成的异常数据可在https://github.com/gaobb/AnoGen获取。

2.2 Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt

论文地址

仅通过一个正常图像提示学习检测多类异常

(读过了)
在这里插入图片描述
摘要:使用自注意力变换器的无监督重建网络,在通过单一模型进行多类别(统一)异常检测方面,已取得了领先的性能。然而,这些自注意力重建模型主要对目标特征进行操作,这可能会导致正常特征和异常特征都能得到完美重建,因为在上下文方面具有高度一致性,从而无法检测出异常。此外,由于这些模型在低空间分辨率的潜在空间中进行重建,常常会产生不准确的异常分割结果。为了使重建模型在提高统一异常检测的泛化能力的同时保持高效率,我们提出了一种简单而有效的方法,即仅通过一个正常图像提示(OneNIP)来重建正常特征并恢复异常特征。与以往的工作不同,OneNIP首次实现了仅用一个正常图像提示来重建或恢复异常,有效地提升了统一异常检测的性能。此外,我们提出了一种监督式细化器,它通过使用真实图像和合成的异常图像来回归重建误差,从而显著提高了像素级异常分割的精度。在MVTec、BTAD和ViSA这三个工业异常检测基准数据集上,OneNIP的性能优于以往的方法。

2.3 Random Walk on Pixel Manifolds for Anomaly Segmentation of Complex Driving Scenes

论文地址

用于复杂驾驶场景异常分割的像素流形上的随机游走

在这里插入图片描述
摘要:在复杂驾驶场景的异常分割任务中,当前先进方法利用异常评分函数来计算异常分数。对于这些函数而言,准确预测每个像素的内点类别的对数几率,是精确推断异常分数的关键。然而,在现实世界的驾驶场景中,场景的多样性常常导致像素嵌入空间中的流形发生扭曲。这种情况不利于在推断过程中直接使用像素嵌入进行对数几率预测,而这一问题被现有方法所忽视。 为解决该问题,我们提出一种名为像素流形上的随机游走(RWPM)的新方法。RWPM利用随机游走揭示像素之间的内在关系,以优化像素嵌入。经过优化的像素嵌入减轻了流形的扭曲,提高了异常分数的准确性。大量实验表明,RWPM持续改进现有异常分割方法的性能,并取得了最佳结果。

2.4 VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation

论文地址

VCP - CLIP:一种用于零样本异常分割的视觉上下文提示模型

在这里插入图片描述
摘要:近期,像CLIP这样的大规模视觉 - 语言模型在零样本异常分割(ZSAS)任务中展现出巨大潜力,它们利用统一模型,借助精心设计的文本提示,直接检测任何未见产品的异常。然而,现有方法通常假定待检测的产品类别已知,从而设置特定产品的文本提示,这在数据隐私场景中难以实现。此外,即使是同一种产品,由于生产过程中存在显著不同的组件和变化,也给文本提示的设计带来极大挑战。 为此,我们基于CLIP提出一种用于ZSAS任务的视觉上下文提示模型(VCP - CLIP)。VCP - CLIP的核心在于运用视觉上下文提示来激活CLIP的异常语义感知能力。具体而言,我们首先设计了Pre - VCP模块,将全局视觉信息嵌入文本提示中,从而无需特定产品的提示。然后,我们提出一种全新的Post - VCP模块,利用图像的精细特征来调整文本嵌入。在10个真实工业异常分割数据集上进行的大量实验表明,VCP - CLIP在ZSAS任务中取得了领先的性能。代码可在https://github.com/xiaozhen228/VCP-CLIP获取。

2.5 Hierarchical Gaussian Mixture Normalizing Flow Modeling for Unified Anomaly Detection

论文地址

用于统一异常检测的分层高斯混合归一化流建模

在这里插入图片描述
摘要:统一异常检测(AD)是异常检测领域最具价值的挑战之一,其目标是用来自多个类别的正常样本训练一个统一模型,以检测各类别的异常。对于这样一项具有挑战性的任务,流行的基于归一化流(NF)的异常检测方法可能会陷入 “同质映射” 问题,即基于NF的AD模型倾向于为正常和异常特征生成相似的潜在表示,从而导致异常漏检率较高。在本文中,我们提出一种用于实现统一异常检测的分层高斯混合归一化流建模方法,称为HGAD。 我们的HGAD由两个关键组件组成:类间高斯混合建模类内混合类中心学习。与先前基于NF的AD方法相比,分层高斯混合建模方法可以为归一化流的潜在空间带来更强的表示能力。通过这种方式,我们可以避免将不同类别的分布映射到相同的单个高斯先验,从而有效避免或减轻 “同质映射” 问题。我们进一步指出,不同类别的分布中心差异越大,越有利于避免偏差问题。因此,我们进一步提出互信息最大化损失,以更好地构建潜在特征空间。我们在四个真实世界的AD基准数据集上对我们的方法进行了评估,结果表明,我们的方法显著优于先前基于NF的AD方法,并且在统一AD方法中也表现出色。代码将在https://github.com/xcyao00/HGAD发布。

2.6 GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features

论文地址

GeneralAD:通过关注失真特征进行跨域异常检测

在这里插入图片描述
摘要:在异常检测领域,方法往往擅长处理高级语义或低级工业基准中的异常,很少能实现跨领域的精通。语义异常是新颖的,与训练集存在差异,比如自动驾驶汽车中的意外物体。相比之下,工业异常是保留语义含义的细微缺陷,例如飞机部件上的裂缝。 在本文中,我们提出GeneralAD,这是一种异常检测框架,旨在以最小的任务特定调整,在语义、近分布和工业场景中运行。在我们的方法中,我们利用图像补丁固有的结构,在补丁上训练Transformer,从而确保最后的隐藏状态保留基于补丁的结构。我们提出一种全新的自监督异常生成模块,该模块采用噪声添加和补丁特征打乱等操作来构建伪异常样本。这些特征被输入到基于注意力的判别器中,该判别器经过训练可以对图像中的每个补丁进行评分。通过这种方式,我们的方法能够在图像级别准确识别异常,并解释异常像素。 我们在十个数据集上对GeneralAD进行了广泛评估,在六个数据集上取得了领先的结果,在定位和生成任务中表现相当。代码可在https://github.com/LucStrater/GeneralAD/获取。

2.7 Unsupervised, Online and On-The-Fly Anomaly Detection For Non-Stationary Image Distributions

论文地址

针对非平稳图像分布的无监督、在线和即时异常检测

在这里插入图片描述
摘要:我们提出Online - InReaCh,这是首个完全无监督的在线方法,用于在遵循非平稳分布的图像序列中实时检测和定位异常。先前的异常检测方法局限于监督式单类分类,或者虽无监督但仍需预先计算其标准模型。Online - InReaCh可以通过动态维护一组常见出现的图像块的标准模型来实现在线运行,这些图像块与基础标准分布在图像实现中的变化情况密切相关,同时避免陈旧的标准图像块。Online - InReaCh在先前的离线基准测试中颇具竞争力,在图像级和像素级AUROC(曲线下面积,用于衡量分类性能)上分别达到0.936和0.961,即当MVTecAD数据集中23.8%的随机采样图像包含异常时。即便异常比例高达33.5%,Online - InReaCh的性能与异常比例也无关联。我们还表明,Online - InReaCh能够整合新的标准结构,并在单次前向传播中区分异常,即使是在从一个训练类别到一个全新的未见测试类别的分布发生变化的情况下。代码:https://github.com/DeclanMcIntosh/Online_InReaCh

2.8 AD3: Introducing a score for Anomaly Detection Dataset Difficulty assessment using VIADUCT dataset

论文地址

AD3:使用VIADUCT数据集引入异常检测数据集难度评估分数

在这里插入图片描述
摘要:近年来,视觉工业异常检测(IAD)领域涌现出许多半监督学习方法。与此同时,用于方法基准测试的工业异常检测数据集却很少。其中最受欢迎的是MVTec AD数据集,因为它涵盖的工业对象类别多样,且可用性超过99%。但许多方法在该数据集上实现的AUROC分数表明,该数据集提供的缺陷很容易被检测出来。此外,目前还没有一个数据集能够对缺陷进行统计描述。 本文提出了一个用于视觉工业异常检测的新数据集和新方法。==新的异常检测数据集(VIADUT)==共有49个类别,包含10,986张高分辨率图像,涉及来自多个行业的不同场景。通过七个行业合作伙伴的支持,呈现了真实检测中的问题。该数据集包含大量不同缺陷,并带有详细的像素级注释。与其他最先进的数据集相比,VIADUT数据集的AD3分数更高。因此,我们对该数据集进行了概述,包括类别数量、图像、缺陷类别和缺陷情况。除了这些明显的比较之外,还使用AD3分数描述了数据集。这个新指标用于分析缺陷的大小及其与目标对象的相似性。在工业异常检测基准上,使用七个选定的方法对新数据集进行了评估,结果表明VIADUT数据集在图像级工业异常检测方面有最大的改进潜力。除了非常小的难以识别的缺陷外,该数据集还提供了最全面的可能缺陷和最多的缺陷类别。用AD3分数描述VIADUT数据集可以发现最不连续的缺陷。借助AD3分数,我们能够创建一个关于IAD数据集中单个缺陷的先验知识。AD3分数与IAD方法在基准测试中的结果相关,这表明它可用于估计未来缺陷检测的难度。通过使用IAD新方法,可以在进行详尽的基准测试之前识别可检测的缺陷。简单计算AD3分数可以生成有价值的先验知识,并节省资源。

2.9 AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection

论文地址

AdaCLIP:通过混合可学习提示适配CLIP用于零样本异常检测

在这里插入图片描述
摘要:零样本异常检测(ZSAD)旨在识别来自任意新类别的图像中的异常。本研究针对ZSAD任务引入了AdaCLIP,它利用了预训练的视觉 - 语言模型(VLM)CLIP 。AdaCLIP将可学习提示融入CLIP,并通过在辅助标注的异常检测数据上进行训练来优化这些提示。提出了两种可学习提示:静态提示动态提示。静态提示在所有图像中共享,用于初步使CLIP适应ZSAD任务。相比之下,动态提示为每个测试图像生成,为CLIP提供动态适应能力。静态提示和动态提示的组合称为混合提示,可提高ZSAD性能。在来自工业和医学领域的14个真实世界异常检测数据集上进行的大量实验表明,AdaCLIP优于其他ZSAD方法,并且能够更好地泛化到不同类别甚至不同领域。最后,我们的分析强调了多样化辅助数据和优化提示对于增强泛化能力的重要性。代码可在https://github.com/caoyunkang/AdaCLIP获取。

2.10 Learning Unified Reference Representation for Unsupervised Multi-class Anomaly Detection

论文地址

为无监督多类异常检测学习统一参考表示

在这里插入图片描述
摘要:在多类别异常检测领域,源自单类别异常检测的基于重建的方法面临着众所周知的“学习捷径”挑战。在这种情况下,模型无法按预期学习正常样本的模式,而是选择诸如恒等映射或人工噪声消除等捷径。结果,模型无法重建真正的异常,将异常误判为正常实例,导致异常检测失败。 为解决这一问题,我们提出一种全新的基于统一特征重建的异常检测框架,称为RLR(从可学习参考表示重建特征)。与先前的方法不同,RLR利用可学习参考表示,促使模型明确学习正常特征模式,从而防止模型陷入“学习捷径”问题。此外,RLR 纳入局部约束和可学习参考,以便更有效地捕捉正常模式,并利用掩码可学习关键注意力机制增强鲁棒性。 在15类的MVTec AD数据集和12类的VisA数据集上对RLR进行评估,结果表明,在统一设置下,与当前最先进的方法相比,RLR具有更优越的性能。代码可在https://github.com/RLR获取。

2.11 GLAD: Towards Better Reconstruction with Global and Local Adaptive Diffusion Models for Unsupervised Anomaly Detection

论文地址

GLAD:通过全局和局部自适应扩散模型实现更好的重建用于无监督异常检测

在这里插入图片描述
摘要:扩散模型在无监督异常检测任务中展现出卓越性能。由于仅用正常数据进行训练,扩散模型往往会为测试图像重建出添加了一定噪声的正常对应图像。然而,这些方法对所有潜在异常一视同仁,这可能引发两个主要问题。从全局角度看,重建具有不同异常的图像难度并不相同。例如,恢复缺失元素比处理划痕更困难,因而需要更多的去噪步骤。所以,我们不再对所有样本采用相同设置,而是提议通过评估图像内容与从扩散模型提取的预处理器之间的差异,为每个样本预测特定的去噪步骤。从局部角度看,即使在同一图像中,异常区域与正常区域的重建情况也存在差异。理论上,扩散模型在每个步骤预测噪声时,通常遵循标准高斯分布。然而,由于异常与潜在正常对应部分之间存在差异,异常区域预测的噪声必然会偏离标准高斯分布。 为此,我们提议在训练中引入合成异常样本,以促使扩散模型突破标准高斯分布的限制,并在推理过程中采用空间自适应特征融合方案。 通过上述改进,我们提出一种用于无监督异常检测的全局和局部自适应扩散模型(简称GLAD),该模型兼具灵活性,在保留正常信息的同时实现无异常重建。 我们在三个常用的异常检测数据集(MVTec - AD、MPDD和VisA)以及印刷电路板数据集(PCB - Bank)上进行了大量实验,结果表明所提方法的有效性。我们发布了源代码和预训练模型,网址为https://github.com/hyao1/GLAD

2.12 TransFusion – A Transparency-Based Diffusion Model for Anomaly Detection

论文地址

TransFusion——一种基于透明度的扩散模型用于异常检测

在这里插入图片描述
摘要:表面异常检测是制造检测中的关键环节。当前的判别式方法采用两阶段架构,先由重建网络处理,再由依赖重建输出的判别网络进行判别。目前使用的重建网络常常产生不佳的重建结果,要么仍包含异常,要么在无异常区域缺乏细节。对重建网络的一些缺陷具有鲁棒性的判别式方法表明,判别网络学习到了重建网络所遗漏的强正常外观信号。 我们将两阶段架构重新设计为单阶段迭代过程,允许重建和定位之间进行信息交换。我们提出一种全新的基于透明度的扩散过程,在该过程中,异常区域的透明度逐渐增加,利用先前步骤的定位线索准确恢复其正常外观,同时保持无异常区域的外观。 我们将所提出的过程实现为TRANSparecy DifFU-SION(TransFusion),这是一种新颖的判别式异常检测方法,在VisA和MVTec AD数据集上均达到了先进的性能,图像级AUROC(曲线下面积)分别为98.5%和99.2% 。代码:https://github.com/MaticFuc/ECCV_TransFusion

2.13 MoEAD: A Parameter-efficient Model for Multi-class Anomaly Detection

论文地址

MoEAD:一种参数高效的多类异常检测模型

在这里插入图片描述
摘要:利用统一模型检测多类别异常是解决现实世界异常检测问题的一种可行方案。尽管这类模型颇具吸引力,但通常存在模型参数庞大的问题,这给在内存受限的嵌入式设备上部署带来挑战。 为应对这一挑战,本文提出一种名为MoEAD的新型ViT风格多类别检测方法,该方法可在保持检测性能的同时缩减模型规模。我们的关键发现是,每个堆叠模块(即ViT中的transformer模块)内的前馈网络(FFN)层主要用于表征独特的表示,而这些模块中的其余组件在不同模块间表现出相似的行为。这一发现促使我们将传统的N个堆叠transformer模块压缩为单个模块,然后融入专家混合(MoE)技术,在每个递归循环中从专家池中自适应选择FFN层。这使得MoEAD能够像ViT一样逐阶段捕捉异常语义,并为不同类别的异常语义选择最优表示,尽管它在所有模块中仅共享一套参数。 实验表明,与当前最先进的(SOTA)异常检测方法相比,MoEAD在性能和内存消耗之间实现了理想的权衡。它不仅使用最少的模型参数,拥有最快的推理速度,还能获得有竞争力的检测性能。代码将在https://github.com/TheStarOfMSY/MoEAD发布。

2.14 Continuous Memory Representation for Anomaly Detection

论文地址

用于异常检测的连续记忆表示

在这里插入图片描述
摘要:在仅使用正常图像进行训练的无监督异常检测领域,已有显著进展。近期一些方法通过将输入与直接存储的正常特征(或从正常图像训练得到的特征)进行对比或重建,来检测异常。然而,基于内存的方法在离散特征空间中运行,由最近邻或注意力机制实现,存在泛化性差或身份捷径问题(即输出与输入相同)。此外,大多数现有方法旨在检测单类别异常,在处理多类别情况时性能不佳。 为应对上述挑战,我们提出CRAD,这是一种全新的异常检测方法,可在“连续”内存中表示正常特征。该方法通过将空间特征转换为坐标,并将其映射到连续网格来实现。此外,我们精心设计了适用于异常检测的模块,有效表示局部和全局正常特征并进行融合。大量实验表明,CRAD成功泛化了正常特征并规避了身份捷径问题。此外,得益于高泛化性的连续表示,CRAD能在单个模型中有效处理不同类别。在使用MVTec AD数据集进行的评估中,CRAD通过将误分类错误降低65.0% ,显著优于先前的先进方法。我们的项目页面可在https://github.com/tae-mo/CRAD访问。

2.15 A Unified Anomaly Synthesis Strategy with Gradient Ascent for Industrial Anomaly Detection and Localization

论文地址

一种用于工业异常检测和定位的基于梯度上升的统一异常合成策略

在这里插入图片描述
摘要:异常合成策略能够有效增强无监督异常检测能力。然而,现有策略在异常合成的覆盖范围和可控性方面存在局限,尤其是对于与正常区域极为相似的微弱缺陷。在本文中,我们提出全局与局部异常协同合成策略(GLASS),这是一种全新的统一框架,旨在分别在特征层面的全局异常合成(GAS)流形和超球面分布约束,以及图像层面的局部异常合成(LAS)约束下,合成覆盖范围更广的异常。我们的方法利用由梯度上升引导的高斯噪声和截断投影,以可控方式合成近分布内异常。GLASS在MVTec AD数据集(检测AUROC达99.9% )、VisA和MPDD数据集上取得了领先成果,在微弱缺陷检测方面表现尤为突出。其有效性和高效性在织物缺陷检测等工业应用中得到了进一步验证。代码和数据集可在https://github.com/cqylunlun/GLASS获取。

2.16 Dissolving Is Amplifying: Towards Fine-Grained Anomaly Detection

论文地址

消解即增强:迈向细粒度异常检测

在这里插入图片描述
摘要:医学影像通常包含关键的细粒度特征,如肿瘤或出血点,这些特征对诊断至关重要,但可能过于细微,传统方法难以检测。在本文中,我们引入DIA(溶解即放大),这是一种用于医学图像的细粒度异常检测框架。 首先,我们引入溶解变换。我们采用带有生成性扩散模型的扩散去噪器。以特定方式对医学图像应用扩散,可去除或减弱细粒度判别特征。其次,我们引入基于对比学习的放大框架,以自监督的方式学习医学图像的语义有意义表示,重点关注细粒度特征。在放大框架中,应用额外的有无溶解变换的图像对进行对比,从而突出被溶解的细粒度特征。 DIA显著提升了医学异常检测性能,与基准方法相比,AUC(曲线下面积)提升约18.40%,在整体SOTA(当前最优)对比测试中表现出色。代码可在https://github.com/shijianjian/DIA获取。

三、三维异常检测

3.1 R3D-AD: Reconstruction via Diffusion for 3D Anomaly Detection

论文地址

R3D - AD:通过扩散进行三维异常检测的重建

读过了
在这里插入图片描述
摘要:三维异常检测在精密制造中对监测部件的固有缺陷定位起着关键作用。基于嵌入和基于重建的方法是最常用且成功的方法。然而,当前方法在实际应用中面临两大挑战:1)基于嵌入的模型因内存库结构问题,计算负担过重;2)基于MAE机制的重建模型无法检测未掩码区域中的异常。 在本文中,我们提出R3D - AD,一种通过扩散模型重建异常点云以实现精确三维异常检测的方法。我们的方法利用扩散过程的数据分布转换,完全掩盖输入的异常几何形状。它逐步学习严格的点级位移行为,从方法上纠正异常点。 为提高模型的泛化性,我们进一步提出一种名为Patch - Gen的全新三维异常模拟策略,以生成逼真多样的缺陷形状,缩小训练和测试之间的领域差距。我们的R3D - AD确保了统一的空间变换,通过距离比较可直接生成异常检测结果。大量实验表明,我们的R3D - AD方法在性能上优于现有方法,在Real3D - AD数据集上达到了73.4%的图像级AUROC(曲线下面积),在Anomaly - ShapeNet数据集上达到了74.9%的图像级AUROC,且效率极高。 项目页面:https://github.com/zhouzheyuan/r3d-ad

四、多模态异常检测

4.1 Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection

论文地址

用于三维工业异常检测的自监督特征适配

在这里插入图片描述
摘要:工业异常检测通常被视为一项无监督任务,旨在仅使用正常训练样本定位缺陷。近年来,大量二维异常检测方法被提出并取得了不错的成果,然而,仅使用二维RGB数据作为输入,不足以识别难以察觉的几何表面异常。因此,在这项工作中,我们专注于多模态异常检测。 具体而言,我们研究了早期尝试利用在大规模视觉数据集(如ImageNet)上预训练的模型来构建特征数据库的多模态方法。我们通过实证发现,这些预训练模型并非最优,它们要么无法检测到细微缺陷,要么会将异常特征误判为正常特征。这可能是由于目标工业数据与源数据之间存在领域差距。 针对这个问题,我们提出一种从局部到全局的半监督特征自适应(LSFA)方法用于微调适配器并学习面向异常检测的任务导向表示。在LSFA中,从局部到全局的角度对模态内自适应和跨模态对齐进行优化,以确保表示质量和推理阶段的一致性。大量实验表明,我们的方法不仅显著提升了基于特征嵌入方法的性能,而且在MVTec - 3D和Eyecandies数据集上均显著优于先前的先进(SoTA)方法。例如,LSFA在MVTec - 3D数据集上实现了97.1%的图像级AUROC,比SoTA方法高出3.4% 。代码可在https://github.com/yuanpengtu/LSFA获取。

4.2 Learning Diffusion Models for Multi-View Anomaly Detection

论文地址

学习用于多视图异常检测的扩散模型

在这里插入图片描述
摘要:我们正在探索异常检测(AD)领域一种新兴的构想,即同时且分别生成同一物体的多个实例,以解决仅使用单个实例可能无法有效捕捉潜在缺陷的局限。具体而言,我们专注于一个特定场景,即对于每个目标物体,关联七个不同的数据视图/表示。前六个视图是在六种不同光照条件下,使用固定摄像机拍摄的图像,而第七个视图涉及三维正常信息。我们将此任务称为多视图异常检测。 为解决该问题,我们的方法包括训练一个视图不变的ControlNet,无论数据视图如何,它都能生成一致的特征图。这种训练策略使我们能够减轻光照条件变化的影响,并有效地融合来自RGB颜色外观和三维正常几何的信息。此外,由于扩散过程具有不确定性,我们采用去噪扩散隐式模型(DDIM)框架,以提高基于扩散特征的内存库在异常检测推理中的适用性。 为证明我们方法的有效性,我们在Eyecandies数据集上进行了大量的消融研究和先进的实验。

五、目标检测中对异常对象的检测

5.1 Towards Open-World Object-based Anomaly Detection via Self-Supervised Outlier Synthesis

论文地址

通过自监督离群值合成实现开放世界基于对象的异常检测

在这里插入图片描述
摘要:目标检测是计算机视觉中的关键任务,在过去数年中备受关注。然而,检测器对训练分布之外的目标进行定位的能力仍有待探索。尽管近期在目标级分布外(OoD)检测方面的方法严重依赖类别标签,但这些方法与真正的开放世界场景相悖,因为在开放世界中类别分布往往是未知的。在此背景下,异常检测专注于检测未见实例,将其视为分布外情况。 本文旨在通过虚拟离群点合成,利用开放世界目标检测器和分布外检测器来填补这一空白。具体做法是,利用检测器骨干网络的特征,首先通过自监督学习目标伪类别。这些伪类别作为基于类别条件的虚拟离群点采样的基础,用于为分布外检测头分类的语义特征。我们的方法使整个目标检测器架构能够在不依赖类别标签的情况下学习感知异常的特征表示,从而实现真正的开放世界目标异常检测。对我们方法的实证验证表明,其在涵盖多种成像模态(可见光、红外和X射线)的不同数据集上均能有效运行。此外,我们的方法在目标级异常检测方面达到了领先性能,对于自然图像,平均召回率提高了5.4% ,对于安全X射线数据集,提高了23.5% 。此外,我们的方法能够在当前方法失效的数据集上检测到异常。代码可在https://github.com/KostadinovShalon/oln-ssos获取。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值