CVPR 2025 名字里带 Anomaly 的论文合集 (未发布的论文后续会更新)

CVPR 2025 Accepted Papers 链接

一、新数据集

1.1 Real-IAD D³: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection

论文地址

《真实工业异常检测数据集D³:用于工业异常检测的真实世界2D/伪3D/3D数据集》

在这里插入图片描述
摘要:工业异常检测(IAD)日益复杂,使得多模态检测方法成为机器视觉研究的重点领域。然而,专门为IAD设计的多模态数据集仍然有限。像MVTec 3D这样的开创性数据集通过整合RGB + 3D数据奠定了基础,但由于规模和分辨率的限制,在弥合与实际工业环境的差距方面仍面临挑战。为应对这些挑战,我们引入了Real - IAD3,这是一个高精度多模态数据集,它通过光度立体法整合了额外的伪3D模态高分辨率RGB图像微观层面的3D点云。Real - IAD3具有更精细的缺陷、多样的异常,涵盖20个类别,为多模态IAD提供了具有挑战性的基准。此外,我们提出了一种有效的方法,该方法整合了RGB、点云以及伪3D深度信息,以利用每种模态的互补优势。我们的实验强调了所有模态在提高检测鲁棒性和整体IAD性能方面的重要性。该数据集和代码已在https://realiad4ad.github.io/Real-IAD_D3/上公开,用于研究目的。

1.2 Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection

论文地址

《迈向真实世界物理动力学的视觉判别与推理:基于物理的异常检测》

在这里插入图片描述
摘要:人类通过感知、交互和推理物体的物理知识来检测现实世界中的物体异常。工业异常检测(IAD)的长期目标是使机器能够自主复制这一技能。然而,现有的IAD算法大多是在静态、语义简单的数据集上开发和测试的,这与需要物理理解和推理的现实场景大相径庭。为了缩小这一差距,我们引入了大规模物理异常检测(Phys - AD)数据集,这是首个用于工业异常检测的真实世界物理数据集。该数据集使用真实机械臂和电机收集视频,提供了多样的动态、语义丰富的场景集。该数据集涵盖22个现实世界物体类别中的6400多个视频,涉及机械臂和电机的交互,展示了47种异常类型。异常检测和Phys - AD需要视觉推理,结合物理知识和视频内容来确定物体的正常性。我们在三种设置下(无监督AD、弱监督AD和视频理解AD)对最先进的算法进行基准测试,突显了它们在处理基于物理的异常方面的局限性。此外,我们引入了物理异常解释(PEval)指标,旨在评估视觉 - 语言基础模型不仅检测异常的能力,还能为其对物理原因的理解提供准确解释的能力。我们的数据集可在:https://github.com/gUYao2023/Phys-AD获取。

1.3 Multi-Sensor Object Anomaly Detection: Unifying Appearance, Geometry, and Internal Properties

论文地址

《多传感器物体异常检测:统一外观、几何和内部属性》

在这里插入图片描述
摘要:物体异常检测在工业质量检测中至关重要,然而传统的单传感器方法存在严重局限。它们难以捕捉各类异常,因为单一传感器在外部外观、几何结构或内部属性的检测上往往受限。为克服这些挑战,我们引入MuISen - AD,这是首个针对工业应用的高分辨率多传感器异常检测数据集。MuISen - AD融合了来自RGB相机激光扫描仪锁相红外热像仪的数据,能有效捕捉外部外观、几何变形和内部缺陷。该数据集涵盖15种工业产品,包含多样的真实世界异常。我们还推出MuISen - AD Bench,这是一个用于评估多传感器方法的基准,并提出MuISen - TripleAD,这是一种决策级融合算法,整合这三种模态用于稳健的无监督物体异常检测。我们的实验表明,多传感器融合显著优于单传感器方法,在物体级别检测准确率上达到96.1% AUROC。这些结果突显了整合多传感器数据对全面工业异常检测的重要性。该数据集和代码可在https://github.com/ZZZBBBZZZ/MulSen-AD/获取,以支持进一步研究。

1.4 Spotting the Unexpected (STU): A 3D LiDAR Dataset for Anomaly Segmentation in Autonomous Driving

论文地址

《发现意外(STU):用于自动驾驶中异常分割的3D激光雷达数据集》

在这里插入图片描述
摘要:为了安全运行,自动驾驶汽车(AVs)需要检测并处理道路上意外出现的物体或异常情况。尽管在2D异常检测和分割方面已有大量研究,但3D领域的相关探索仍显不足。现有的数据集缺乏高质量的多模态数据,无法满足自动驾驶场景下的需求。本文提出了一个用于驾驶场景异常分割的新数据集。据我们所知,这是首个公开可用的专注于道路异常分割的数据集,它具有密集的3D语义标注,并融合了激光雷达(LiDAR)和摄像头数据,以及场景信息,能够在各种距离范围内实现异常检测。这种能力对于确保自动驾驶汽车的安全至关重要。我们适配并评估了几种用于3D分割的基线模型,突显了3D异常检测在驾驶环境中面临的挑战。我们的数据集和评估代码将公开提供,以方便对不同方法进行性能比较测试。

1.5 Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models

《迈向使用多模态大语言模型进行零样本异常检测与推理》

在这里插入图片描述
摘要:零样本异常检测(ZSAD)是一种新兴的异常检测范式。与传统的无监督异常检测不同,传统方法需要大量正常样本进行模型训练,而ZSAD在处理数据受限的现实场景方面更具实用性。近来,多模态大语言模型(MLLMs)显著提升了各种视觉任务中的推理能力。然而,由于缺乏相应的异常数据和基准,图像异常情况的推理仍未得到充分探索。为推动异常检测与推理领域的研究,我们建立了首个视觉指令调整数据集Anomaly-Instruct-125k,以及评估基准VisA-D&R。通过对该基准的研究,我们发现当前的MLLMs(如GPT-4o)无法准确检测和描述图像中的细微异常细节。为解决这一问题,我们提出Anomaly-OneVision(异常单视觉),这是一种专门用于ZSAD和推理的视觉助手。受人类视觉检查行为的启发,Anomaly-OV利用Look-Twice特征匹配(LTFM)机制自适应地选择并强调异常视觉标记。大量实验表明,Anomaly-OV在异常检测和推理方面相较于先进的通用模型有显著改进。我们还将其扩展应用于医学和3D AD领域,相关项目页面可访问:https://xujiaocong.github.io/Anomaly-OV/

1.6 MANTA: A Large-Scale Multi-View and Visual-Text Anomaly Detection Dataset for Tiny Objects

论文地址

《MANTA:一个用于微小物体的大规模多视图和视觉 - 文本异常检测数据集》

在这里插入图片描述
摘要:我们推出MANTA,这是一个用于微小物体的视觉 - 文本异常检测数据集。视觉部分包含超过13.7万张图像,涵盖38个物体类别,分布在5种典型场景中,其中约8600张图像被标记为异常,并带有像素级标注。每张图像从五个不同视角拍摄,以确保对物体的全面观察。文本部分由两个子部分组成声明性知识,包含87.5万个单词,描述了跨不同领域和特定类别的常见异常情况,并对(什么、为什么、如何)进行了详细解释和视觉特征说明;建构性学习,提供2000个带有不同难度级别的选择题,每个选择题都配有图像和相应的答案解释。我们还提出了一个视觉 - 文本基准,并进行了广泛的基准实验,以评估不同设置下的先进方法,突显了我们数据集的优势和功效。

二、三维点云异常检测

2.1 PO3AD: Predicting Point Offsets toward Better 3D Point Cloud Anomaly Detection

论文地址

《PO3AD:预测点偏移以实现更好的3D点云异常检测》

在这里插入图片描述
摘要:在无异常设定下的点云异常检测面临重大挑战,因为它需要准确捕捉三维正常数据的特征,以识别表明异常的偏差。当前研究重点在于通过恢复正常样本特征来重建任务,从而重构数据表示。我们的研究结果表明,伪异常对应物将注意力均匀分配给正常和伪异常数据,导致模型难以专注于微小偏差。由于三维点云固有的不一致性和稀疏性,这一挑战进一步加剧。为解决这些问题,我们引入一种创新方法,强调学习点偏移,以获得更多信息的伪异常点,从而促进更有效的正常数据表示聚类。此外,我们开发了一种由法向量引导的增强数据增强技术,便于生成可信的伪异常,提高训练效率。我们在Anomaly - ShapeNet和Real3D - AD数据集上进行的全面实验表明,我们提出的方法优于现有的先进方法,在Anomaly - ShapeNet和Real3D - AD数据集上,AUC - ROC检测指标的平均提升分别达到9.0%和1.4% 。

三、二维异常检测

3.1 Distribution Prototype Diffusion Learning for Open-set Supervised Anomaly Detection

论文地址

《分布原型扩散学习用于开放集监督异常检测》

在这里插入图片描述
摘要:在开放集监督异常检测(OSAD)中,现有方法通常生成伪异常来弥补观测到的异常样本的稀缺性,却忽略了正常样本的关键先验信息,导致判别边界的有效性降低。为解决这一问题,我们提出了分布原型扩散学习(DPDL)方法,旨在将正常样本纳入一个紧凑且具判别性的分布空间中。具体而言,我们构建多个可学习的高斯原型,为丰富多样的正常样本创建一个潜在表示空间,并学习一个薛定谔桥,以促进正常样本向这些原型进行扩散过渡,同时使异常样本远离。此外,为增强样本间的分离度,我们在超球面空间中设计了一种离散特征学习方法,这有助于识别分布外的异常。实验结果证明了我们提出的DPDL方法的有效性和优越性,在9个公开数据集上取得了领先的性能。

3.2 Towards Training-free Anomaly Detection with Vision and Language Foundation Models

论文地址

《迈向使用视觉与语言基础模型的免训练异常检测》

在这里插入图片描述
摘要:异常检测在实际应用中颇具价值,比如在工业质量检测领域。然而,大多数方法着重检测局部结构异常,却忽视了包含逻辑约束的组合异常。在本文中,我们介绍了LogSAD,这是一种全新的多模态框架,可同时用于逻辑异常检测结构异常检测,且无需进行训练。首先,我们提出一种思维匹配架构,该架构借助先进的大型多模态模型(如GPT - 4V )生成匹配建议,为异常检测制定关注点组合规则。其次,我们详细阐述了多粒度异常检测,其涵盖图像块标记、关注点集合,以及通过视觉和语言基础模型进行的组合匹配。随后,我们提出一个校准模块,用于对齐不同检测器输出的异常分数,之后采用集成策略做出最终决策。因此,我们的方法在统一框架内解决了逻辑异常和结构异常检测问题,无需训练即可取得领先成果,即便与监督学习方法相比也是如此,彰显了其稳健性和有效性。代码可在https://github.com/zhang0jhon/LogSAD获取。

3.3 Dual-Interrelated Diffusion Model for Few-Shot Anomaly Image Generation

论文地址

《用于少样本异常图像生成的双关联扩散模型》

在这里插入图片描述
摘要:工业制造中的异常检测性能受到异常数据稀缺的限制。为了克服这一挑战,研究人员已开始采用异常生成方法来扩充异常数据集。然而,现有的生成方法在生成的异常多样性方面存在局限,并且难以将生成的异常与原始图像无缝融合。此外,生成的掩码通常与生成的异常未对齐。在本文中,我们从整体角度出发,克服这些限制,同时生成一对异常图像及其对应的异常部分。我们提出DualAnnoDiff,这是一种基于扩散模型的少样本异常图像生成模型,该模型可以通过双关联扩散生成多样且逼真的异常图像,其中一个扩散用于生成整幅图像另一个用于生成异常部分。此外,我们提取背景和形状信息,以减轻少样本图像生成中的扭曲和模糊现象。我们进行了广泛的实验,以证明我们提出的模型在多样性、逼真度和掩码准确性方面优于现有方法。总体而言,我们的方法显著提高了主流异常检测任务的性能,包括异常检测、异常定位和异常分类任务。代码将公开提供。

3.4 Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection

论文地址

《在单张图像中探索固有正常原型以实现通用异常检测》

在这里插入图片描述
摘要:异常检测(AD)对工业检测至关重要,但现有方法通常依赖于将测试图像与训练集中的正常参考进行“比对” 。然而,外观和位置的变化常常使这些参考与测试图像的对齐变得复杂,从而限制了检测精度。我们观察到大多数异常表现为局部变化,这意味着即使在异常图像中,有价值的正常信息仍然存在。我们认为这种正常信息可以更好地与异常对齐,因为异常和正常信息都源自同一图像。因此,我们不再依赖外部正常信息进行训练,而是提出INP - Former,这是一种直接从测试图像中提取内在正常原型(INPs)的新方法。具体来说,我们将正常信息提取器(INP Extractor)归一化标记,以表示INPs。我们进一步提出INP一致性损失(INP Coherence Loss),以确保INPs能够忠实地表示测试图像的正常信息。然后,INP引导解码器(INP - Guided Decoder)利用这些归一化标记来重建图像,重建误差用作异常分数。此外,我们提出软挖掘损失(Soft Mining Loss)来优化难以优化的样本。INP - Former在单类、多类以及少样本异常检测任务中均实现了最先进的性能,涵盖MVTec - AD、VisA和Real - IAD数据集,证明其是一种适用于异常检测的通用解决方案。值得注意的是,INP - Former还展示了零样本异常检测能力。代码可在:https://github.com/luow23/INP-Former获取。

3.5 Odd-One-Out: Anomaly Detection by Comparing with Neighbors

论文地址

《与众不同:通过与邻居比较进行异常检测》

在这里插入图片描述
摘要:本文提出了一种全新的异常检测(AD)问题,旨在通过将场景中物体与其他物体进行对比,识别出“看起来异常”的物体。与传统的具有固定异常标准的异常检测基准不同,我们的任务通过推断一组常规物体来检测特定场景下的异常。为解决遮挡问题,我们利用场景的多个视角,从二维视图为每个实例构建以三维物体为中心的模型,并通过几何一致的部件感知表示来增强这些模型。随后,通过实例间比较来检测异常物体。我们还引入了两个新的基准数据集ToysAD - 8KPartsAD - 15K,作为该任务未来研究的测试平台。我们在这些基准数据集上对所提方法进行了全面的定量和定性分析。

3.6 Correcting Deviations from Normality: A Reformulated Diffusion Model for Multi-Class Unsupervised Anomaly Detection

论文地址

《纠正偏离正常状态:用于多类别无监督异常检测的重新构建扩散模型》

在这里插入图片描述
摘要:扩散模型的最新进展推动了其在基于重建的无监督异常检测领域的应用研究。然而,这些方法在保持结构完整性以及恢复异常区域的无异常内容方面面临挑战,尤其是在多类别场景中。此外,扩散模型旨在从纯噪声中生成图像,难以在去除异常区域后保留正常部分,这可能导致重建过程中正常区域受损,从而削弱异常检测的有效性。本文通过将标准扩散模型重新表述为选择性区域改变,以实现准确的异常识别,从而解决这一问题。我们提出的异常修正扩散(DeCoDiff)模型在潜在空间中将异常建模为噪声,保留正常区域,并促使仅在异常区域发生变换。这种选择性方法显著提高了重建质量,有助于对异常区域进行有效的无监督检测和定位。全面的评估表明,我们的方法在准确识别复杂图像中的局部异常方面具有优越性,在像素级AUC - PR指标上相较于现有模型提升了11 - 14%,可在https://github.com/farzad-bz/DeCo-Diff获取代码。

3.7 TailedCore: Few-Shot Sampling for Unsupervised Long-Tail Noisy Anomaly Detection

论文地址

《TailedCore:用于无监督长尾噪声异常检测的少样本采样》

在这里插入图片描述
摘要:我们旨在解决实际且具有挑战性环境下的无监督异常检测问题,在这种环境中,正常数据集既受到缺陷区域的污染,其产品类别分布也是长尾且未知的。我们观察到现有模型易受尾端噪声干扰,即当存在大量噪声样本时,其性能会下降,反之亦然。为应对这一问题,我们独立处理尾端噪声和类别噪声。为此,我们提出TailSampler,这是一种新颖的类预测器,它基于类嵌入相似性的对称假设来估计样本的类基数,从而实现对长尾类别的分布处理。TailSampler能够专门对尾端样本进行欠采样,使它们可以分开处理。基于这些成果,我们构建了基于记忆的无监督长尾噪声异常检测模型TailedCore,它兼具鲁棒性和噪声抑制能力。我们全面验证了TailedCore在无监督长尾噪声异常检测设置中的有效性,并表明TailedCore在大多数情况下优于当前最先进的方法。代码可在TailedCore获取。

3.8 Unraveling Normal Anatomy via Fluid-Driven Anomaly Randomization

论文地址

《通过流体驱动的异常随机化揭示正常解剖结构》

在这里插入图片描述
摘要:数据驱动的机器学习在医学图像分析领域取得了显著进展。然而,大多数现有方法针对特定的形态和特定分辨率(通常是各向同性)的图像进行设计。这限制了它们在临床环境中的适用性,因为在临床中,扫描参数、分辨率和方向存在差异。此外,大多数通用模型是为健康受试者设计的,在处理病理情况时会出现性能下降。我们在此介绍UNA(Unraveling Anomaly,解析异常),这是首个能够同时处理正常扫描病理病例的异常诊断学习方法。我们提出一种流体驱动的异常随机化方法,可生成无限数量的真实病理图谱。UNA通过合成数据真实数据的组合进行训练,能够直接应用于真实图像,且无需微调即可检测病理。我们展示了UNA在异常检测方面的直接应用,同时使用合成和真实图像进行了3D健康和疾病扫描的分割,包括CT和MRI扫描。通过在病变图像上实现通用模型的应用,UNA为大规模分析未筛选临床数据开辟了新途径。代码可在https://github.com/peirong26/UNA获取。

3.9 Advancing Generalizable Tumor Segmentation with Anomaly-Aware Open-Vocabulary Attention Maps and Frozen Foundation Diffusion Models

论文地址

《利用异常感知开放词汇注意力图和冻结基础扩散模型推进可泛化肿瘤分割》

在这里插入图片描述
摘要:我们探索可泛化的肿瘤分割,目标是训练一个单一模型,以实现对不同解剖区域肿瘤的零样本分割。现有方法在分割质量、可扩展性以及适用成像模态范围等方面存在局限。在本文中,我们揭示了扩散模型内部医学特征表示的潜力,通过引入一种名为DiffuGTS的新颖框架,将其转变为高效的肿瘤分割零样本学习器。DiffuGTS 基于注意力掩码生成开放词汇表借助文本提示实现可泛化的分割,而不受预定义异常类别列表的限制。为进一步改进和优化异常分割掩码,DiffuGTS利用扩散模型,将病理区域转化为高质量的伪健康对应区域,通过潜在空间重绘实现,并应用像素级和特征级残差学习方法,显著提升了分割掩码的质量和泛化能力。在四个数据集和七个肿瘤类别上进行的全面实验表明,我们的方法性能卓越,在多个零样本设置中超越了当前最先进的模型。代码可在https://github.com/Yankai96/DiffuGTS获取。

3.10 Dinomaly: The Less Is More Philosophy in Multi-Class Unsupervised Anomaly Detection

论文地址

《Dinomaly:多类别无监督异常检测中的少即是多理念》

在这里插入图片描述
摘要:近期研究强调了无监督异常检测(UAD)的一种实际应用场景,即构建一个可扩展的多类别图像检测模型。尽管在应对这一具有挑战性的任务方面取得了各种进展,但在多类别设置下的检测性能仍落后于最先进的类别分离方法。我们的研究旨在缩小这一显著的性能差距。在本文中,我们提出Dinomaly,这是一种极简的基于重建的异常检测框架,它利用纯Transformer架构,无需依赖复杂设计、专用模块或特殊技巧。鉴于这种强大的基础架构主要由仅含==注意力机制的多层感知器(MLPs)==组成,我们发现有四个简单组件对多类别异常检测至关重要:(1)可扩展基础Transformer,用于提取通用且具区分性的特征;(2)噪声瓶颈,由现有的Dropouts实现所有噪声注入技巧;(3)自然无法聚焦的线性注意力;(4) 宽松重构,其不会强制最后一层进行逐点重构。 我们在包括MVTec - AD、VisA、Real - IAD等在内的多个重要异常检测基准数据集上进行了广泛实验。我们提出的Dinomaly在三个数据集上的AUC - PR分数分别达到99.6%、98.7%和89.3% ,这不仅优于最先进的多类别UAD方法,还实现了一些最先进的类别分离UAD记录。代码可在https://github.com/guojiajeremy/Dinomaly获取。

3.11 One-for-More: Continual Diffusion Model for Anomaly Detection

论文地址

《一专多能:用于异常检测的持续扩散模型》

在这里插入图片描述
摘要:随着生成模型的兴起,人们越来越有兴趣在一个生成框架内统一所有任务。异常检测方法也属于这个范畴,当给定任意异常图像时,利用扩散模型来生成或重建正常样本。然而,我们的研究发现,扩散模型存在“忠实度幻觉”和“灾难性遗忘”问题,无法适应不可预测的模式增量。为缓解上述问题,我们提出一种连续扩散模型,该模型使用梯度投影来实现稳定的连续学习。梯度投影采用正则化来指导模型更新,使其朝着保护已学知识的方向进行。但作为一把双刃剑,它也会因马尔可夫过程而带来巨大的内存开销。因此,我们提出一种基于线性表示传递性的迭代奇异值分解方法,该方法几乎不会消耗内存和计算资源,同时将“过拟合”风险降至正常图像水平。最后,考虑到扩散模型的局限性,我们提出一种异常掩码网络来增强连续异常检测的条件机制。我们的模型在1718个MVTec和VisA场景的设置中首次实现了连续异常检测。代码可在https://github.com/FuNz-0/One-for-More获取。

3.12 Unseen Visual Anomaly Generation

论文地址

《未见视觉异常生成》

在这里插入图片描述
摘要:视觉异常检测(AD)因异常数据样本稀缺而面临重大挑战。尽管已有众多研究致力于合成异常样本,但这些方法要么侧重于合成的真实性,要么需要大量训练数据,这限制了它们在实际场景中的适用性。在本文中,我们提出AnomalyAny(任意异常),这是一种新颖的框架,利用稳定扩散(SD)的图像生成能力来生成多样且逼真的异常样本。通过以单个正常样本为条件,AnomalyAny能够根据文本描述为任意对象类型生成未见异常。在AnomalyAny中,我们提出注意力引导的异常优化以引导稳定扩散(SD)关注生成硬异常样本。此外,我们引入提示引导的异常细化,通过整合详细描述进一步提高生成质量。在MVTec AD和VisA数据集上进行的大量实验表明,AnomalyAny在生成高质量未见异常方面行之有效,并且在增强下游AD性能方面表现出色。我们的演示和代码可在https://hansunhayden.github.io/AnomalyAny.github.io/获取。

3.13 AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP

论文地址

《AA - CLIP:通过异常感知CLIP增强零样本异常检测》

在这里插入图片描述
摘要:异常检测(AD)用于识别异常值,应用于缺陷和病变检测等领域。虽然CLIP在零样本AD任务中展现出潜力,但其缺乏对正常和异常特征的区分能力,导致无法准确识别异常。为解决这一问题,我们提出Anomaly - Aware CLIP(AA - CLIP),它在增强CLIP区分异常能力的同时保留了其泛化能力。AA - CLIP通过一个简单而有效的两阶段策略实现:首先,创建异常感知锚点,以清晰区分正常和异常语义,然后进行精确的补丁级视觉特征处理;其次,借助残差适配器,在受控环境中逐步调整CLIP,在保持CLIP类别知识的同时实现有效的AD。大量实验验证了AA - CLIP是零样本AD任务中一种资源高效的解决方案,在工业和医疗应用中达到了领先水平。代码可在https://github.com/Mwxinnn/AA-CLIP获取。

3.14 Bayesian Prompt Flow Learning for Zero-Shot Anomaly Detection

论文地址

《用于零样本异常检测的贝叶斯提示流学习》

在这里插入图片描述
摘要:最近,视觉 - 语言模型(如CLIP)在零样本异常检测(ZSAD)中展现出显著优势。通过利用辅助数据进行训练,这些模型能够直接在目标数据集上进行跨类别异常检测,比如检测工业产品表面的缺陷或识别器官组织中的肿瘤。现有的方法通常通过手动设计或可学习提示向量的优化来构建文本提示。然而,这些方法面临一些挑战:1)手工制作的提示需要大量专业知识且容易出错;2)单一形式的可学习提示难以捕捉复杂的异常语义;3)无约束的提示空间限制了模型对未见类别的泛化能力。为解决这些问题,我们提出贝叶斯提示流学习(Bayes - PFL),从贝叶斯的角度将提示空间建模为一个可学习的概率分布。具体而言,我们设计了一个提示流模块来学习特定于图像和与图像无关的分布,这些分布共同用于规范文本提示空间并提高模型对未见类别的泛化能力。然后对学习到的分布进行采样,以生成多样的文本提示,从而有效地覆盖提示空间。此外,我们引入了残差交叉模态注意力(RCA)模块,以更好地将细粒度图像特征与文本嵌入对齐。在15个工业和医疗数据集上进行的大量实验证明了我们方法的优越性。代码可在https://github.com/xiaozhen228/Bayes-PFL获取。

3.15 AnomalyNCD: Towards Novel Anomaly Class Discovery in Industrial Scenarios

论文地址

《AnomalyNCD:迈向工业场景中新异常类别的发现》

在这里插入图片描述
摘要:近年来,多类别异常分类受到越来越多的关注。以往的方法在对异常进行直接聚类时,常因缺乏异常先验知识而面临困难。获取这类知识存在两个问题:异常的不突出性以及语义较弱的异常情况。在本文中,我们提出AnomalyNCD,这是一种多类别异常分类网络,可与不同的异常检测方法兼容。为解决异常不突出的问题,我们设计了主元素二值化(MEBin)方法,以获取以异常为中心的图像,确保仅学习异常部分,避免受到错误检测的影响。接下来,为学习语义较弱的异常,我们设计了掩码引导表示学习方法,该方法聚焦于掩码引导的孤立异常,并通过校正伪标签减少错误输入带来的混淆。最后,为实现灵活的区域和图像级别分类,我们开发了一种区域合并策略,根据分类的异常区域确定整体图像类别。我们的方法在MVTec AD和MTD数据集上超越了当前的先进方法。与当前的零样本异常检测方法相比,AnomalyNCD在MVTec AD上的F1分数提升了10.8%,在MTD上提升了8.8% ,平均增益分别为5.7%和10.8% 。代码可在https://github.com/HUST - SLOT/AnomalyNCD获取。

四、多模态异常检测

4.1 UniNet: A Contrastive Learning-guided Unified Framework with Feature Selection for Anomaly Detection

论文地址:GitHub版本 arxiv未发布

《UniNet:一种由对比学习引导并带有特征选择的统一异常检测框架》

在这里插入图片描述
摘要:异常检测(AD)是一项至关重要的视觉任务,旨在识别样本中的异常模式。然而,大多数现有的AD方法泛化能力有限,因为它们主要是为特定领域的应用(如工业场景)设计的,并且在应用于其他领域时往往表现不佳。这种挑战在很大程度上源于领域之间特征的不一致性。为了缩小这一差距,我们引入UniNet,这是一种通用框架,将有效的特征选择对比学习引导的异常检测相结合。UniNet由学生 - 教师模型一个瓶颈结构组成,具有几个关键创新:首先,我们提出领域相关特征选择,学生在教师的指导下选择和关注代表性特征,同时恢复教师的领域相关先验,从而有效地对其进行重新利用。其次,开发了相似性对比损失函数,以加强异常特征与正常特征之间的相关性。同时,引入了边缘损失函数,以增强异常与正常之间的可分离性,有效地提高模型区分异常的能力。第三,我们提出一个加权决策机制,以动态评估异常分数,从而实现稳健的异常检测。在11个现有数据集上进行的大规模实验表明,UniNet在多个指标上显著优于现有方法。

五、视频异常检测

5.1 Just Dance with π! A Poly-modal Inductor for Weakly-supervised Video Anomaly Detection

《与π共舞!用于弱监督视频异常检测的多模态诱导器》

在这里插入图片描述
摘要:视频异常检测(VAD)的弱监督方法传统上仅基于RGB时空特征,这在实际场景中严重限制了它们的泛化能力。这是因为RGB特征在区分看似相似的类别时不够独特,尤其是在视觉上相似的事件中。因此,为了在复杂的现实世界VAD中实现稳健的性能,必须努力丰富RGB时空特征加入额外的模态。受此启发,我们提出了用于VAD的多模态诱导框架:“π - VAD”(或Poly - VAD),这是一种通过五种额外模态增强RGB表示的新方法。具体而言,这些模态包括细粒度运动(Pose)、三维场景和实体表示(Depth)周围物体(Panoptic masks)、全局运动(光流)以及语言线索(VLM) 。每种模态代表多边形的一条轴,经过整合为RGB添加显著线索。π - VAD包括两个即插即用模块,分别是伪模态生成模块交叉模态注入模块,它们生成模态特定的原型表示,从而通过从RGB线索中引入多模态信息来诱导模态感知任务。值得注意的是,π - VAD仅在训练期间需要模态主干,在三个突出的VAD数据集上实现了最先进的性能,且无需五个模态主干带来的计算开销。

5.2 UniVAD: A Training-free Unified Model for Few-shot Visual Anomaly Detection

论文地址

《UniVAD:一种用于少样本视觉异常检测的免训练统一模型》

在这里插入图片描述
摘要:视觉异常检测(VAD)旨在识别图像中偏离正常模式的异常样本,其涵盖多个领域,包括工业、逻辑和医疗领域。由于这些领域之间存在领域差距,现有的VAD方法通常是针对特定领域定制的,采用专门的检测技术和模型架构,难以在不同领域间进行泛化。此外,即使在同一领域内,当前的VAD方法也常遵循“一类一模型”的模式,需要大量的正常样本,这限制了模型的泛化能力,阻碍了统一的跨领域评估。为解决这一问题,我们提出了一种通用的少样本方法UniVAD,它能够检测各种领域(如工业、逻辑和医疗)中的异常,且仅需少量正常样本作为参考对象,无需训练特定领域的模型。具体而言,UniVAD采用了基于聚类和视觉基础模型的上下文组件聚类(C³)模块,以准确分割图像内的组件,并结合图增强组件建模(GECM)模块组件感知补丁匹配(CAPM)模块来检测不同语义层次的异常,最终生成检测结果。我们在九个涵盖工业、逻辑和医疗领域的数据集上进行了实验,结果表明,UniVAD在少样本异常检测任务中实现了卓越的性能,在多个领域的表现优于特定领域的异常检测模型。代码可在https://github.com/FantasticGNU/UniVAD获取。

5.3 Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity

论文地址

《福尔摩斯 - VAU:迈向在任何粒度下对视频异常的长期理解》

在这里插入图片描述
摘要:我们如何让模型理解在不同时间尺度和语境下发生的视频异常情况?传统的视频异常理解(VAU)方法侧重于帧级别的异常预测,往往会遗漏对复杂多样的现实世界异常的解读。近期的多模态方法结合了视觉和文本数据,但缺乏层次化标注。为了解决这一问题,我们引入了HiVAU - 70k,这是一个大规模的视频异常理解基准,涵盖了短期和长期异常情况。为了应对这一挑战,我们开发了一种半自动化标注方法,将高质量的异常标注与高效的视频分割相结合,并通过使用大语言模型(LLMs)进行递归自由文本标注。这产生了超过70,000个按剪辑级、事件级和视频级片段组织的多粒度标注。为了实现高效的异常检测和长时间理解,我们提出了以异常为重点的时间采样器(ATS)ATS将异常分数整合到时间轴中,根据异常分数自适应地选择帧,促使多模态大语言模型关注异常丰富区域,从而显著提高效率和准确性。大量实验表明,我们的层次化指令数据显著提升了异常理解能力。整合了ATS和视觉 - 语言模型的方法在处理长视频时,在基准测试和模型性能方面均优于现有方法。我们的代码和模型可在https://github.com/pipixin321/HolmesVAU获取。

5.4 VERA: Explainable Video Anomaly Detection via Verbalized Learning of Vision-Language Models

《VERA:通过视觉 - 语言模型的语言化学习实现可解释视频异常检测》

在这里插入图片描述
摘要视觉 - 语言模型(VLMs)的快速发展为视频异常检测(VAD)确立了新范式:借助VLMs同时检测异常并为决策提供可理解的解释。该方向的现有工作通常假定VAD所需的复杂推理在VLMs能力范围内。因此,这些方法要么在推理时纳入专门的推理模块,要么通过额外训练依靠指令调整数据集来改进VLMs。然而,这些策略往往会带来显著的计算成本或数据标注负担。为应对可解释VAD中的这些挑战,我们引入了VERA,这一通用学习框架使VLMs无需模型参数修改即可执行VAD。具体而言,VERA 自动将VAD所需的复杂推理分解为反思性查询,即更聚焦的引导性问题,用以捕捉不同的异常模式。它将反思性查询视为可学习参数,并通过粗标注训练数据进行数据驱动的交互来对其进行优化。在推理时,VERA 将学习到的查询嵌入模型提示中,引导VLMs生成片段级异常分数,然后通过融合场景和时间上下文将其细化为帧级分数。在具有挑战性的基准上进行的实验表明,VERA的设计高度适配,显著提升了异常检测性能以及VAD的可解释性。

5.5 Anomize: Better Open Vocabulary Video Anomaly Detection

论文地址

《Anomize:更好的开放词汇视频异常检测》

在这里插入图片描述
摘要:开放词汇视频异常检测(OVVAD)旨在检测和分类基础异常与新异常。然而,现有方法面临两个与新异常相关的特定挑战。第一个挑战是检测模糊性,即模型难以给不熟悉的异常准确分配异常分数。第二个挑战是类别混淆,新异常在视觉上与基础实例相似时,往往会被错误分类。为应对这些挑战,我们通过利用多种来源的视觉数据,结合多层面的匹配文本信息,来缓解检测模糊性。此外,我们引入标签关联来指导新标签的编码从而改进新视频及其对应标签之间的对齐,有助于减少类别混淆。由此产生的Anomize框架有效地解决了这些问题,在UCF - CRIME和XD - VIOLENCE数据集上实现了卓越性能,证明了其在OVVAD中的有效性。

六、未发布

6.1 Beyond Single-Modal Boundary: Cross-Modal Anomaly Detection through Visual Prototype and Harmonization

《超越单模态边界:通过视觉原型与协调进行跨模态异常检测》

未发布

6.2 PIAD: Pose and Illumination agnostic Anomaly Detection

相关链接:论文还未发布

《PIAD:姿态与光照无关的异常检测》

未发布

6.3 Noise-Resistant Video Anomaly Detection via RGB Error-Guided Multiscale Predictive Coding and Dynamic Memory

《通过RGB误差引导的多尺度预测编码和动态记忆实现抗噪声视频异常检测》

未发布

6.4 DFM: Differentiable Feature Matching for Anomaly Detection

论文相关链接:未发布

《DFM:用于异常检测的可微特征匹配》

未发布

6.5 Track Any Anomalous Object:A Granular Video Anomaly Detection Pipeline

《追踪任何异常物体:一种细粒度视频异常检测流程》

未发布

6.6 EchoTraffic: Enhancing Traffic Anomaly Understanding with Audio-Visual Insights

《EchoTraffic:通过视听洞察增强对交通异常的理解》

未发布

6.7 PatchGuard: Adversarially Robust Anomaly Detection and Localization through Vision Transformers and Pseudo Anomalies

《PatchGuard:通过视觉变换器和伪异常实现对抗鲁棒的异常检测与定位》

未发布

6.8 OralXrays-9: Towards Hospital-Scale Panoramic X-ray Anomaly Detection via Personalized Multi-Object Query-Aware Mining

《口腔X光 - 9:通过个性化多目标查询感知挖掘实现医院规模的全景X光异常检测》

未发布

6.9 A Unified Latent Schrödinger Bridge Diffusion Model for Unsupervised Anomaly Detection and Localization

《用于无监督异常检测与定位的统一潜在薛定谔桥扩散模型》

未发布

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值