引用论文分析

A Survey on Visual Anomaly Detection:Challenge, Approach, and Prospect

3 当前热点
3.1关注样本数

无监督的VAD。
无监督的VAD专注于识别专门针对特定类别的正常样本进行训练的异常现象[Cao等人,2023a]。其主要目标是对正态特征的分布进行建模,通常包括两个子步骤:特征提取和分布建模。最近的进展主要使用预先训练的神经网络,如ResNet进行特征提取。分布建模的四种主要方案包括存储库、重构、知识蒸馏和基于流程的方法。基于记忆库的方法,例如PatchCore [Roth et al.,2022],直接存储训练正常样本的特征。然后,他们利用测试样本和存储库之间的最近距离来对异常情况进行评分。通过选择训练集中最具代表性的特征,记忆库可以很小且具有代表性,确保高效和有效的VAD。基于重构的技术,如DFR [Shi等人,2020]和知识蒸馏方法,例如RD4AD [Deng和Li,2022]和ViTAD [Zhang等人,2023b],需要使用二次可训练网络对提取的正常特征进行回归。在基于重构的方法中,这种可训练的网络被称为自动编码器,而在基于知识蒸馏的方法中,它被称为学生网络。由于可训练网络只使用正常样本进行训练,因此预计会对异常样本产生大量的回归误差。相比之下,基于流的模型[Gudovskiy等人,2021]利用一个归一化流框架来自动描述正态特征的分布,并明确估计被测试特征的可能性。
然而,上述VAD方法经常面临一个问题,由于边界描述不精确,异常的异常分数可能意外地较低,这归因于所使用的神经网络的泛化能力,在CDO中称为过度泛化[Cao et al.,2023a]。
为了缓解过度泛化,一些方法,如Draem[扎夫塔尼克等人,2021] MRKD [Jiang等人,2023]和DAF [Cai等人,2023],引入了合成异常。因此,模型不仅要负责回归正态特征分布,而且还要对合成异常产生大量的回归误差。MemKD [Gu等人,2023]通过显式存储一个内存库来解决过度泛化的问题,确保输出只代表正常特征。类似地,TFA-Net [Luo等人,2024]提出了在正常模板的明确指导下恢复正常特征。当面对异常输入时,这些方法会导致显著的回归误差。

3.2 关注数据模态

3d感知表示。几何信息,通常被表示为像点云这样的三维数据,是视觉实体的大小和形状的直接表现。为点云VAD设计的两个值得注意的数据集分别是MVTec 3D [Bergmann等人,2022b]和Real3D [Liu等人,2023a]。这些数据集包含高分辨率的点云,便于识别细微的几何偏差。 与图像VAD类似,点云VAD方法可以大致分为两个子步骤[Cao et al.,2023b]:特征提取和分布建模。 在图像领域,许多有效的现成的预训练模型可以作为特征提取器,而预训练的点云神经网络缺乏鲁棒性[伯格曼和萨特莱格,2023]。因此,在[伯格曼和萨特莱格,2023]中引入的一种自监督学习方案,旨在为点云VAD构建一个更有弹性的特征提取器。随后,采用了一种基于知识蒸馏的方法来进行分布建模。另一方面,CPMF [Cao et al.,2023b]将点云转换为多视图深度图像,允许使用已建立的预训练图像模型进行点云特征提取。然后,CPMF结合补丁核心[Roth等人,2022]进行分布建模。总之,与大量现成的RGB图像模型不同,对于其他模式的鲁棒模型也很有限。 现有的考虑三维模态的VAD方法通常特别强调学习描述性特征。

多模态。
在特定的场景下,使用多模态数据增强了VAD的全面性,例如3D和RGB模态的共存。一些方法被明确地设计来改进来自这些模式的表示的融合。例如,BTF [Horwitz和Hoshen,2023]直接连接了3D和RGB表示,利用它们作为补丁核心的输入[Roth等人,2022]。在BTF的基础上,M3DM [Wang等人,2023]结合了这两种模式的对比学习,促进了它们之间的协同作用。
类似地,形状引导[Chu et al.,2023]集成了由形状特征引导的两种表示。然而,这些方法严重依赖于预先训练好的网络,可能缺乏鲁棒性,特别是在点云网络的背景下[Horwitz和Hoshen,2023]。
相比之下,AST [Rudolph等人,2022]选择通过训练不对称的师生对,直接从原始数据中学习点云表示。这对数据可以同时处理RGB和3D数据,从而导致两种模式之间更好的集成。此外,EasyNet [Chen等人,2023a]和3DSR [Zavrtanik等人,2024]生成合成异常RGB和点云数据,为两种模式训练鲁棒特征提取器。本质上,这些针对多模态的方法通常集中于加强跨多种模态的表示的学习和融合。

Incremental Template Neighborhood Matching for 3D anomaly detection

Neurocomputing, 2024

由于在二维异常检测方面的优异性能,模板匹配方法转移到三维异常检测。BTF [16]将点云使用PatchCore [3]的人工特征与RGB特征连接后实现异常检测。人工特征描述符[38,39]仅在检测点云的异常方面优于深度神经网络,其中FPFH [39]表现最好。M3DM [13]分别为名义样本的点云特征和RGB特征构建存储库,而采用无监督对比学习来融合多模态特征,并建立另一个存储库来存储融合模板。采用预先训练好的深度神经网络点变压器[40]来提取点云特征,而不是人工特征描述符。
形状引导[14]构建了一个具有三维特征的双存储库,作为相应区域RGB特征的索引。在推理阶段,搜索查询点云特征的K个最近的三维特征,并将查询的RGB特征与建立索引的RGB特征进行比较。
将稀疏编码技术广泛应用于图像任务[41–43]中,用于重构查询特征,并将重构损失作为异常评分。此外,形状引导采用预先训练好的点网[44]来提取点云特征,并训练NIF [45]进行异常检测。
有些方法只关注点云信息,而不是多模态融合。基于师生体系结构的三维-ST[46]引入了一种新的自监督预训练策略,用于训练能够提取三维局部几何描述符的教师网络。CPMF [47]将点云投影到不同的平面上,从多个视点生成伪二维图像,并通过预先训练好的二维神经网络提取特征。将点云的FPFH特征与伪二维特征融合,形成模板,并将模板存储在存储库中。这两种方法都可以检测到空间结构异常,但难以处理在颜色上出现的异常。

Towards Scalable 3D Anomaly Detection and Localization:A Benchmark via 3D Anomaly Synthesis and A Self-Supervised Learning Network

固定视角下基于图像的异常检测算法[1、7、14、14-16、18、24、26、32-32、32-35、35、42、45]由于盲点存在局限性,在以对象为中心的场景中不能达到预期的效果。因此,研究人员越来越关注异常检测[2]的3D信息。(盲点是啥,意思是指CDO只关注rgb不行吧)

Pad: A dataset and benchmark for pose-agnostic anomaly detection

目视检查中的无监督异常检测。根据最近的一项调查,现有的方法可以分为基于特征嵌入和基于重建的策略。基于特征嵌入的方法,如师生架构[6,51,15,10,35]、类分类[17,56,62,31,22,54]、分布映射[36,42,33,34,18,59,44]和记忆库[32,13,21,2,50],旨在学习输入数据的低维表示,以捕获潜在的模式和异常。基于自编码器(AE)[3,53,61,60,14,46]、生成对抗网络(GANs)[38,37,52,39,23]和变压器[27,58,29,57]模型的重构方法旨在学习一种能够有效重构正常样本的表示方法。重建质量的偏差表明存在异常。BTF[19]显示,仅使用角度有限的RGB图像来确定一个物体是否有缺陷,可以很容易地忽略一些模糊的结构异常。因此,有必要开发利用点云、深度等三维信息的三维异常检测方法。 AST[35]采用带有深度信息的RGB图像来提高异常检测性能。M3DM[47]和CPMF[11]鼓励RGB中不同模式的特征与点云信息的融合,并将三维模态的局部几何信息与伪二维模态的全局语义信息相结合。

Real3D-AD: A Dataset of Point Cloud Anomaly Detection

3D-AD方法。近年来,在2D-AD [33,37,32,26]领域出现了许多高质量的论文。MVTec 3D-AD的发布也引发了人们对3D-AD异常检测方法[15,23,5,28,8]的兴趣。然而,三维异常检测比二维异常检测的研究仍有待完成。有些方法只使用深度信息来去除背景噪声,这限制了深度信息的使用。同时,在不影响性能的情况下结合RGB和深度信息仍然是一个挑战。伯格曼等人[1]提出了一种基于师生模型的点云特征提取网络。在训练过程中,学生和教师网络保持一致的特征,并利用提取的特征的差异在测试过程中定位异常。Horwitz等人的[15]将手工制作的3D描述符与经典的AD方法KNN框架相结合。虽然这两种方法都是有效的,但它们的性能都很差。AST [23]在MVTec 3D-AD中表现良好,但只使用深度信息来删除背景。AST仍然使用2D-AD方法来检测异常,而忽略了物体的深度信息。M3DM [28]分别从点云和RGB图像中提取特征,并融合它们以获得更好的决策。这种方法优于BTF,但严重依赖于预先训练好的大型模型和内存库。CPMF [6]也使用了KNN范式。然而,它从不同的角度将点云投影到二维图像中,显著降低了特征提取的复杂度和计算成本,并将得到的信息融合起来进行检测。 总之,现有的3D-AD模型要么表现不佳,要么严重依赖于预先训练好的模型和内存库。目前目前还缺乏利用点云信息的异常检测方法,该领域可供研究的数据集仅为具有深度信息的MVTec 3D-AD和人工合成的眼镜[3]数据集。为了引起人们对这一领域的关注和研究,我们引入了真实的3D-AD数据集。

Towards Generic Anomaly Detection and Understanding: Large-scale Visual-linguistic Model (GPT-4V) Takes the Lead

5.1
几何信息,如PAD [111]、Real3D [59]和MVTec-3D [8]所讨论的,在工业异常检测等领域起着至关重要的作用,特别是在处理缺乏文本信息的类别时。最近,MVTec 3D [8]和Real3D [59]已经认识到对这类信息的需求日益增长,并引入了点云异常检测任务。该任务的重点是识别所提供的点云[32]内的异常值。值得注意的是,工业图像异常检测的成功并没有完全反映在点云异常检测中。这种差异主要归因于工业图像异常检测依赖于鲁棒的预训练网络[12,75,39]。相反,由于缺乏大量的点云数据,目前经过预训练的点云网络的能力不足,导致一些方法[96,21,9,77]的性能不佳。相比之下,CPMF [16]提出了一种将点云转换为深度图像的新方法,从而为利用基于图像的基础模型来检测点云异常提供了可能性。这种创新的方法显示了显著改善点云异常检测结果的潜力。

EasyNet: An Easy Network for 3D Industrial Anomaly Detection

[7]等人引入了一个师生模型的点云特征提取网络。在训练过程中,学生网络和教师网络提取的特征被迫保持一致。在测试过程中,通过比较了师生模型提取的特征之间的差异来定位异常。Horwitz等人的[17]将手工制作的3D描述符与KNN框架相结合,这是一种经典的AD方法。这两种方法效率较高,但性能较差。AST [29]在MVTec 3D-AD中得到了更好的效果。但它只使用深度信息去除背景,仍然使用2D-AD方法检测异常,忽略了项目的深度信息。与BTF类似,但M3DM [33]分别从点云和RGB图像中提取特征,并将它们融合起来做出决策,这比将RGB和深度作为六通道图像作为BTF具有更好的性能。M3DM的可视化效果如图2的第四行所示。CPMF [10]也采用了KNN范式,但不同之处在于,作者从不同的角度将点云投影到二维图像中,并将获得的二维图像信息融合起来进行检测。

A masked reverse knowledge distillation method incorporating global and local information for image anomaly detection

基于相似性的嵌入方法已经成为检测异常的强大技术。这些方法利用预先训练好的神经网络从复杂的数据结构中提取独特的特征,使它们能够根据它们相对于正常数据的相似性值来识别异常实例。通过测量所提取的特征与测试数据之间的相似度,这些方法可以有效地定位各种应用中的异常实例。例如,SPADE [18]通过测试输入图像和最近的正常图像之间的像素级对应关系来检测异常区域,而其测试复杂度随着训练数据的增加而线性增加。为了降低计算的复杂度,PaDiM [19]在估计斑片级特征高斯分布矩后,基于马氏距离计算特征相似度。尽管如此,这种方法的有效性取决于图像对齐。CPMF [20]和PatchCore [21]进一步提出使用最小选择特征集作为查询集,这显著提高了推理效率,但在准确利用全局和局部信息方面仍然存在问题。基于嵌入的方法在检测各种数据类型的异常方面表现出色,但在准确性和计算复杂度方面仍存在挑战。

  • 13
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值