Catching Both Gray and Black Swans: Open-set Supervised Anomaly Detection

本文探讨了开放集监督异常检测,旨在利用有限的异常样本检测已知和未知异常。提出了一种名为DRA的新方法,它通过分解表示学习异常,包括所见异常、伪异常和潜在残余异常,以检测可见和不可见的异常。实验表明,DRA在9个真实世界数据集上显著优于其他SotA模型,尤其是在检测未见过的异常方面。
摘要由CSDN通过智能技术生成

Catching Both Gray and Black Swans: Open-set Supervised Anomaly Detection
摘要

尽管大多数现有的异常检测研究只假设有正常的训练样本,但在许多现实世界的应用中往往有一些标记的异常例子,如随机质量检查中发现的缺陷样本,日常医疗检查中由放射科医生确认的病变图像等。这些异常例子提供了关于特定应用异常的有价值的知识,使得在最近的一些模型中对类似异常的检测有了明显的改善。然而,在训练过程中看到的那些异常往往不能说明每一种可能的异常类别,使得这些模型不能有效地归纳出未见过的异常类别。本文讨论了开放集监督的异常检测,其中我们使用异常实例学习检测模型,目的是检测已见的异常("灰天鹅")和未见的异常("黑天鹅")。我们提出了一种新的方法,学习由所见异常、伪异常和潜伏的残余异常(即在潜伏空间中与正常数据相比具有不寻常的残余的样本)所说明的异常的分解表示,最后两种异常被设计用来检测未见异常。在9个真实世界的异常检测数据集上进行的广泛实验表明,我们的模型在不同的设置下,在检测可见和不可见的异常方面有卓越的表现。代码和数据可在以下网站获得:https://github.com/choubo/DRA

1. 引言

异常检测(AD)旨在识别不符合预期模式的特殊样本[36]。它在不同领域有广泛的应用,例如,医学图像分析中的病变检测[49, 57, 71],工业检测中的微裂纹/缺陷检测[3,4],视频监控中的犯罪/事故检测[11, 21, 52, 70],以及自动驾驶中的未知物体检测[10, 56]。现有的大多数异常检测方法[2,8,11,13,33,39,39,42,44,46,47,49,58-60,69,74]是无监督的,它们假设只有正常的训练样本,即无异常的训练数据,因为很难,甚至不可能收集大规模的异常数据。然而,在许多相关的实际应用中,往往有少量(例如,一个到多个)标记的异常实例,例如在随机质量检查中发现的一些缺陷样本,日常医疗检查中由放射科医生确认的病变图像等。这些异常实例提供了关于特定应用异常的宝贵知识[30, 35, 37, 45],但无监督检测器无法利用它们。

由于缺乏关于异常的知识,无监督模型中学习的特征没有足够的鉴别力来区分异常(尤其是一些具有挑战性的异常)和正常数据,如图1中的KDAD[47],一个最近最先进的(SotA)无监督方法,在两个MVTec AD缺陷检测数据集[3]上的结果说明了这一点。近年来,有一些研究[30,35,37,45]在探索监督检测范式,旨在利用那些小的、容易获得的异常数据--罕见但先前发生的特殊案例/事件,又称灰天鹅[23]--来训练异常情况下的检测模型。这条线上目前的方法主要是使用单类度量学习来拟合这些异常例子,将异常现象作为负面样本[30,45]或单侧的以异常现象为重点的偏差损失[35,37]。尽管异常数据的数量有限,但他们在检测与训练期间看到的异常例子相似的异常现象方面取得了很大的改进。然而,这些看到的异常往往不能说明每一类可能的异常,因为

i)异常本身是未知的,

ii)看到的和未看到的异常类别可能在很大程度上彼此不同[36],例如,颜色污渍的缺陷特征与皮革缺陷检测中的褶皱和切割的缺陷特征非常不同。

因此,这些模型可以过度拟合所看到的异常现象,而不能归纳到未见/未知的异常类--罕见的和以前未知的特殊案例/事件,又称黑天鹅[55],如图1中DevNet[35, 37]的结果所示,DevNet在检测所看到的异常现象方面比KDAD有所改进,但未能将未见的异常现象与正常样本区分开。事实上,这些监督模型可能会被给定的异常例子所误导,在检测未见的异常现象方面变得不如无监督的检测器有效(见图1中DevNet与KDAD在Tile数据集上的对比)。

 

图1. SotA非监督模型(KDAD[47])和监督模型(DevNet[35, 37])以及我们的开放集监督模型(DRA)在两个MVTec AD数据集(Leather和Tile)的测试数据上学到的特征的t-SNE可视化。KDAD只用正常数据进行训练,学习的鉴别特征比DevNet和DRA少,而DevNet和DRA除了正常数据外,还用所看到的异常类的十个样本进行训练。DevNet容易对看到的异常情况进行过度拟合,无法将未看到的异常情况与正常数据区分开来,而DRA则有效地缓解了这个问题。

为了解决这个问题,本文讨论了开放集监督异常检测,在开放集环境中,检测模型是使用小的异常例子来训练的,也就是说,目标是检测看到的异常("灰天鹅")和未看到的异常("黑天鹅")。为此,我们提出了一种新的异常检测方法,称为DRA,它可以学习异常情况的分解表征,以实现普遍的检测。特别是,我们将无界的异常情况分解为三个大类:与有限的可见异常情况相似的异常情况、与从数据增强或外部数据源创建的伪异常情况相似的异常情况,以及在一些基于潜在残差的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值