UAINETS: FROM UNSUPERVISED TO ACTIVE DEEP ANOMALY DETECTION(译)

最新推荐文章于 2024-04-14 16:17:29 发布

ac同学

最新推荐文章于 2024-04-14 16:17:29 发布

阅读量322

点赞数 2

分类专栏： papers 文章标签：算法

本文链接：https://blog.csdn.net/qq_40305043/article/details/104748903

版权

papers 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

UAINETS: FROM UNSUPERVISED TO ACTIVE DEEP ANOMALY DETECTION

匿名作者
双盲评审

译者：a易晴天
（最近边看边翻译一篇active anomaly detection方向的论文UAINETS: FROM UNSUPERVISED TO ACTIVE DEEP ANOMALY DETECTION，花了一整天的时间。希望小可爱们如果觉得译得不错，给晴天点个赞，晴天会更有动力继续将资源分享上来的！（欢迎转发、指错哦

Abstract

这项工作提出了一种主动异常检测的方法，该方法可以建立在现有的深度学习解决方案的无监督异常检测的基础上。我们表明，需要先对异常进行假设，以便在无监督的异常检测中保证性能。我们认为，在实践中，主动异常检测的成本与无监督异常检测相同，但可能会有更好的结果。为了解决这个问题，我们提出了一个新层，该层可以附加到任何针对无监督异常检测而设计的深度学习模型上，以将其转换为一种主动方法，在合成异常检测集和实际异常检测数据集上均显示结果。

1 Introduction

异常检测（也称为离群值检测）（Hodge＆Austin，2004；Chandola等人，2009；Aggarwal，2015）旨在发现不符合多数模式的罕见实例。但是，从业务角度来看，我们不仅对发现罕见实例感兴趣，而且对“有用的异常现象”感兴趣。最近已经对该问题进行了充分的研究（Liu等人，2017；Li等人，2017；Zong等人，2018；Maurus＆Plant，2017；Zheng等人，2017），其解决方案受极值理论（Siffer等，2017），稳健统计（Zhou＆Paffenroth，2017）和图论（Perozzi等，2014）的启发。

无监督异常检测是异常检测的一个子区域，由于标签获取非常昂贵且耗时，因此经常被应用。这是一项特别艰巨的任务，其中通常没有关于这些稀有实例是什么的信息，并且大多数工作使用具有隐式先验或启发式的模型来发现这些异常，从而为数据集中的每个实例提供一个异常得分s(x)。主动异常检测是解决此问题的有力替代方法，在诸如（Veeramachaneni等人，2016；Das等人，2016；2017）的最新工作中已显示出良好的结果。

在这项工作中，我们首先表明，无监督的异常检测需要先假设异常分布。然后，我们主张采用主动异常检测来进行处理，这是一种重要的方法，但尚未得到充分研究（第2节）。我们提出了一个新的层，在这里称为通用异常推断（UAI），该层可以基于深度学习将其应用于任何无监督的异常检测模型之上，以将其转换为活动模型（第3节）。该层使用深度异常检测模型的最强资产（即其学习的潜在表示（ $l$ ）和异常分数（ $s$ ））在少数已经标记的实例上训练分类器。在图1中可以看到这样一个应用程序的示例，其中UAI层建立在Denoising AutoEncoder（DAE）之上。

然后，我们进行了广泛的实验，分析了在合成和真实数据下，在类似预算下我们的系统与无监督，半监督和活动系统的性能，表明我们的算法在没有超参数调整的情况下改善了多个数据集的最新状态（本节4）。最后，我们将模型学习的潜在表示形式可视化，将它们与无监督模型的潜在表示形式进行比较，并分析模型在不同数量标签上的性能（附录C）。
Alt

2 Problem definition

Grubbs（1969）定义了一个异常观测值或离群值，即它似乎明显偏离了它存在的样本中其他成员。霍金斯（Hawkins，1980）指出，离群值是与其他观测值有很大差异的观测值，以至引起人们怀疑它是由不同的机制产生的。而钱多拉（Chandola）等（2009）说，正常数据实例出现在随机模型的高概率区域，而异常发生在低概率的区域。遵循这些定义，特别是来自（Hawkins，1980）的定义，我们假设存在一个概率密度函数，可从中生成“正常”数据实例： $X_{normal}〜p_{normal}(x)= p(x | y = 0)$ ，其中x是实例的可用信息（用我们的符号表示，x是有关数据实例的已知信息。这可以进一步包括在监督设置下实际上是x和y的内容，例如图像及其相应的类别标签。我们在这里将其称为 $x_x$ 和 $x_y$ 。），y是表示该点是否异常的标签。还有一个不同的概率密度函数可以从中采样异常数据实例： $X_{anom}〜p_{anom}(x)= p(x | y = 1)$ 。
完整的数据集由正常实例和异常实例组成，并从以下概率分布中采样：
Alt

其中λ是通常较小的常数，代表随机数据点出现异常的概率(λ= p(y = 1))，该常数可以是先验已知或未知。 Chandola等（2009）将异常检测学习系统分为三种类型：
•有监督的：针对非异常和异常情况，提供了带有人工标记的标签的训练和测试集。这种情况类似于不平衡监督分类设置：
$D_{train / test} =（X，Y）_{train / test}〜p_{full}(x，y)$
•半监督：可提供仅包含非异常实例的训练集，而挑战是识别测试集中的异常实例。这也称为新颖性检测：
$D_{train} = X_{train}〜p_{normal}(x)$
$D_{test} = X_{test}〜p_{full}(x)$
•无监督：可提供包含非异常实例和异常实例的数据集，而挑战在于识别其中的异常实例。没有测试集的概念，因为异常实例必须在数据集本身中排序：
$D = X〜p_{full}(x)$

2.1 UNSUPERVISED ANOMALY DETECTION

在这项工作中，我们将专注于无监督的异常检测。在这里，拥有点X~ $p_{full}(x)$ 的全部集合，我们想要找到一个由异常实例组成的子集 $X_{anom}⊂X$ 。完全分布 $p_{full}$ 是分布的混合，如果这些分布非常紧密地重叠，则可能无法了解超出某个准确度阈值的单个分布（Dasgupta等，2005）。众所周知的结果是，一般的混合模型无法识别（Aragam等人，2018; Bordes等人，2006）。在序列中，我们进一步表明，在没有先验异常概率分布的情况下，对于任何小的λ，我们都不会从 $p_{full}$ 获得有关 $p_{anom}$ 的信息。这与通常无法确定混合模型的结果不同，混合模型的结果是我们没有对 $p_{normal}$ 的先验做出任何假设，表明 $p_{anom}$ 的所有有效分布都是同等可能的。
Alt

从定理1可以得出结论，无监督的异常检测需要对异常分布有一个先验。在图2中可以看到一个更明显的示例，其中我们展示了一个合成数据分布，该分布由三个类别的数据组成，这些数据簇聚在四个明显可分离的群集中。在这种情况下，如果没有更多信息，异常检测是无法确定的问题，因为不可能知道是低密度簇由异常组成还是异常是未聚簇的低密度点（或两者的组合）。

如果我们使用高容量模型对图2中的数据分布进行建模，则低密度点（右）将被检测为异常。如果我们使用低容量模型，则群集（中心）可能会呈现较高的异常分数。我们选择的算法隐含地在检测到的异常上施加先验。定理1强调了这一点，并使得需要明确考虑先验。
Alt
图2：无法确定的异常数据分布示例：（左）原始数据分布；（中心）可能的群集异常；（右）可能的低密度异常。

在更实际的示例中，假设我们正在处理临床数据。在这种情况下，某些低密度聚类可能表示疾病（异常），而其他低密度聚类可能是由数据中不受控制的因素（例如，高水平的运动员）引起的。同时，稀有疾病看起来像是分散的（低密度）点。我们希望能够区分异常和“无趣的”低概率点。

3 MODEL

处理无监督异常检测问题时，通常的策略是训练参数化模型 $p_θ(x)$ 以捕获完整数据分布 $p_{full}(x)$ （例如PCA或AutoEncoder），并且由于λ从定义上来说是一个小常数，假设 $p_{full}(x)\approx$ $p_{normal}(x)$ 并假设低概率点是异常的（Zhou＆Paffenroth，2017）。然后将异常分数s(x)定义为 $s(x)=\frac{1}{p(x)}$ 。

此策略存在三个主要问题：（1）如果异常项比预期的更为普遍，则可能不是正常值的近似值；（2）如果异常项以某种方式紧密地聚类，则高容量模型可能会学会将该聚类识别为高概率区域；（3）如果异常项比预期的少，因为我们只能访问，定理1指出，如果没有进一步假设的概率分布，我们就无法获得有关的信息。

由于性能不确定，大多数无监督异常检测系统也已经依靠人类专家对结果进行进一步验证。主要用作排名系统，以使高概率实例出现在“列表”顶部，以供这些专家进一步审核。

根据定理1，我们得出结论，不可能有一个通用且可靠的无监督异常检测系统，而我们知道大多数此类系统已经依赖于人类专家随后审核的数据。这些论点共同支持一种主动的异常检测学习策略，包括系统培训循环中的审核专家。因此，预期反馈并从中受益以找到更多异常实例，这将导致系统更强大。在这个问题中拥有极不平衡的数据集（λ≈0）也是主动学习设置的另一种理由，与有监督设置相比，主动学习设置可能需要成倍减少标记数据（Settles，2012）。

3.1 ACTIVE ANOMALY DETECTION

出于这些动机，我们主张采用主动异常检测方法，尽管它有许多优点，但在这个问题上它仍然是一个有待探索的方法。尽管如此，最近的工作已经显示出令人鼓舞的结果（Veeramachaneni等，2016; Das等，2016; 2017）。在无监督异常检测中，我们从数据集 $\lbrace x | x〜p_{full}(x)\rbrace$ 开始，并希望对该数据集中的元素进行排名，以使我们在特定预算 $b$ 下拥有最高的召回率/精度。 $b$ 是指要由专家审核的元素的数量，这些元素在异常标签上没有任何先验信息。

在主动异常检测中，我们也从一个完全未标记的异常检测数据集 $\lbrace x | x〜p_{full}(x)\rbrace$ 开始，但是我们没有对异常进行排名并立即将其发送给我们的专家进行审核，而是选择了小部分，等待专家反馈后再继续。我们迭代地选择最有待审核的 $k （ k < < b ）$ 个元素(尽管这似乎是一种简单化的方法，但在实际情况下选择排名前k个异常是一个不错的策略，因为我们希望在任何给定的预算中拥有最多的异常。此外，由于异常检测已经是一个高度失衡的问题，因此即使仅选择顶部的异常结果，我们也可能不会出现异常实例，因此主动搜索它们通常是一个不错的选择。该方法遵循了主动异常检测方面的最新工作（Veeramachaneni等，2016; Das等，2016; 2017）)，等待专家选择其标签，然后继续使用此信息来训练我们的系统，如算法1所示。这需要与无监督异常检测系统相同的预算 $b$ ，同时有可能实现更好的性能。

考虑到这一点，我们开发了通用异常推断（UAI）层。该层可以并入任何基于深度学习的白盒异常检测系统的顶部，该系统提供用于对异常进行排名的异常评分。它以模型创建的潜在表示层（ $l (x)$ ）及其输出异常得分（ $s (x)$ ）为输入，并将其通过分类器以找到项目的异常概率。
Alt
这是由最近的工作所推动的，该工作表明学习的表示具有更简单的统计结构（Bengio等人，2013），这使得对该流形建模和检测非自然点的任务变得更加简单（Lamb等人，2018）。在这项工作中，我们使用简单的逻辑回归作为分类器对UAI层进行建模，但此处可以使用任何体系结构：
Alt
其中 $W_{act}∈R^{1，d + 1}$ 是线性变换， $b_{act}∈R$ 是偏差项，而 $σ(\cdot)$ 是 $S$ 形函数。我们使用反向传播和交叉熵损失函数来学习 $W$ 和 $b$ 的值，同时允许梯度流过 $l$ ，但不能流过 $s$ ，因为 $s$ 可能是不可微的。对于本文档的其余部分，我们将具有UAI层的网络称为UaiNets。图1显示了这种架构的一个示例。

4 EXPERIMENTS

在本节中，我们将在两种不同的体系结构之上测试新的UAI层：去噪自动编码器（DAE，带有 $s_{dae}(x)=||x-\hat{x}||_2^2$ ）和分类器（类，带有 $s_{class}(x)=cross\_entropy(x_y, \hat{x_y})$ )，它们使用标准的多层感知器。附录A.1中详细介绍了这两种体系结构。为了测试我们的算法，我们首先分析其对具有不同属性的合成数据的性能（第4.1节）。然后，我们在真正的异常检测数据集（第4.2节）和半监督设置（第4.3节）中使用 $U a i N e t s$ 展示结果。

4.1 SYNTHETIC DATA

在设计实验时，我们的目标是表明我们的模型可以使用不同的异常定义来工作，而完全无监督的模型将需要根据定义为另一种设置的准确性权衡一种设置的准确性。虽然这看起来很简单，但是这些结果可以显示我们的方法对于基础架构的选择是多么的健壮，分析当基础架构对于特定的“类型”异常有一个糟糕的先验时，他们做得有多好。考虑到这一点，我们使用了MNIST数据集并定义了四组实验：（可以在附录A中找到实现细节，例如使用的体系结构和超参数，以及有关综合MNIST数据集的更多细节。使用MNIST生成合成异常检测数据集遵循最近的工作（Zhou＆Paffenroth，2017； Zhai等人，2016）。由于篇幅所限，我们仅在此处报告全部结果，但附录B.1中可以找到针对较小预算 $(b \leq 5000)$ 放大的相同图。我们还在附录B.3中针对MNIST-Fashion数据集报告了相同的实验，结果相似。）

1. $MNIST_0$ ：对于第一组实验，我们将0位数字类的存在减少到其原始样本数的10％，使其仅占数据集样本的1/91≈1.1％。仍然存在于数据集中的0将其类别随机更改为 $x_y〜Uniform([1; 9])$ ，并被定义为异常。
2. $MNIST_{0-2}$ ：第二组实验遵循相同的数据集结构，但是我们减少了数字0、1和2的实例数量，将这些类别中其余项目的标签更改为 $x_y〜Uniform([3; 9])$ ，并再次将其定义为异常。在此数据集中，异常占数据集的3/73≈4.1％。
3. $MNIST_{hard}$ ：第三组实验旨在测试不同类型的异常。为了创建此数据集，我们首先在MNIST上训练了一个薄弱的隐藏层MLP分类器，然后将所有错误分类的实例选择为异常，将它们保留在其原始属性( $x_x$ 和 $x_y$ )中。在此数据集中，异常占数据集的约3.3％。
4. $MNIST_{pca}$ ：在这组实验中，对于每个图像类别（ $x_y$ ），我们使用PCA将MNIST图像（ $x_x$ ）的维数减少到2，并选择具有最大重建误差的5％实例作为异常。我们将所有60,000个实例保留其原始属性（ $x_x$ 和 $x_y$ ），并且在此数据集中，异常占数据集的5％。

这些实验的结果如图3所示，从它们得出的主要结论是，即使对于每个预算数据集对，我们的算法可能不会获得比其基础模型更好的结果，但对于不同类型的异常，该算法仍然很健壮。底层完全无监督的模型则不是这样。尽管Class在 $MNIST_0$ 和 $MNIST_{0-2}$ 数据集中给出了很好的结果，但在 $MNIST_{hard}$ 和 $MNIST_{pca}$ 中却没有达到相同的性能，这可能表明它比低密度的异常更适合发现聚类异常。同时，对于 $MNIST_{pca}$ 和 $MNIST_{hard}$ ，DAE的结果良好，而对于 $MNIST_0$ 和 $MNIST_{0-2}$ 的结果则较差，这表明在发现低密度异常方面比聚类异常更好。尽管如此，两个UaiNet都在所有四个数据集中都很健壮，即使在对其基础模型很难的数据集上也可以学习，尽管它们可能刚开始就产生结果。
Alt
Alt
Alt
Alt
图3 ：（在线上色）不同MNIST实验的结果。线表示具有不同种子的五次运行的中位数，置信区间表示每个预算b的最大和最小结果。

4.2 REAL DATA

在这里，我们在由实际异常检测数据集组成的公共基准上分析了模型的性能。我们在分析中采用了11个数据集：KDDCUP；甲状腺;心律失常; KDDCUP-Rev;酵母;鲍鱼;心脏造影（CTG）；信用卡;变型乳腺摄影（MMG）；穿梭车（Lichman，2013; Dheeru＆Taniskidou，2017; Pozzolo等，2015; Woods等，1993）。我们将算法与以下各项进行比较：DAE（Vincent等，2008）； DAGMM（Zong等，2018）; LODA-AAD（Das等人，2016）;和Tree-AAD（Das等人，2017）.（这些数据集和基线的进一步描述可以在附录A.3中找到，以及所使用的体系结构和超参数的描述。附录B.2中提供了更详细的结果，标准差以及与其他基准的比较。）

表1列出了这些真实数据集的结果。在这些实验中，在训练期间使用干净的数据集对DAGMM（干净）进行了半监督异常检测设置的训练，对DAGMM（脏污）和DAE进行了无监督设置的训练，而对LODA-AAD，Tree-AAD和DAEuai进行了主动异常检测的训练。从这些结果中我们可以清楚地看到，即使使用简单的体系结构作为其基础模型，DAE在此处对分析的所有数据集产生相当差的结果；即使基线是在完全干净的训练集中训练的， $DAE_{uai}$ 也会产生与11个数据集上最佳基线相似或更好的结果。受过完全干净的训练。与在动态环境中接受类似训练的LODA-AAD和Tree-AAD相比， $DAE_{uai}$ 通常还具有更好的效果。

Alt
对我们方法的一种可能的批评是，所提出的方法的重要性变得越来越重要，因为异常实例的比例越少，这似乎是自欺欺人的。但是我们发现，主动方法与其他算法的最大区别在于Covtype，其异常率不到1％，但有286,048个实例。当使用大型数据集（> 1M实例）时，即使仅0.1％的数据集被污染，仍然有机会从此反馈中受益，以提高性能。主动算法也比其他算法更健壮，DAGMM为每个实验使用了不同的超参数，而 $DAE_{uai}$ 和AAD对所有实验都使用了相同的参数（对于异常少于100个的数据集，k从10减少到3除外）。

4.3 A MORE PRACTICAL ANOMALY DETECTION SETTING

可以应用我们的模型的另一种实际情况是半监督和无监督异常检测的混合。在这种情况下，我们有一个数据集，其中包含我们要查找和审核的异常。同时，可以随时将新的数据实例添加到数据集中，其中可能包括以前从未见过的新型异常，我们也想在此数据集中检测异常。
Alt

考虑到这一点，我们以与第4.2节中相同的方式在KDDCUP-Rev数据集上进行了 $DAE_{uai}$ 和LODA-AAD的训练实验，同时在其测试集上针对不同预算对其进行了评估。该测试集包含20种新类型的异常（训练集包含16种类型的异常，测试集36种）。通过选择测试模型上每个模型发现的最异常的实例并计算该组中可见和不可见异常的召回率来进行评估。该实验的结果如图4所示。在该图中，右y轴显示了针对特定预算在训练集中检测到的异常数量，并对应于淡蓝色线。 y轴的左侧代表测试数据集的召回率。我们看到，DAGMM在此测试集上效果不佳，而DAE能够检测到很好的新颖性（新类）。我们还看到， $DAE_{uai}$ 在检测已知类型的异常方面明显更胜一筹，同时在新的未发现类中保持召回率接近最佳状态，对于可见和未见类异常，其回退效果均优于LODA-AAD。
Alt
Alt
图4：半监督实验。该测试集包含67,908个实例，其中3,817个以前见过的异常和3,498个未见过，总计7,315个异常。这些结果表明，在活动训练期间，随着预算的增加，测试集上的Recall @ 7315对于可见和未见异常类别的改善如何。（上图）训练集中的异常。（下图）新的（看不见的）异常。

5 RELATED WORKS

Anomaly Detection 该领域已经得到了充分的研究，并且可以在（Hodge＆Austin，2004； Chandola等，2009）中找到很好的概述。尽管最近提出了许多算法，但是用于异常值检测的经典方法，例如LOF Breunig等人（2000）和OC-SVM（Schölkopf等人，2001）仍在使用，并产生了良好的效果。近期关于异常检测的工作专注于“正常”数据的统计属性以识别这些异常，例如Maurus＆Plant（2017）使用Benford定律识别社交网络中的异常，以及（Siffer等人，2017），它使用极值理论检测异常。其他工作着重于特定类型的数据（Zheng等，2017）着重于空间背景数据，而（Perozzi等，2014; Perozzi＆Akoglu，2016; Li等，2017; Liu等， 2017）专注于图形数据。最近，基于能量的模型（Zhai等人，2016）和GAN（Schlegl等人，2017）已成功用于检测异常，但是自动编码器在该领域仍然更受欢迎。 Zhou＆Paffenroth（2017）提出了一种训练健壮的自动编码器的方法，它从健壮的统计数据（Huber，2011）尤其是健壮的PCA（Yang等人，2017）中汲取了灵感，着重于聚类，并训练生成潜在表示的自动编码器对k均值很友好。与我们最相似的工作是DAGMM（Zong et al。，2018），他们训练了一个深度自动编码器，并将其潜在表示及其重构错误用作第二个网络的输入，他们用它们来预测第二网络的成员资格每个数据实例到混合高斯模型，以半监督的方式对整个模型进行端到端训练，以进行新颖性检测。

Active Anomaly Detection 尽管主动异常检测具有许多优点，但是它仍然是解决该问题的一种尚未被开发的方法，但是，多年来，在该主题上已经开发了一些非常有趣的工作。在（Pelleg＆Moore，2005）中，作者通过为类规模分布极为偏斜的数据集提出一种主动学习策略，解决了稀有类别检测问题。Abe等（2006）使用人工生成的示例将异常值检测降低到分类中，这些示例扮演潜在的异常值的角色，然后将基于主动学习的选择性采样机制应用于简化的分类问题。在（Görnitz等人，2013）中，作者提出了一种基于支持向量数据描述（SVDD）的半监督异常检测（SSAD）方法（Tax＆Duin，2004），他将其扩展为半监督设置，他负责说明某些异常实例存在标签，并采用主动学习方法选择要标记的这些实例。 Veeramachaneni等人（2016）提出了一种主动的方法，该方法将无监督和有监督的学习相结合，以选择要由专家标记的项，每种方法一次选择k/2个实例。在这种情况下，与我们最相似的先前工作是（Das等，2016），该算法提出了一种可以在基于随机投影的整体方法基础上使用的算法，以及（Das等，2017）。扩展“隔离林”以在活动环境中工作。我们的工作与这些先前的工作有所不同，主要在于我们证明了在无监督的异常检测中进行先验的必要性，进一步激发了主动异常检测框架。并且在我们提出的模型中，UAI层可以组装在任何基于深度学习的异常检测体系结构之上，以使其可以在活动异常检测环境中工作，这是无监督异常检测的最新技术。此外，在与专家进行每次迭代之后，LODA-AAD和Tree-AAD都具有时间复杂度 $O (t)$ ，其中t是已标记实例的数量，而UaiNets的每个迭代都相对于t在恒定时间 $O (1)$ 中运行。

6 DISCUSSION AND FUTURE WORK

我们在这里提出了一种新架构，通用异常推断（UAI），可以将其应用在任何基于深度学习的异常检测架构之上。我们证明，即使在像DAE这样的非常简单的体系结构之上，UaiNets也可以产生与最新的无监督/半监督异常检测方法类似/更好的结果。我们还给出了理论上和实践上的论点，以鼓励主动异常检测，认为在大多数实际情况下，使用这种方法代替完全无监督的方法是无害的。

我们还想明确一点，我们并不是说我们的方法比半监督基线（DAGMM，DCN，DSEBM-e）更好。我们的贡献与他们的贡献正交。我们提出了一个解决这个难题的新方法，可以在这些算法的基础上建立，这是我们在这项工作中的主要贡献。据我们所知，这是将深度学习应用于主动异常检测的第一项工作。我们使用这些深度学习算法的最强优势（他们的学习表示和异常分数）来构建主动算法，提出一种端到端架构，该架构通过利用完整数据集和已标记的实例来学习表示。

这项工作的重要未来方向是利用UAI层对其输出的信心来动态选择直接使用其分数，还是使用底层无监督模型的异常分数来选择接下来要审核的实例。另一个未来的方向是测试用于UAI层的新体系结构，在这项工作中，我们将所有分析限制在简单的逻辑回归中。未来的第三项重要工作是分析UaiNets对标签专家所犯错误的鲁棒性。最后，使该模型更具可解释性，以便审核员在标记异常实例时可以专注于一些“重要”功能，可以提高标记速度并简化工作。