深度孤立森林 Deep Isolation Forest论文翻译(下)

5.2 DIF的实现

DIF中有两个部分,即随机表示集成方法花G以及基于隔离的异常评分方法花F。为了提高表示集成方法花G的时间效率,本文提出计算高效的深度表示集成方法CERE,在这种方法中所有集成成员可以在一个给定的小批度下同时计算。为了进一步提高异常评分的准确性,本文提出偏差增强的异常评分方法DEAS,该利用投影密集表示中包含的隐藏量化信息以及定性比较。

5.2.1 CERE:计算高效的深度表示集成方法

在公式(1)中,连续地将原始数据输入到与r无关的网络会导致相当高的内存和时间开销。为了继承原始孤立森林的优秀的可扩展性,本文引入CERE来高效地实现表示集成方法

为一个神经网络层的权重矩阵,遵循[32],本文使用一个小的随机向量组 通过乘法来产生一个秩为1的矩阵,并用它来获得每个集成成员的全部权重。理论上,基于一个权重矩阵W0,第i个集成成员的权重矩阵Wi由下式生成

    (3)

其中 表示哈达玛积。

       输入神经元x∈Rm与权重Wi的映射过程可以进一步推导为:

         (4)

给定权重向量的r元组 和批度大小为b和维度为m的小批数据 ,映射结果{XW1,···,XWr}可以通过下式计算

   (5)

其中Pi和Qi中的每一行是pi和qi的复制。令lb为一个大小为b的全为1的向量,Pi和Qi通过 得到。

       上述的矢量化推导使DIF中的深度表示集成阶段能够高效地被计算。在CERE的帮助下,集成过程的时间复杂度和单个神经网络的前馈过程相似,由于所有的集成成员可以在一个给定的小批度下同时被计算。式(5)需要额外的哈达玛积步骤,但这个操作和矩阵乘法相比消耗非常小。一个可能的限制是式(5)中的批度大小。一个小批度的r*t个对象被同时计算,比传统设置更大。然而,由于小批度内的计算是自动并行进行的,增加批度大小不会导致更多的时间消耗。对于内存消耗,这个过程也平常的设备上也是可行的,因为DIF不包括优化,即梯度没有被计算和保存。例如,一个有10000个特征的数据集在建议的集成大小r=50和批度大小b=64的条件下消耗大约3GB的内存。

       令Φ为一个L层的神经网络,使用式(5)中新定义的前馈步骤。表示的集成可以直接生成如下

(6)

其中 。注意,如激活或池化和一些不使用权重矩阵的其他层的操作是顺序处理的。

5.2.2 DEAS:偏差增强的异常评分函数

本文进一步提出一种新的异常评分函数DEAS。iForest中的标准异常评分过程只使用遍历路径的长度,即所有结点被认为有相同的重要性。路径长度只提供有限的信息,可能不足以描述数据对象的隔离难易程度。除了各结点之间的定性比较外,还可以利用数据对象特征值与分支阈值之间的关系等定量信息。

       受此启发,本文使用特征值和分支阈值之间的偏差程度来作为附加权重信息来进一步改进隔离难易程度的衡量。由于新创建的数据空间中的特征值通常是密集分布的,这些偏差反映了投影空间中的局部密度,因此这些偏差是衡量隔离难度的重要指标。例如,一个较小的偏差值表明切片被切割在一个密集的区域上,因此难以将数据对象隔离开来。具体地,令xu为数据对象o 在一棵孤立树τi中的相应表示。p(xu|τi)={1,…,K}为它遍历的结点路径。本文定义xu在τi中平均偏离程度为

       (7)

       本文进一步结合了孤立森林中的路径长度| p(xu|τi) |和式(7)中的偏差衡量,通过定义偏差增强的隔离异常评分函数来实现等式(2)中的函数:

      (8)

其中第一项是在孤立森林中作为异常分数的平均路径长度,第二项是本文引入的偏差增强的异常分数。

5.3 DIF的算法

算法1给出了深度隔离树T的构建过程。步骤2准备r 个随机表示,步骤4-15中t个孤立树 在每个表示上被构造。对于每个孤立树τi,数据对象P1转换后的一个子集首先在步骤5中被随机采样来初始化根结点。每个叶节点Pk然后通过对比基于随机选择表示维度jk和划分值ηk的分支标准在步骤6-13中迭代划分。

本文在算法2中给出了异常评分过程。数据对象o在步骤1中被转换成向量表示 。步骤4进行初始化后,数据对象在步骤5-12中按每个结点的判定准则遍历每棵树τi,到达终端结点,在这个过程中遍历路径p(xu|τi)和累积偏差β被记录。步骤13记录路径长度| p(xu|τi)|和偏差g(xu|τi)。步骤16-17计算并返回o的异常分数。

5.4 理论分析

5.4.1 时间复杂度分析

本文首先分析利用CERE产生随机表示集成的时间复杂度(即算法1中的步骤2)。令输入数据D 为一个大小为N*D的表格型数据集。多层感知机网络用Φ来表示。使用的网络Φ有L层,第l层有dl个隐藏单元,表示维度为d。本文使用CERE来实现在每个小批度内的r个成员的集成,因此整个前馈计算产生 。DIF只需要前馈步骤,隐藏单元的数量和表示的维度通常很小。因此,这个过程对于数据大小和维度都是线性的,不比原始的孤立森林引入额外的计算消耗。在随后的孤立树构建过程中,给定深度限制J,在每棵树的构建过程中有最大划分数2J-1(步骤8-11)。对于有n个样本的一个结点,每次划分在确定所选维度的最大最小值以及分配过程中有O(n)的复杂度。整个步骤的复杂度为O(2J-1*n*r*t)。J 和 n通常使用固定的小的值(一般分别为8和256)。因此,整个复杂度关于集成大小r*t是线性的。算法2的遍历过程与算法2的计算过程相似,随测试集大小和集合大小具有线性时间复杂度。综合上述分析,DIF算法的时间复杂度为O(ND(r × t))。它具有随数据规模、维数和集成规模而变化的线性复杂度,继承了iForest的可扩展性。

5.4.2 DIF作为iForest和EIF的扩展

EIF[4]是iForest[3]的最新扩展,已在[4]中被证明是iForest的推广。本文表明,DIF可以被视为iForest和EIF中使用的隔离方法的进一步更高层次的泛化,即iForest和EIF中使用的分支条件可以转换为DIF的格式。

为一个向量化的数据对象。DIF中的分支标准为 。iForest和EIF都是DIF的特殊情况,其中的神经网络ϕ是一个线性层,参数是一个权重矩阵W,即, 。iForest使用o(j)≤η准则划分结点,而DIF如果设置权重矩阵为单位矩阵,即W = ID,则降级为iForest。EIF对每个结点划分使用一个切片超平面,超平面的斜率是一个法向量 ,且 。超平面的截距 是在每个分支点的可能值范围内均匀选择的。分支标准为 ,相当于 。本文可以在权重矩阵满足 时在DIF中实现完全相同的操作。W中的元素应当由一个正态分布 初始化来满足W=k。此外,分割点η = p·k可以理解为一个标准的随机向量p,在高斯噪声k的可能值中采样。

5.5 讨论

DIF的能力主要依赖于(i)神经网络强大的表示能力,(ii)优化表示的丢弃,以及(iii)随机表示和基于随机划分的隔离之间的协同作用,下文将分别讨论。

5.5.1 神经网络的表示能力

神经网络具有强大的表示能力,即使是随机初始化的网络。如图3所示,新的数据空间是由随机神经网络生成的,这些初始化网络中的随机性可以创建高度多样化的数据空间,在这些数据空间上,简单的轴平行切割可以等同于原始数据空间中的复杂切片切割。非线性激活函数可以有效地调整和折叠划分界限,将非线性嵌入到隔离过程中,即使网络根本没有优化。另一方面,已有为各种数据类型开发的不同的深度学习架构,因此DIF通过插入特定数据的网络骨干(例如,多感知器网络,循环网络或图神经网络)来产生表示(参见第6.1.3节中使用的不同神经网络和第6.2节中关于它们在不同数据类型中的性能),从而能够处理不同的数据类型。

图3. 由随机初始化的神经网络产生的数据空间转换(原始数据空间和三个转换后的数据空间对比)。

5.5.2 优化和随机初始化表示的对比

通常,我们可以使用许多专门为异常检测设计的表示学习网络,如[10],[11],[13],[33]中的那些网络,以获得良好优化的特征表示。如果优化目标很好地拟合输入数据,这些表示比随机初始化的表示更具表示能力。然而, DIF没有使用优化的表示,而是使用随意初始化的表示,主要由于以下两个原因。(i)这些损失函数并不是万能的。很难设计一种表示学习损失来适合所有的有不同特征的数据。(ii)随后的数据划分可能受到优化过程的控制。这种方法减弱了基于隔离的异常评分方法中需要的特征表示的随机性和多样性。本文在实验中对这两种直觉进行了实证研究,展示了DIF对由最近的正态性特征学习算法产生的优化表示的性能以及这些优化表示的质量(参见第6.5.1节)。

5.5.3 随机表示和基于随机划分的隔离之间的协同作用

DIF使用一个新的表示方法,即通过无优化网络产生的随机表示集成。这些网络的参数可以通过从广泛使用的初始化分布(例如,正态或均匀分布)中随机抽样来初始化,很容易产生一组具有良好随机性和多样性的特征表示。给定一个这样的随机表示的足够大的集合,本文可以极大地提升随机数据划分的隔离能力,是它可以有效地隔离一些这些表示的子集中难以隔离的异常。例如,如图1所示,在大量的新表示空间中,有一些选择性的新空间,其中困难异常成为易于隔离的数据对象。隔离方法(包括DIF)是基于异常评分的平均度量,因此,只要在一些孤立树中有效隔离,异常就会在异常分数中突出。DIF利用这种随机表示和基于随机划分的隔离之间的协同作用来极大地改进来隔离过程和随后的异常评分函数,实现了基于隔离的异常检测效率的显著提高。本文通过将随机表示和基于随机划分的隔离分别替换为多个替代方案,实证研究了这种协同作用的重要性(见第6.5节)。

6 实验

现在介绍本文的实验分析。本节的结构如下:在第6.1节中,首先介绍实验设置,包括使用的数据集、竞争方法、参数设置和评估指标;第6.2、6.3和6.4节从有效性、可扩展性和鲁棒性等方面评估了所提出方法的性能;在6.5节和6.6节中,通过研究随机表示和基于随机划分的隔离之间的协同作用的重要性以及CERE和DEAS的贡献,对所提出方法进行了实证分析。

6.1 实验设置

6.1.1 数据集

本文采用了大量公开可用和常用的真实世界数据集,包括10个表格数据集、4个图数据集和4个时间序列数据集。其基本信息如表2所示。

表格数据。Analysis, Backdoor, DoS和Exploits是从一个主流的异常检测基准数据集UNSW NB 15中得到的。遵循[15]、[34],本文选择这些数据集中不同的攻击作为和正常网络流量的对比异常。R8是一个高度不平衡的文本分类数据集,遵循[10]、[35],将其中稀少的类作为异常。Cover来自生态学领域。Fraud用于信用卡欺诈交易检测。Pageblocks和Shuttle由一个异常基准研究[36]提供。Thrombin用于在药物设计中检测不寻常的分子生物活动,是一个在[10]中使用的极高维的数据集。

图数据。本文使用热门的图基准数据集Tox21,一个对新合成或使用的化合物进行毒性评价的项目。选择这些数据集是因为它们本质上是不平衡的,并且包含真实的异常。任务是检测异常图。

时序数据。时序数据是从UCR时序异常档案[37]中获得的。本文使用有原始异常的数据。Mars来自NASA航天器。Gait是患有亨廷顿氏舞蹈症(高度不对称步态)的受试者的传感器数据,而异常是来自虚弱腿部的数据。ECG是心跳数据,其中异常是室性跳动,而ECG-wandering (简称ECG-w)是具有漂移基线的一长段ECG。

表2 使用的表格、图、时序(TS)数据集的信息。N表示数据对象的数量,圆括号内为提前定义的图和时序数据集的训练/测试大小。D为表格数据集的维度,图数据集中每个图的结点平均数量,时序数据集中的序列数。#Anom(ratio)是异常的数量及相应比率。

6.1.2 对比方法

将DIF与以下两类异常检测方法进行综合比较。

孤立森林及其扩展(基于孤立森林的方法)。除了热门的孤立森林方法[3],本文还实现了三个改进的变种,即EIF [4]、PID [6]和LeSiNN [22]。EIF使用有随机斜率和截距的超平面划分数据。在PID中,划分的选择基于稀疏程度的方差被优化。LeSiNN应用基于距离的最近邻隔离集成,也被称为aNNE[38]。

深度异常检测器的集成(这些深度模型的集成性能通常优于它们的单独版本,因此在以下实验中,重点比较了基于集成的结果)。不同的最先进的深度检测方法被用作基准模型,本文使用深度集成框架[26]来构建一组基于集成的深度竞争者(a suite of ensemble-based deep contenders)。对于时序数据,本文使用四个最先进的深度方法,包括RDP [13]、REPEN [10]、Deep SVDD [11]和一个基于重构的自编码器(简称RECON)[1]。本文还在这些方法上应用了DIF中的CERE集成方法来确保它们的时间效率得到公平的对比。对于图数据,应用一个深度图级的异常检测器GLocalKD[39]。TranAD被应用于时序数据。它们的集成版本表示为eRDP, eREPEN, eDSVDD, eRECON, eGLocalKD和eTranAD。这些方法都是针对相应数据类型的异常检测而设计的。

6.1.3 参数设置和实施

DIF使用50个表示(r=50),每个表示中有6棵孤立树(t=6),每棵树子采样大小为256(n=256)。DIF通过全连接的多层感知机网络处理表格数据。所有基于孤立森林的对比方法使用300棵树(集成大小与DIF相同)。子采样大小设为256。本文使用EIF的最大扩展级别,即扩展级别自适应地设为维度-1。对于LeSiNN,遵循[22]将子采样大小设为8.由于基于孤立森林的竞争算法不能直接处理非表格型数据,本文应用最新的强大的无监督表示学习模型来产出高质量的向量化表示,具体地,InfoGraph[41]和TS2Vec[42]分别应用到图和时序数据。注意InfoGraph使用GIN作为其编码结构,TS2Vec应用一个扩展的(dilated)有残差块的CNN模块。它们提出特定的学习目标来优化生成的表示。为了公平起见,DIF还分别使用同样的GIN和CNN网络结构来处理图和时序数据,但不使用任何的优化步骤。深度学习检测器训练50轮,每轮30步。REPEN, DSVDD和RECON使用一个学习率为1e-3的Adam优化器,每个小批有64和对象,本文实验发现当使用1e-4时RDP表现更好。其他竞争方法使用默认/推荐参数。

本文实验中所有异常检测算法都使用Python实现,iForest来自scikit-learn包,EIF来自eif包,其他方法来自其作者的发布。本文方法的实现是公开的(Source code of DIF can be downloaded from https://github.com/ xuhongzuo/deep-iforest)。

6.1.4 评估指标和计算设备

遵循主流的异常检测评估协议[3]、[4]、[15],通过ROC曲线下面积(AUC-ROC)和PR曲线下面积(AUC-PR)这两个互补指标来评估检测精度。ROC曲线表示真阳性和假阳性,PR曲线仅总结异常类的准确率和召回率。配对Wilcoxon符号秩检验用于检查每种竞争方法对比DIF性能的统计显著性。

本文随后提出了一种称为异常隔离指数(Anomaly Isoability Index,AII)的新指标来衡量表示的质量。借用[43]中三元损失的概念来统计在每个表示空间中从所有真异常中有效隔离异常的百分比,即

 (9)

其中 表示两对之间的欧几里得距离的差, 表示任意从数据集中的真异常集得到的异常, 为一组随机抽样的正常锚点, 是另一组随机正态样本,代表整个正态分布。上述所有数据对象来自目标表示空间。 是本文实验中发现来计算AII指标的足够大的设置。

所有方法的计算时间基于Intel Xeon Silver 4210R CPU,一个NVIDIA TITAN RTX GPU和64GB RAM。

6.2 减少假阴性的有效性

6.2.1 表格数据

表3和4展示了本文方法DIF和八个对比方法的AUC-ROC和AUC-PR。总体而言,DIF和iForest和其三个扩展相比极大地减少了假阴性,导致了DIF算法在平均检测精度和召回率上都有显著提高,从而获得了更好的AUC-PR和AUC-ROC性能。特别地,在平均AUC-PR方面,DIF明显优于EIF(61%)、PID(186%)、LeSiNN(56%)、iForest(144%)、eRDP(13%)、eREPEN (77%)、eDSVDD (19%)和eRECON (82%)。DIF还比这些方法得到了4%-11%的AUC-ROC的提升。

   如表3所示,DIF在99%的置信度水平上明显优于基于隔离的方法。在所有10个数据集上,DIF是除针对Fraud的AUC-PR外最好的基于隔离的检测器,在此基础上,基于最近邻的异常度量LeSiNN更有效。由于保密问题,Fraud特征是PCA变换的结果,因此,在近邻信息中使用的距离概念可以很好地反映近邻关系。相反,DIF不依赖于这样的不在所有数据集中都成立的先验信息。这些结果证明了DIF优越的隔离更快,能够有效地隔离在现有基于孤立森林的方法中因为数据稀疏度和非线性挑战而不能隔离的异常。这在有挑战性的高维数据集,如R8, Analysis, Backdoor和DoS上尤为明显。

表3 DIF和基于IF的竞争方法在十个真实数据集上的AUC-ROC和AUC-PR性能(均值±标准偏差)。PID和EIF在机高维数据集Thrombin上内存耗尽 (out of memory,OOM)。加粗的为最优表现。

表4 DIF和其基于集成的深度竞争算法的AUC-ROC和AUC-PR表现

根据表4中的AUC-ROC性能,与基于深度集成的方法相比,DIF在99%的置信度水平上表现明显更好。DIF在十个数据集上的七个上的AUC-ROC和AUC-PR上表现最佳,且它在剩下三个数据集上也得到了有竞争性的结果,AUC-ROC差距小于0.01。然而,DIF与其基于深度集成的对应方法之间的比较结果非常令人鼓舞(encouraging),因为DIF不涉及任何优化,而这些深度方法需要使用预定义的目标函数进行适当的训练,以更好地暴露异常。DIF在这个对比中的优越型来自其集成成员的表示多样性和随机表示与基于隔离的随机划分之间的协同作用。更重要的是,DIF比这些基于集成的深度竞争算法相比运行显著更快,快了大约两个数据集(见6.3节)。其优越的计算效率使DIF在实际应用中具有更强的实用性。

6.2.2 图数据和时序数据

如6.1.3节所描述的,传统的基于隔离的方法是在无监督表示学习算法InfoGraph[41]和TS2Vec[42]学习到的向量化表示上运行的。DIF分别使用了InfoGrapg和TS2Vec中相同的网络结构(GIN和扩展CNN),但没有任何优化步骤。GLocalKD[39]是一个图级别的异常检测器,而TranAD[40]是一个专门为时序数据设计的异常检测方法。本文也应用了这两个最先进算法的集成版本作为对比方法。

表5展示在图数据和时序数据上的检测性能,其中EIF和LeSiNN被选为对比算法,因为它们在表格数据上的表现由于PID,iForest作为基准同样也包括在其中。DIF在图和时序数据异常检测任务的四个数据集中的三个上表现最佳。DIF的这种性能是显著的,因为它不仅优于由最新强大的表示学习模型支持的基于隔离的方法,而且优于最先进的专门设计用于广泛学习数据类型特定特征(例如,整体图结构或时间依赖性)以有效检测这些图/顺序异常的方法。相反,DIF仅用不同的随机初始化的网络骨干替换网络结构,在统一框架中表现良好,提供了一个明显更简单但与数据类型无关的有效解决方案。

表5 检测异常图和时序数据中异常点的结果

本文通过可视化DIF在时序数据上的结果进一步展示其如何工作。图4可视化了ECGw数据(在UCR基准数据集中id为addb49)和DIF及其对比方法的检测结果。正如在基准数据集中的介绍,这个数据集是一个由于其蜿蜒的形状而困惑很多算法的挑战性的问题。尽管在测试集中基线徘徊,在训练集中也可以看到这一点,因此期望检测模型可以容忍这些噪声区域。本文方法DIF通过成功地在以金黄色突出显示的异常心跳上产生明显更高的异常分数而减少了假阴性。在对比实验中,对比方法受到了波动趋势的误导,在噪声区域显示了更高的分数而忽略了真正的异常点。

图4.(自顶向下)有变化基线的ECG-w的训练/测试集片段和检测结果,即DIF和其对比算法的异常分数。异常心跳以金黄色突出显示。红色破折线表示在这个异常期间报告的最高异常分数。

6.3 在高维,大规模数据上的可扩展性

本实验检验了DIF和其对比方法的可扩展性。这些异常检测器在一组合成的有不同大小和维度的表格数据集上运行。其中的9个数据集有5000和数据对象,且它们的维度范围为16到4096。另外9个数据集有32个特征,大小从最小的1000到最大的256000变化。基于IF的异常检测器仅需要CPU,而基于集成的深度方法可以利用GPU来加速。因此,本文给出了DIF和其对比的深度方法在GPU和CPU设备上的运行时间。

图5. 可扩展性实验结果。(顶部)所有异常检测器在CPU上的训练时间;(底部)基于集成的深度方法(包括DIF)在GPU设备上的结果。

图5(顶部)展示了DIF和其对比方法在CPU设备上的可扩展性实验结果,图5(底部)展示了使用GPU的对比。DIF在使用CPU计算时和其他基于集成的深度方法对比表现出关于维度和数据大小的好的可扩展性。这是由于基于隔离的异常检测器在数据采样和维度上都应用了子采样。而且,基于集成的深度方法在处理高维数据时可以从GPU加速中极大地受益。DIF由于其只需要一个前馈步骤而不是大量的训练轮和其基于集成的深度方法对比有卓越的时间效率。这些结果证明DIF继承了iForest的优秀的计算效率。注意DIF在数据维度方面可以获得与iForest几乎相同的可扩展性,DIF在新构建的数据空间中实施隔离而孤立森林在原始数据空间上。

6.4 关于异常污染率的健壮性

本实验检验了DIF及其对比方法在数据集包含不同异常比例时的表现。时序数据集和图数据集有预先定义的训练集划分,且训练集不包含异常,因此本文使用表格数据作为基准。遵循[15]、[34],本文通过注入/移除异常来调整污染率,比例从0%到10%。这些检测方法在调整过的数据集上训练,在原始版本上测试。

图6展示了AUC-ROC表现。通常,随着污染率的增加所有异常检测器的表现下降。然而,DIF在所有数据集上相对来说明显更优越且更加健壮。最近的许多研究[27], [29], [44]已经证明了深度集成在分布外鲁棒性方面的成功,部分解释了为什么基于深度集成的方法比基于if的方法在异常污染方面表现出更好的鲁棒性。然而,这些对比方法仍然不能提供持续的良好的健壮性(例如eRDP, eREPEN和eDSVDD在R8上以及eRECON在Backdoor上)。这主要有两个原因:(i)它们的集成过程受到多样性问题的影响,(ii)它们的评分策略和训练目标极大地依赖于例如距离概念的假设,这个假设在有些数据集上可能并不成立。有趣的是,eREPEN在Shuttle上显示上升趋势。REPEN在生成三元组小批度时使用LeSiNN来估计原始异常分数。由于LeSiNN在Shuttle上具有良好的鲁棒性,当污染比例增加时,该初始估计可以可靠地获得更多的异常样本作为正例数据,因此三元组学习过程可能会受益于正类的增加。

图6.不同污染率ρ(训练集中异常点的比例)下的AUC-ROC

6.5 随机表示和基于随机划分的隔离之间协同作用的重要性

本文分别替换了DIF中的随机表示和基于隔离的随机异常评分(respectively replace random representations and random isolation-based anomaly scoring)来验证它们的协同作用。

6.5.1 表示方法(Representation Scheme)

本实验通过对比本文新提出的表示方法和优化的神经网络产生的表示评估了其有效性,含优化的神经网络包括RDP [13], REPEN [10], DSVDD [11]和基于重构的自编码器[1]。本文使用这些方法中的一个学习到的表示来替换随机表示,DIF中其他的部分固定不变。这四个变种表示为RDP-DIF, REPEN-DIF, DSVDD-DIF and RECON-DIF。RDP, REPEN和DSVDD原本就是为异常检测中学习良好表示而设计的,自编码器可以隐式地得到一个密集表示。通过AUC-ROC性能和个体表示质量对表示进行评估,如下所示。

AUC-ROC结果。图7的上半部分展示了AUC-ROC的结果。DIF在五个数据集上优于四个基于集成的优化的表示方法。平均而言,随机表示集成比RDP-DIF、REPEN-DIF、DSVDD-DIF和RECON-DIF分别提高了5%、5%、7%和15%的AUC-ROC性能。尽管DIF可能不在所有数据集上都表现最优,但与那些由最先进的学习目标训练的优化表示相比,看到随机表示的集成实现这种性能是非常令人鼓舞的。

每个表示的质量。为了进一步分析上述结果背后的机制,本文直接评估了DIF和其变种产生的表示的质量。表示的质量由异常隔离度指数(Anomaly Isoability Index,AII)来衡量,介绍见6.1.4节。五个异常检测算法使用的表示的AII结果如图7(底部)所示,其中使用盒图来表示集成框架中的50个表示的质量分布。

图7.(顶部)DIF及其使用优化表示的变种的AUC-ROC,(底部)DIF中使用的随机表示和RDP, REPEN, DSVDD以及RECON中使用的优化的表示的质量(由AII衡量)分布。

基于上述实验结果,可以得出以下三个结论。

●本文的表示方法达到了期望的多样性和随机性,且在每个表示中保持了稳定的表达(stable expressiveness),实现与下游基于隔离的异常评分机制的出色协同。这是DIF卓越性能背后的主要原因。

●优化后的表示在一些数据集上可以具有一致的良好质量(例如,在Analysis、Backdoor和DoS上近80%的真实异常被RECON-DIF很好地隔离了),而表示的多样性降低了这种集成框架的有效性。

●与随机表示(例如,R8、Cover、Pageblocks和Thrombin)相比,优化甚至可能导致一些数据集上的表示更差。这可能是因为他们学习目标中的基本假设(例如,单类假设)在这些数据集中可能不成立。

6.5.2 评分机制

如上文实验所示,随机表示有很好的多样性和稳定的质量,促进了在随后的给予集成的异常评分中的一种独特且优越的协同作用。本节通过研究随机表示和其他异常评分方法来进一步验证这种直觉,包括基于概率的异常评分方法ECOD[45]、基于距离的方法KNN[46]、基于密度的方法LOF[47]。这些方法中的每一个被用来替换基于隔离的异常评分阶段,其他模块不变。这些变种分别用DIF-ECOD、DIF-KNN和DIF-LOF来表示。同样地,评估它们的AUC-ROC性能和独立评分的质量。

图8. (顶部)DIF及其使用其他评分策略的变种在随机表示上的AUC-ROC,(底部)它们在随机的表示组中每个集成成员上的效率(由AUC-ROC测量)。

AUC-ROC结果。图8的上半部分展示了AUC-ROC结果。DIF在十个数据集中的七个上表现优于其他对比方法。平均来说,DIF分别优于DIF-ECOD、DIF-KNN和DIF-LOF3%、13%、25%。这种优越性进一步证明了DIF的协同效应。注意,KNN和LOF的计算开销非常大。它们消耗了大约60个小时来处理大规模数据集Cover和Fraud。

每个异常评分结果的质量。本文还研究了DIF及其变体在每个随机表示上产生的个体异常评分结果的质量,如图8(底部)所示。质量也是通过AUC-ROC来估计的。

得出以下三个结论。

●这些对比的评分方法可以在Exploits、R8和Thrombin上产生明显优于基于隔离的评分机制的单个评分结果。然而,与DIF相比,它们只产生较差或略好的综合结果。这些评分方法无法利用本文表示方法中嵌入的多样性。

●相反,DIF用一种统一的集成学习框架组合数据表示和异常评分。DIF通过利用表示的多样性和随机性达到了更好的集成表现,即在R8上AUC-ROC超过0.9,最大个体值仅达到0.7左右。

●DIF在Shuttle上的表现比其变种差。这可能是因为通过使用这些竞争评分方法中使用的先验概念(即概率、距离或密度),可以更容易地识别该数据集中的异常。然而,这些先验概念可能无法在所有数据集上正常工作。

6.6 CERE和DEAS的消融实验

综合考虑检测效果和计算效率,在DIF的具体实现中提出了偏差增强的异常评分函数(deviated - enhanced Anomaly Scoring function, DEAS)和计算高效的深度表示集成方法(Computation-Efficient deep Representation Ensemble method, CERE)。本实验用来验证在DEAS和CERE的帮助下DIF是否会有更高的检测性能且使用更少的训练时间。使用了两个消融的变种,即有/没有(w/o)CERE用传统的顺序集成过程代替 ,有/没有 DEAS使用iForest中使用的标准评分函数来替代我们的评分函数FDEAS。

DIF和w/oDEAS的AUC-ROC和AUC-PR结果如表6所示。DIF算法在90%的置信区间上明显优于w/o DEAS算法,AUC-PR提高了约11%。此外,在CERE的帮助下,DIF的训练时间大大减少。所有10个数据集的总训练时间仅约为没有CERE的变体的十分之一。w/o CERE的AUC-ROC/AUC-PR结果与DIF相当,因篇幅所限略。基于上述对比结果,验证了DEAS和CERE的贡献并进行了定量测量。

表6 DIF和w/o DEAS的AUC-ROC和AUC-PR结果以及DIF和w/o CERE的训练时间(以秒为单位)。w/o DEAS是一个删减版本,用标准评分函数替换DEAS。w/o CERE仅使用典型的方法来产生表示集成。

7 结论

本文介绍了一种新颖的iForest扩展方法DIF。DIF将基于深度神经网络的随机表示集成作为一种新的表示方法,能够在不同大小的子空间上进行不同随机方向的数据划分。异常评分可以通过随机表示和基于随机划分的隔离之间的协同作用来促进。这使得DIF能够(i)更有效地隔离异常,特别是具有难以处理的稀疏性和非线性的数据中的困难异常;(二)将隔离过程从现有的限制中解放处来从而解决假象问题;(iii)有处理不同数据类型的通用能力。实验结果表明,无论是在表格数据上,还是在图数据和时间序列数据上,DIF都明显优于iForest及其现有扩展。与最先进的深度异常检测器集成相比,DIF也显示出了有益的改进。

在未来的工作中,我们计划设计新的评分策略,以及相关的神经网络骨干,以解决其他具有挑战性但重要的异常检测任务,例如,识别可能的异常子集[48]和多视图数据[49]。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值