GUIDE:Higher-order Structure Based Anomaly Detectionon Attributed Networks(2021)

异常检测(如电信欺诈检测和医学图像检测)已经引起了人们越来越多的关注。网络中广泛存在着多个实体之间的复杂交互作用,能够反映人类特定的行为模式。这样的模式可以由高阶网络结构建模,从而有利于属性网络的异常检测。然而,由于现有的大多数图学习方法缺乏有效的机制,这些复杂的交互模式在异常检测中无法得到应用,在一定程度上阻碍了异常检测的进展。为了解决上述问题,我们提出了一种基于高阶结构的异常检测(GUIDE)方法。利用属性自动编码器和结构自动编码器分别重构节点属性和高阶结构。此外,我们还设计了一个图注意层,通过它们的高阶结构差异来评估邻居对节点的重要性。最后,我们利用节点属性和高阶结构重构错误来发现异常。为了验证 GUIDE 的有效性,在五个真实世界的数据集上进行了广泛的实验(即 ACM、 Citing、 Cora、 DBLP 和 Pubmed)。ROC-AUC、 PR-AUC 和 Recall@K 的实验结果表明,GUIDE 的性能明显优于最先进的方法。

1简介

随着网络数据量的增加,从网络数据中检测异常已经成为社会迫切关注的一个重要研究问题[1]。此外,异常检测在现实生活中有广泛的应用[2] ,如金融欺诈检测[3] ,[4] ,网络入侵检测[5] ,网络垃圾邮件检测[6]和工业异常检测[7]。因此,异常检测问题引起了研究人员的广泛关注 。

异常检测的目标是找到行为与其他大多数节点明显不同的罕见节点。此外,属性网络上节点的异常不仅取决于其网络拓扑的异常情况,还取决于节点属性的异常情况。 

具体来说,属性异常主要是指节点属性与其邻域属性之间的显著差异。例如,如图1(a)所示,Tracy、 Mark、 Bill、 John 和 Lily 属于同一个兴趣小组,但 John 的兴趣爱好与其他成员大不相同。异常结构主要是指距离较远但联系过于紧密的小群体。例如,在图1(b)中,汤姆、辛迪、琼和亚当都是电信欺诈组织的成员。为了便于犯罪,它们之间有着密切的联系。由于需要同时对拓扑结构和节点属性进行建模,因此检测属性网络的异常更具有挑战性。 

异常检测的研究已经有很多。许多研究试图通过节点特征的子空间选择来寻找异常节点[9] ,[10]。其他一些方法考虑利用残差分析来检测异常[11] ,[12]。然而,这些方法都是基于浅层学习机制的,有一定的局限性。例如,它们不能模拟网络属性和结构的复杂交互作用。随着深度学习技术的不断发展,这类方法在解决这些问题方面的有效性也得到了验证[13]-[15]。深层神经网络用于编码属性网络, 分别重构属性和结构,利用重构误差识别异常。然而,以往的研究仍然缺乏有效利用多个实体之间复杂的交互模式来检测异常的能力。在检测异常时,应该考虑到这些复杂相互作用的重要性。

为了解决上述问题,我们提出了一个无监督的双自动编码器框架 titledGUIDE (基于高阶结构的异常检测 onattributednEtworks)。与以前的方法不同,我们使用高阶结构来模拟网络中多个实体之间复杂的交互异常检测。为了更好地学习高阶网络结构,我们提出了一个图节点注意层,它可以根据节点与其邻居之间的结构差异学习不同的权值。具体来说,我们首先对节点的属性和高阶结构进行编码,获得相应的潜在表示,然后利用解码器进行重构。最后,利用高阶结构和属性视角的重构误差来检测属性网络的异常。本文件的主要贡献概述如下: 

  • 多属性驱动的异常检测: 我们提出了一种基于高阶结构的异常检测方法 GUIDE,它使用包括节点属性和高阶网络结构来促进异常检测。
  • 高阶结构注意机制: 设计了一种高阶结构注意机制,该机制利用节点与其邻居之间的结构差异产生注意权重。有了这种机制,我们提出的 GUIDE 可以更好地学习高阶网络结构。
  • 五个现实世界数据集的优异表现: 在五个现实世界数据集上进行了大量实验,结果显示 GUIDE 始终显著优于所有基线方法 

本文的其余部分组织如下。第二节概括了相关工作。第三节正式介绍了网络主题和问题陈述。在第四部分中,我们介绍了所提出的 GUIDE 的设计。SectionV 在五个实际数据集上对 GUIDE 进行实证评估。第六部分对全文进行了总结。

2相关工作 

属性化网络上的异常检测。与普通(未标记)网络相比,属性网络由于包含更丰富的属性信息,可以更有效地对复杂系统进行建模。因此,许多研究人员开始对归因网络上的异常检测问题表现出兴趣[16]-[18]。例如,Perozzi等人[19]利用属性和网络结构来量化邻域的质量,从而在属性网络上找到异常的邻居。Li等人[11]通过分析属性信息的残差及其与网络信息的一致性,发现了异常节点。此外,刘等.[20]引入了一种新的异常检测模型,同时学习节点属性和结构信息,以有效地检测属性网络上的局部异常。Penget al. [12] 利用 CUR 分解和残差分析来过滤掉噪声和不相关的节点属性,从而避免它们对异常检测的不利影响。Guti'errez-G'omez 等人 [21] 探索了异常节点的所有相关上下文,并对属性网络进行了多标量异常检测。然而,上述方法受到浅层学习机制的限制,因此无法有效地学习节点属性和结构之间的复杂交互。 

在深度学习的巨大成功的推动下,大量的研究致力于利用深度神经网络来检测属性网络上的异常节点。例如,Ding 等[15]利用图卷积神经网络构造了一个深度自动编码器,并通过节点属性和结构的重构误差来评估节点的异常。Li 等[22]利用拉普拉斯锐化放大异常节点与正常节点表示之间的距离,使异常更容易发现。Ding 等[23]提出了一种对抗图微分网络,利用生成对抗思想来检测属性网络上的异常点,这种异常点可以自然地扩展到新的观测数据。此外,Chen 等[24]提出了一个生成性对抗属性网络异常检测模型。该算法通过获得生成器产生的样本重构误差和实节点对的判别损失,可以有效地预测异常节点。尽管上述方法获得了优于其他浅层方法的性能,但它们不能有效地利用多个实体之间的复杂交互模式来检测异常。 

高阶网络表征学习。复杂的实际网络包含了大量的高阶结构(例如,图案) ,它们反映了网络中节点的内部关系[25]。多项研究证实,在网络表征学习中考虑高阶结构是有效的[26]-[28]。Rossi 等[29]提出了学习高阶网络嵌入的框架,旨在利用各种基于模的矩阵公式来有效地学习网络嵌入。Lee 等[30]利用基于主题的注意机制来学习节点与邻居之间的高阶相互作用。在[31]中,Yu 等人选择了合适的主题来加强多元关系,提高高阶图表示的学习效果。此外,徐等[25]聚合了节点的高阶结构特征和属性特征,得到了最终的网络嵌入,并在节点分类任务中表现出了优越的性能。Liu 等[32]同时建立了动态属性网络的局部高阶结构模型和时间演化模型,以学习动态属性网络的节点表示。尽管如此,上述所有的方法都集中在网络表征/学习上,如何有效地利用高阶结构进行异常检测还不清楚 。

3PRELIMINARIESA

A网络图案

网络图案[33]是指网络中经常出现的特殊子图结构。Paranjape 等[34]研究了时间网络,发现网络图案有助于理解网络的关键结构。此外,网络图案[35]具有特定的现实意义。例如,一个三阶三角母题可以描述学术网络中三个学者的合作关系。因此,我们可以利用网络主题来有效地模拟网络中多个实体之间的复杂交互模式。

因为由五个或更多节点组成的网络图案是如此的复杂和众多,以至于很难处理它们。本文采用由三个或四个节点组成的网络图案对网络进行分析。

在图2中,我们列出了本文中使用的主题类型。我们利用 Yu 等[31]提出的节点主题度来表示节点的高阶结构。具体来说,节点主题度定义如下

定义1: 节点基序度(NMD) : 对于图 G = (V,E) ,一个节点 i ∈ V,节点 i 的基序度表示为为NMD (i),节点基序度与基序的数目M有关。如图3所示,该节点包含的 M31基序的数目为3。

B问题定义

本文使用粗体小写字母(例如 x)和粗体大写字母(例如 X)分别表示向量和矩阵。此外,我们使用书法字体(例如,V)来表示集合。矩阵 X 的第三行由矩阵 X 的第(i,j)元素表示,第(i,j)元素由矩阵 X 的第(Xi,j)元素表示。

定义2: 属性网络: 给定一个属性网络 G = (A,X) ,其中 A ∈ Rn × is 是邻接矩阵,X ∈ Rn × dis 是属性矩阵。属性矩阵 X 的第i行向量 x ∈ Rd 表示第i节点的属性向量。此外,如果节点 i 和节点 j 之间存在边,则 Ai,j = 1,否则 Ai,j = 0 。

定义3: 结构矩阵: G 的高阶结构可以用结构矩阵 S 来表示。结构矩阵的第i行向量 si ∈ Rm 表示节点的结构向量,该结构向量由节点 M31、 M32、 M41、 M42、 M43的节点模度和节点的初始度组成。

问题1: 异常检测。给定属性网络 G = { A,X } ,任务是根据所有节点的异常分数(分数(vi))对所有节点进行排序,与大多数节点(≥0.9 n)显着不同的节点应该获得更高的分数并排名高于其他节点。接下来,我们将详细描述 GUIDE 模型,该模型将节点属性和高阶结构联合起来检测网络的异常

 4模型

在本节中,我们将详细介绍所提出的模型 GUIDE。我们的方法框架如图4所示。本文设计了 GUIDE 的两个基本组件: 属性自动编码器结构自动编码器,分别负责节点属性和高阶结构的重构。然后利用节点属性的重构误差和高阶结构的重构误差计算节点A的异常评分并对其进行排序。最后,网络中的异常可以通过排名表找到。 

A 属性自动编码器

在这部分中,我们旨在设计一个有效的自动编码器来重构节点属性,从而捕捉属性异常。形式上,自动编码器网络层描述如下: 

 

使用三个自编码器网络层后,编码器对节点属性和网络拓扑进行压缩,得到属性网络的低维潜在表示ZA为了重构节点属性,我们利用 au-toencoder 网络层来近似节点的原始属性,可以表示如下: 

B结构自动编码器 

考虑到高阶结构对属性网络异常检测的重要性,本文采用结构化自动编码器重构节点的高阶结构。并计算结构重构损失捕获结构异常。具体来说,具有异常结构的节点通常与某些节点属性网络过于紧密地连接。它们的高阶结构与普通节点有很大不同,不能很好地重构。 

因此,受[23]的启发,我们设计了一个图节点注意力网络(GNA)来编码节点的高阶结构。利用高阶结构注意机制,可以更好地学习节点与其邻居之间的结构差异,并帮助识别结构异常。具体来说,图节点注意力层可以学习第l层节点i的表示,可以表述如下: 

类似于属性编码器,我们使用三个图节点注意层对节点的高阶结构进行编码,得到相应的潜在表示 ZS。为了重构结构矩阵 S,我们使用另一个图形节点注意层来近似原始节点的高阶结构,其表达式如下: 

 C损失函数和异常检测

为了共同学习重构误差,我们的目标是最小化网络高阶结构和节点属性的损失函数 

 其中 α 是一个平衡参数,控制高阶结构重构误差和属性重构误差的训练权重。我们可以利用重建误差来评估节点的异常程度。具体地说,一个节点的属性或高阶结构不能很好地构造,这表明它的行为模式偏离了大多数其他节点,并且它是一个异常节点的概率较高。因此,我们可以从高阶结构和节点属性的角度利用重构误差来计算每个节点的异常评分:

 注意,得分较高的节点是异常节点的概率较高。所以我们可以根据异常分数对所有节点进行排名。算法1给出了详细的模型训练过程。

5实验

在本节中,我们对五维世界的数据集进行了广泛的实验,以确认 GUIDEdel.A. 数据集的有效性

A数据集

为了全面评估 GUIDE 模型,我们选择了以前许多研究[15] ,[36] ,[37]中使用过的五个真实世界数据集:

  •  ACM1: ACM 是从计算机机械协会提取的引用网络数据集,由16,484篇科学出版物组成。每个边表示网络中论文的引文关系。论文的属性由从论文标题中提取的稀疏词包特征组成
  • 引文1: 引文是由8,935个节点和15,098个边组成的引文网络数据集,其中节点表示科学出版物,边表示出版物之间的引文链接。节点的属性是从文章标题中提取的稀疏的词包特征
  • Cora2: Cora 是一个引用网络数据集,包括2,708个节点,有5,429条边表示引用关系。每个节点都是以二进制特征向量表示的科学出版物。
  • DBLP1: DBLP 是一个引用网络数据集,由从 DBLPComputer Science Bibiography 收集的5,484份科学出版物组成。而8,117条边是不同论文之间的引文关系。节点属性是从文章标题中提取出来的。
  • Pubmed2: Pubmed 包含19,717个科学出版物,44,338个链接,表明出版物之间的引用关系。将文档的词袋表示作为节点属性。

由于数据集中没有异常,我们引用了两种广泛使用的方法[16] ,分别为每个数据集注入结构异常和属性异常。一方面,我们产生一些小团体来扰乱网络的拓扑结构。这种方法背后的直觉是,一个小团体中的节点之间的联系要比平均联系紧密得多,在许多情况下,平均联系总是异常的结构[38]。因此,我们从属性网络中随机选取 p个节点作为小团体,使其完全连通。那么小团体中的所有节点都被认为是构造异常。我们执行这个过程总共 qtimes 并最终生成 q小团体。在实验中,一个小团体的大小被设置为15。根据不同的数据集对小团体的数量进行微调。

另一方面,为了注入具有相同数量结构异常的属性异常,我们首先随机选择另一个 p×q 节点。然后,我们从属性网络中为每个属性扰动节点 i 随机选择另外 k 个节点,并计算节点 i 与所有 k 个节点之间的欧氏距离。最后,与节点 i 的欧氏距离最大的 k 个节点中的节点 j 与节点 i 交换属性。我们在表II中列出了这五个真实数据集的详细信息。On the other hand, to inject attribute anomalies, which have the same number of structural anomalies, we first randomly pick another p×q nodes. Then we randomly choose another k nodes from the attributed network for each attribute perturbation node i and calculate the Euclidean distance between node i and all the k nodes. Finally, the node j among the k nodes whose Euclidean distance with node i is the largest exchanges the attributes with node i. We list the details ofthese five real-world datasets in Table II

 B实验设置

在这一部分中,我们将详细描述比较的异常检测方法和常用的评估指标。

基线方法。将 GUIDE 模型与下列基线方法进行比较:

  • LOF (局部异常因子)[39]通过比较节点与其邻居的局部可达密度来检测异常。
  • 自动编码多层感知机(Autoencoder)是一种经典的神经网络模型,可以通过重构节点属性来检测异常。
  • AE GCN (Autoencoder Graph ConvolutionNetwork)[41]是一个深度学习模型,可以通过重建节点属性来检测异常。支配(异常检测的深度研究)[15]通过分别计算属性和结构的重构损失,从属性和结构的角度探测异常。
  • GAAN (生成性对抗性属性网络异常检测)[24]是一个生成性对抗性异常检测模型,它训练联合重建丢失和鉴别丢失来检测异常。
  • AnomalyDAE (深层联合表征学习框架,适用于双异常检测IF (隔离森林)[40]是一种基于属性的检测方法,利用其对隔离的敏感性来检测异常自动编码器)[42]是一个双自动编码器的异常检测学习模型。它可以有效地学习节点属性与网络结构之间复杂的交互作用。

评估指标: 为了评估每个算法的性能,本文采用了三个广泛使用的指标来比较不同的方法 

参数设置。在实验中,采用 Adam [43]算法对不同数据集的损失函数进行了优化。我们对 GUIDE 模型进行了200个时代的训练,学习率设置为0.001。我们还通过参数敏感性实验对五个实际数据集的模型超参数进行了优化。对于其他基线方法,我们保留了原始论文中描述的设置。

C实验结果

在实验中,通过与上述基线方法的比较,对 GUIDE 模型的性能进行了多指标的评估。我们首先在图5中显示实验结果 w.r.t.ROC-AUC。而 PR-AUC 的实验结果如图6所示。然后是结果 w.r.t.Recall@Kin Table III。根据这些实验结果,我们得到如下的观测结果

 

 D消融实验

为了验证在我们的框架中考虑高阶结构的有效性,我们用图卷积网络代替了结构自动编码器中的图节点注意网络。具体操作如下:

  • 指南 GCNEN: 结构编码器被替换为 GCN,并且结构解码器是恒定的。
  • 指南 GCNDE: 结构编码器是恒定的,并且结构解码器被 GCN 所取代。
  • 指南 GCN: 结构编码器和结构解码器都被 GCN 取代。

我们分别在五个真实世界的数据集上对这些方法进行评估。实验结果如表四所示。我们发现,尽管 GUIDE 模型在所有五个数据集上都取得了最佳性能,但是在替换了 structureautoencoder 之后,性能并没有明显下降。结果表明,该框架是有效的,高阶结构在异常检测属性网络中起着关键作用。 

 D参数分析

在这一部分,我们研究了不同数量的嵌入维数和平衡参数 α 对异常检测的参数敏感性。

实验结果分别在图7和图8中授权。我们可以观察到,太低的维数会降低图 7 中模型的性能,这是由欠拟合引起的。此外,在图 8 中,我们可以看到,如果 GUIDE 只考虑高阶结构重建误差 (α= 0) 或属性重建误差 (α= 1),这将导致性能不佳。结果表明,属性网络上的异常检测应同时关注节点的属性和高阶结构。平均而言,我们发现当 α 在五个数据集上约为 0.1 到 0.3 时,GUIDE 可以实现最佳性能。它充分验证了高阶结构对于属性网络上异常检测的重要性。  

6结论

在本文中,我们设计了一个基于高阶结构的无监督学习框架的异常检测指南。具体地说,我们在检测异常时采用了高阶网络结构,并且解决了现有方法在建模现实世界中多个实体之间复杂交互模式时的局限性。我们分别从属性和高阶结构的角度使用双自动编码器来检测异常。为了进一步提高学习高阶结构的能力,我们引入了段节点注意层,该层利用高阶结构注意机制有效地捕捉节点与其邻居之间的结构差异。最后,利用节点属性和高阶结构重构损失计算节点的异常评分,并进行分类发现异常。实验结果显示,GUIDE 在 ROC-AUC、 PR-AUC 和 recall@k 三种基线方法中表现得更好。

不同的高阶结构通常对应于现实世界中不同的交互模式。例如,主题 M32可以表示引文网络中三篇论文之间的引文关系。基元 M41可以表示协作网络中的四人协作关系。应该进一步评估某一网络中不同图案的重要性,从而促进异常检测。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值