2023-CIKM-Learning Node Abnormality with Weak Supervision
弱监督学习节点异常
摘要
图异常检测旨在识别非典型子结构,由于其对社交网络分析、安全、金融等各种应用领域的深远影响而吸引了越来越多的研究关注。缺乏对真实异常的先验知识一直是获取细粒度注释(例如异常节点)的主要障碍,因此,已经开发出大量现有方法,要么具有有限数量的节点级监督,要么以无人监督的方式。尽管如此,粗粒度图元素(例如,一组可疑的节点)的注释通常需要很少的人力时间和专业知识,但相对更容易获得。因此,在弱监督环境中研究异常检测并建立不同粒度级别的注释之间的内在关系是很有吸引力的。在本文中,我们通过以下方式解决了粗粒度监督的弱监督图异常检测
的挑战性问题:(1)提出了一种具有注意机制的新型图神经网络架构,名为 Wedge
,它可以在给定一些条件的情况下识别关键节点级异常。异常子图的标签,以及(2)设计一个具有对比损失的新颖目标,通过在正常和异常图元素之间强制执行独特的表示来促进节点表示学习。通过对真实世界数据集的广泛评估,我们证实了我们提出的方法的有效性,与最佳竞争对手相比,AUC-ROC 提高了 16.48%。
1. 引言
图结构数据在各种现实场景中无处不在,包括电子商务中的商品共同购买图 [52]、社交媒体平台上的社交网络 [62] 以及药物设计中的分子图 [60]。为了利用图结构化数据中编码的丰富信息,近年来人们研究了各种图分析任务,例如节点分类 [25,57]、图分类 [54,70]、网络对齐 [58,72] 等 更多 [16,17,59]。其中,图异常检测因其在欺诈检测 [14] 和社交垃圾邮件检测 [39] 等不同应用中的深远影响而受到广泛关注。本质上,该任务旨在检测与大多数实例显着偏差的实例。
获取大量带注释的数据通常需要大量的标记成本和密集的领域知识 [10,11,31,71]。因此,人们在有限的节点级监督或无监督的方式下做出了许多努力。尽管取得了巨大成功,但现有方法仍然缺乏细粒度的监督信号,可能无法进行准确的检测。与节点级标签相比,在许多应用中获得子图级监督需要花费更少的精力。例如,在金融欺诈检测中,相对容易确定一组用户中是否存在可疑的洗钱活动;然而,由于其复杂的伪装,准确识别实际的欺诈用户要困难得多 [36,64]。在灾害管理中,在自然灾害(例如飓风)发生后立即查明震中(节点级异常)即使不是不可能,也是很困难的;另一方面,我们往往可以粗略地定位受影响的社区(子图级异常)以支持快速救援 [4,7]。在刑事调查过程中,执法部门通常首先识别一组嫌疑人/相关人员(子图级异常),然后再捕获犯罪主谋(节点级异常)。我们问:在这种具有粗粒度组标签的弱监督环境下,如何改进节点级异常检测?
然而,利用这种粗粒度的弱监督信号 [12] 进行节点级图异常检测是一项非常重要的任务,主要是由于以下原因。首先,在弱监督设置下,图异常检测器只能访问包含一组节点的子图的粗粒度标签,而我们的目标是检测节点级异常,即异常节点。尽管先前的多实例学习(MIL)工作 [2,48,74] 已经被提出来解决类似的问题,但这些方法要么无法捕获图中的数据异质性,要么只关注组或包级预测。因此,直接将现有的 MIL 方法应用于我们的问题将不可避免地导致次优结果,甚至变得不可行。其次,虽然粗粒度标签相对更容易访问,但这种弱监督信号通常是有噪声的,如果我们直接将它们作为地面实况标签而不进行适当的处理,可能会影响模型的性能 [30]。因此,如何减轻噪声标记数据的不利影响并学习表达节点表示以进一步区分异常节点和正常节点是另一个需要解决的挑战。
为了解决上述挑战,在本文中,我们提出了一种新颖的架构,即 Wedge,用于检测节点级图异常,对粗粒度子图级标签的弱监督。Wedge 的关键创新在于,我们在节点和子图之间的表示和预测异常方面有效地建立了定量关系。具体来说,Wedge 首先采用基于 GNN 的节点级异常预测器来学习表示并估计每个节点的异常分数。然后,Wedge 利用配备注意力机制的子图异常预测器来量化子图中每个节点的重要性,并通过加权聚合计算子图级表示和异常分数。为了指导模型训练,我们采用了在子图异常分数上定义的偏差损失 [38],它强制异常子图/节点的异常分数与正常子图/节点的异常分数之间存在巨大偏差。为了进一步增强子图/节点的表示学习,我们提出了一个对比目标,用于最大化嵌入空间中具有相似异常的子图之间的接近度。无缝集成的 Wedge 框架使表示学习能够直接针对节点级图异常检测进行优化,从而显着缓解获取细粒度注释的高成本限制。我们总结本文的主要贡献如下:
- 问题:我们正式定义弱监督图异常检测问题。关键思想是从具有粗粒度标签的子图中提取有关节点异常的关键知识。
- 算法:我们提出了一种新颖的框架 Wedge,它由配备注意力机制的基于 GNN 的架构以及针对弱监督的图异常检测直接优化的目标组成。
- 实验:我们对现实世界的数据集进行了广泛的评估,以证明所提出的 Wedge 的优越性,在 AUC-ROC 方面,它比最好的竞争对手高出 16.48%。
2. 问题定义
在本节中,在引入符号之后,我们正式定义弱监督图异常检测问题。
2.1. 符号
在整篇论文中,我们使用粗体大写字母表示矩阵(例如 A \mathbf{A} A),粗体小写字母表示向量(例如 h \mathbf{h} h),书法字母表示集合(例如 V \mathcal{V} V),小写字母表示标量(例如 k k k)。在这项工作中,我们关注节点属性图,即 G = ( V , E , X ) \mathcal{G}=\left(\mathcal{V},\ \mathcal{E},\ \mathbf{X}\right) G=(V, E, X),其中 V \mathcal{V} V 是节点集,即 { v 1 , v 2 , . . . , v n } \left\{v_1,\ v_2,\ ...,\ v_n\right\} {v1, v2, ..., vn}, E E E 表示边的集合,即 { e 1 , e 1 , . . . , e m } \left\{e_1,\ e_1,\ ...,\ e_m\right\} {e1, e1, ..., em}。我们使用 X = [ x 1 T , x 1 T , ⋅ ⋅ ⋅ , x n T ] ∈ R n × d \mathbf{X}=[\mathbf{x}_1^T,\ \mathbf{x}_1^T,\ \cdot\cdot\cdot,\ \mathbf{x}_n^T]\in\mathbb{R}^{n\times d} X=[x1T, x1T, ⋅⋅⋅, xnT]∈Rn×d 来表示节点属性矩阵,其中 x i \mathbf{x}_i xi 是节点 v i v_i vi 的属性向量。或者,我们将属性图表示为 G = ( A , X ) \mathcal{G}=\left(\mathbf{A},\ \mathbf{X}\right) G=(A, X),其中 A = { 0 , 1 } n × n \mathbf{A}=\left\{0,\ 1\right\}^{n\times n} A={0, 1}n×n 是表示图拓扑的邻接矩阵。具体来说, A i , j = 1 \mathbf{A}_{i,j}=1 Ai,j=1 意味着节点 v i v_i vi 和节点 v j v_j vj 之间存在边,否则 A i , j = 0 \mathbf{A}_{i,j}=0 Ai,j=0。
2.2. 问题定义
在弱监督图异常检测中,我们仅提供整个子图的标签。考虑到异常子图可能同时包含正常节点和异常节点,粗粒度子图标签不精确,无法直接应用于推断节点级异常。
多实例学习(MIL)处理以集合(包)组织的训练数据,其中提供包级监督,类似于弱监督图异常检测问题。尽管如此,我们的问题在以下两个方面与经典的 MIL 不同,包括(1)与 i.i.d 相比。数据假设,图异常检测旨在捕获节点之间的结构相关性,(2)我们的目标是推断节点级异常,这比标准包级预测更具挑战性。让我们首先简要回顾一下多实例学习(MIL)的背景 [74]。
在 MIL 中,包被定义为一组单独的训练实例,其中每个实例的标签未知。如果一个包包含至少一个阳性实例,则该包被标记为阳性,否则标记为阴性。给定一包 b b b 实例,即 B = { x 1 , x 2 , . . . , x b } \mathcal{B}=\left\{x_1,\ x_2,\ ...,\ x_b\right\} B={x1, x2, ..., xb},MIL 旨在预测包级标签如下 [22],
其中 g ( ⋅ ) g\left(\cdot\right) g(⋅) 是一个实例级转换,用于预测实例标签或生成特征表示,而 f ( ⋅ ) f\left(\cdot\right) f(⋅) 充当聚合器,根据 g ( ⋅ ) g\left(\cdot\right) g(⋅) 的节点级结果生成最终的包级预测。
在我们的设置中,子图被视为一个包,节点级(即实例级)标签是未知的。我们假设有一组被标记为异常的 k k k 子图(包),即 B a = { S 1 , S 2 , . . . , S k } \mathcal{B}_a=\left\{\mathcal{S}_1,\ \mathcal{S}_2,\ ...,\ \mathcal{S}_k\right\} Ba={S1, S2, ..., Sk}。 B a \mathcal{B}_a Ba 中的节点集表示为 V l \mathcal{V}^l Vl,其余未标记节点集表示为 V u \mathcal{V}^u Vu。请注意, V = { V l , V u } V=\left\{\mathcal{V}^l,\ \mathcal{V}^u\right\} V={Vl, Vu} 并且在我们的问题中 ∣ V l ∣ ≪ ∣ V u ∣ |\mathcal{V}^l|\ll|\mathcal{V}^u| ∣Vl∣≪∣Vu∣ 因为只给出了有限数量的标记子图。对于每个子图(例如 S i \mathcal{S}_i Si),它包含图 G \mathcal{G} G 中的多个节点,即 S i = { v 1 ( i ) , v 2 ( i ) , . . . , v b i ( i ) } \mathcal{S}_i=\left\{v_1^{\left(i\right)},\ v_2^{\left(i\right)},...,\ v_{b_i}^{\left(i\right)}\right\} Si={v1(i), v2(i),..., vbi(i)} 其中 b i b_i bi 是子图 S i \mathcal{S}_i Si 的大小。如果子图中至少存在一个异常节点,则正标签(即 Y = 1 Y=1 Y=1)与该子图相关联,否则 Y = 0 Y=0 Y=0。形式上,我们有以下异常子图的定义。
定义 1. 异常子图。给定一个属性图 G = ( V , E , X ) \mathcal{G}=\left(\mathcal{V},\ \mathcal{E},\ \mathbf{X}\right) G=(V, E, X),如果图 G \mathcal{G} G 的连通子图 S \mathcal{S} S 包含至少一个异常节点,则该子图 S \mathcal{S} S 被定义为异常。
一般来说,弱监督图异常检测的目标是通过有效利用异常子图粗粒度标注的有限知识,最大限度地提高图上节点级异常检测的准确性。遵循图异常检测 [1] 的惯例,我们将弱监督图异常检测问题表述为排序问题,并给出正式定义为:问题 1. 弱监督图异常检测
给定:一个节点属性图 G = ( A , X ) \mathcal{G}=\left(\mathbf{A},\ \mathbf{X}\right) G=(A, X),其中包含一组 k k k 标记的异常子图(即 S 1 , S 2 , . . . , S k \mathcal{S}_1,\ \mathcal{S}_2,\ ...,\ \mathcal{S}_k S1, S2, ..., Sk)。
发现:节点级异常检测的模型,能够利用粗粒度的 ground-truth 知识(即 S 1 , S 2 , . . . , S k \mathcal{S}_1,\ \mathcal{S}_2,\ ...,\ \mathcal{S}_k S1, S2, ..., Sk)来检测图 G \mathcal{G} G 中的异常节点。理想情况下,检测到的异常节点应该比正常节点具有更高的排名分数。
3. 提议的方法
在本节中,我们将详细介绍所提出的用于弱监督图异常检测的框架 Wedge。Wedge 的关键创新在于我们从异常和嵌入的角度精确量化了节点和子图之间的内在关系。具体来说,在异常方面,我们提出了一种端到端框架,该框架结合了图神经网络(GNN)和注意力机制,以促进对有限的、粗粒度标记子图的图进行节点级异常检测。此外,我们采用了子图级监督和自监督对比损失相结合的目标,能够在节点和子图之间的嵌入方面建立定量相关性。我们在图 1 中展示了所提议框架的概述。
3.1. 弱监督图异常检测框架
在弱监督异常检测中,我们的目标是利用粗粒度的子图级标签来实现细粒度的节点级异常检测,并且每个异常节点/子图预计会被分配一个大分数,代表其高水平的异常检测。为了实现这一目标,我们提出了一个名为 Wedge 的多实例学习框架,它包括以下关键组件:(1)节点异常预测器作为节点级提取器(即等式(1)中的 g ( ⋅ ) g\left(\cdot\right) g(⋅)),以及(2)一种新的子图异常预测器作为聚合函数(即等式(1)中的 f ( ⋅ ) f\left(\cdot\right) f(⋅))。本质上,节点异常预测器由用于学习节点表示的图形编码器和用于计算每个节点的异常分数的分数估计器模块组成。然后,获得的节点表示和异常分数将被转发到子图异常预测器,以估计子图的总体异常分数。我们详细介绍了所提出的方法如下。
节点异常预测器 g ( ⋅ ) g\left(\cdot\right) g(⋅)。为了评估每个节点的异常程度,我们提出了节点异常预测器模块,为图 G \mathcal{G} G 中的每个节点分配异常分数。该模块由两个子组件组成,包括(1)图编码器,(2)分数估计器。
(1)图形编码器。信息丰富的节点表示是节点异常检测的基石。具体来说,为了构建高质量的图编码器模块,我们利用 GNN 将每个节点映射到低维潜在空间。GNN 定义了图结构数据上神经网络的通用架构。该架构可以捕获局部图结构以及遵循邻域消息传递机制的节点特征。中间节点表示可以通过如下方式获得:
其中 h i l \mathbf{h}_i^l hil 是节点 v i v_i vi 在第 l l l 层的中间表示, N i \mathcal{N}_i Ni 是节点 v i v_i vi 的一跳邻居节点的集合。特别是, A g g r e g a t e l ( ⋅ ) {\rm Aggregate}^l\left(\cdot\right) Aggregatel(⋅) 是一个集成来自邻近节点(包括 v i v_i vi 本身)的信息的函数。 σ ( ⋅ ) \sigma\left(\cdot\right) σ(⋅) 表示非线性激活(例如 ReLU)。
最终的节点表示可以通过以迭代方式应用信息聚合过程来获得。我们使用 Z = [ z 1 T , z 2 T , . . . , z n T ] ∈ R n × d g \mathbf{Z}=[\mathbf{z}_1^T,\ \mathbf{z}_2^T,...\ ,\ \mathbf{z}_n^T]\in\mathbb{R}^{n\times d g} Z=[z1T, z2T,... , znT]∈Rn×dg 表示 GNN 中所有节点的学习表示。值得注意的是,图编码器与任意基于 GNN 的架构兼容 [23,25,49,53],这里我们在实现中应用图卷积网络(GCN)[25]。
然后,图编码器通过非线性激活将获得的节点表示(即 z 1 , . . . , z n \mathbf{z}_1,\ ...,\ \mathbf{z}_n z1, ..., zn)从 GNN 转换到另一个潜在空间。具体来说,该变换可以通过单层前馈神经网络来实现,如下所示:
其中 Q ∈ R n × d e \mathbf{Q}\in\mathbb{R}^{n\times d e} Q∈Rn×de 是所有节点的最终表示矩阵, W e 1 \mathbf{W}_{e_1} We1 是可学习权重矩阵, σ ( ⋅ ) \sigma\left(\cdot\right) σ(⋅) 表示非线性 ReLU 激活。在实践中,我们观察到,与直接利用 GNN 的表示相比,这种非线性变换可以提高检测性能。为了简单起见,我们将图编码器表示为 g θ g g_{\theta_g} gθg。
(2)分数估计器。分数估计器根据最终表示(即 Q \mathbf{Q} Q)计算每个节点的实值异常分数,如下所示:
其中 c ∈ R n × 1 \mathbf{c}\in\mathbb{R}^{n\times1} c∈Rn×1 表示异常得分向量, w e 2 ∈ R d e × 1 \mathbf{w}_{e_2}\in\mathbb{R}^{de\times1} we2∈Rde×1 是可学习权重向量。偏置项被省略。我们使用参数化函数 g θ e ( ⋅ ) g_{\theta_e}\left(\cdot\right) gθe(⋅) 来表示分数估计器,因此节点异常预测器可以用 g θ n ( A , X ) = g θ e ( g θ g ( A , X ) ) g_{\theta_n}\left(\mathbf{A},\ \mathbf{X}\right)=g_{\theta_e}\left(g_{\theta_g}\left(\mathbf{A},\ \mathbf{X}\right)\right) gθn(A, X)=gθe(gθg(A, X)) 表示。
子图异常预测器 f ( ⋅ ) f\left(\cdot\right) f(⋅) 子图的异常情况从以下两个直观的角度进行评估,包括(1)子图中的每个节点都显示出异常程度,从极低(即正常)到极高(即高度异常),可以通过节点异常预测器来估计,(2)节点表示对子图整体异常的不同重要程度。因此,整体子图级异常被认为是节点异常的聚合,并按相应节点重要性进行加权。因此,我们提出的子图异常预测器旨在(1)通过准确评估节点的重要性来区分关键节点,以及(2)根据所得的重要性估计整体子图异常。本质上,子图异常预测器由两个关键模块组成:(1)基于注意力机制的重要性评估器,用于为子图内的节点分配重要性;(2)计算子图异常分数并根据得到的关注权重更新子图表示的聚合器。我们将子图异常预测器表示为参数化函数 f θ s ( ⋅ ) f_{\theta_s}\left(\cdot\right) fθs(⋅)。详细说明如下。
(1)显着性评估器。回想一下,在弱监督图异常检测中,我们有一组标记的异常子图,即 B = S 1 , S 2 , . . . , S k \mathcal{B}={\mathcal{S}_1,\ \mathcal{S}_2,...\ ,\ \mathcal{S}_k} B=S1, S2,... , Sk。对于每个子图 S i ∈ B \mathcal{S}_i\in\mathcal{B} Si∈B,显着性评估器的目标是估计每个单独节点对整个子图异常的贡献。具体来说,我们首先通过单层前馈网络计算节点 v j ( i ) v_j^{\left(i\right)} vj(i) 的注意力向量(即 p j \mathbf{p}_j pj),
其中 q j \mathbf{q}_j qj 是从节点异常预测器获得的节点 v j ( i ) v_j^{\left(i\right)} vj(i) 的表示, W p \mathbf{W}_p Wp 和 b p \mathbf{b}_p bp 分别是参数矩阵和偏差向量。 t a n h ( ⋅ ) {\rm tanh}\left(\cdot\right) tanh(⋅) 表示元素级双曲正切函数。
然后可以直接计算节点 v j ( i ) v_j^{\left(i\right)} vj(i) 的注意力权重,如下所示:
其中方程(6)定义了注意力向量 p j \mathbf{p}_j pj 和可学习向量 w a \mathbf{w}_a wa 之间的归一化相似度。直观上,向量 w a \mathbf{w}_a wa 在注意力机制中至关重要,能够识别关键异常节点。我们将显着性评估器表示为 f θ i ( ⋅ ) f_{\theta_i}\left(\cdot\right) fθi(⋅)。
(2)聚合器。获得子图中每个节点的归一化权重后,我们可以继续计算每个子图的异常分数作为节点级异常分数的加权和,
其中 c j c_j cj 是来自节点异常预测器的节点 v j ( i ) v_j^{\left(i\right)} vj(i) 的异常分数。
类似地,我们可以得到子图 S i \mathcal{S}_i Si 的表示如下:
我们将聚合器表示为 f a ( ⋅ ) f_a\left(\cdot\right) fa(⋅),因此子图异常预测器可以用 f θ s ( ⋅ ) = f a ( f θ i ( ⋅ ) ) f_{\theta_s}\left(\cdot\right)=f_a\left(f_{\theta_i}\left(\cdot\right)\right) fθs(⋅)=fa(fθi(⋅)) 表示,本质上,将节点级表示/分数转换为子图级对应物。整个 Wedge 模型可以具体表示为 f θ ( A , X ) = f θ s ( g θ n ( A , X ) ) f_\theta\left(\mathbf{A},\ \mathbf{X}\right)=f_{\theta_s}\left(g_{\theta_n}\left(\mathbf{A},\ \mathbf{X}\right)\right) fθ(A, X)=fθs(gθn(A, X)) 并直接将输入图映射到子图表示/异常分数,因此可以以端到端的方式进行训练。
3.2. 训练
我们提出的 Wedge 框架的目标是根据节点/子图异常预测器计算出的异常分数来区分正常和异常节点/子图。为了在有限的子图级监督下进行模型训练,受 [38] 的启发,我们提出了子图级偏差损失,以强制模型将显著较大的异常分数分配给模式偏离正常模式的真正异常节点/子图。考虑到我们提供的监督信号非常有限,我们进一步设计了对比损失来增强表示学习。对比损失的关键思想是最大化(1)异常子图表示之间的相似性,以及(2)正常子图和异常子图之间的差异。学习目标详情如下。
用于图异常检测的子图级偏差损失。对于子图 S i \mathcal{S}_i Si,偏差定义为异常分数(即 C i C_i Ci)与参考分数之间的距离,格式为标准分数: d e v ( S i ) = C i − μ r σ r {\rm dev}\left(\mathcal{S}_i\right)=\frac{C_i-\mu_r}{\sigma_r} dev(Si)=σrCi−μr,其中参考分数,即 μ r \mu_r μr,是从高斯分布中采样的 r r r 异常分数的平均值(即 { s 1 , . . . , s r } N ( μ , σ 2 ) \left\{s_1,\ ...,\ s_r\right\}~\mathcal{N}\left(\mu,\ \sigma^2\right) {s1, ..., sr} N(μ, σ2))[27,38], σ r \sigma_r σr 是相应的标准差。偏差损失的目标函数推导如下:
其中 Y i Y_i Yi 是子图 S i \mathcal{S}_i Si 的真实标签。 m m m 是定义偏差内半径的置信裕度。在实践中,我们选择 m m m 为一个较大的值(例如, m = 5 m=5 m=5)以确保它大于偏差。
通过最小化方程(9),异常预测器将强制异常子图的异常分数与参考分数 μ r \mu_r μr 之间存在较大的正偏差,同时将正常子图的异常分数限制在 μ r \mu_r μr 周围。由于子图级表示和异常分数直接受到节点级对应物的影响,因此偏差损失可以进一步改进用于异常检测的节点表示学习。
对比自我监督。一般来说,自监督对比学习旨在通过最大化每个实例对中相似实例之间的一致性,同时捕获不匹配模式之间的负相关性来增强表示学习 [5]。在弱监督图异常检测中,我们仅提供有限数量的标记异常子图。为了应对这一挑战,我们提出了一种对比损失,以进一步细化从节点/子图异常预测器中学习到的表示,通过该表示可以定量关联节点和子图的嵌入。直觉是这样的,通过对比两个异常子图,预计对应的相似度会比比较两个类别中的两个子图时的相似度更大。
具体来说,我们从剩余网络中随机抽取具有相似大小的 k k k 子图,并将它们视为正常子图。请注意,我们还使用采样的子图作为负实例来计算等式(9)中的偏差损失。还值得一提的是,由于采样的子图可能既包含正常节点也包含未标记的异常节点,因此会给训练集带来污染。实验结果表明,我们提出的框架在这种简单的采样策略下始终表现良好,并且对各种污染程度都具有鲁棒性。我们在第 4.4 节中介绍了污染水平的稳健性分析。
对于每个训练时期 i i i,我们选择 N N N 标记的异常子图和 N N N 采样子图而不进行替换,形成一批大小为 2 N 2N 2N 的批次。我们将训练批次表示为 B i = B a ( i ) ∪ B n ( i ) \mathcal{B}_i=\mathcal{B}_a^{\left(i\right)}\cup\mathcal{B}_n^{\left(i\right)} Bi=Ba(i)∪Bn(i),其中 B a ( i ) \mathcal{B}_a^{\left(i\right)} Ba(i) 和 B n ( i ) \mathcal{B}_n^{\left(i\right)} Bn(i) 分别表示在第 i i i epoch 选定的标记子图和采样子图。我们将正对定义为 B a ( i ) \mathcal{B}_a^{\left(i\right)} Ba(i) 中任意两个不同子图的组合。负对由 B a ( i ) \mathcal{B}_a^{\left(i\right)} Ba(i) 的一个子图和 B n ( i ) \mathcal{B}_n^{\left(i\right)} Bn(i) 的另一个子图组成。为了计算一对正子图 ( S i , S j ) \left(\mathcal{S}_i,\ \mathcal{S}_j\right) (Si, Sj) 的损失,我们有,
其中 s i \mathbf{s}_i si 是 S i \mathcal{S}_i Si 的表示, s i m ( ⋅ , ⋅ ) sim\left(\cdot,\ \cdot\right) sim(⋅, ⋅) 表示两个向量之间的余弦相似度, τ > 0 \tau>0 τ>0 是温度参数。等式(10)
然后,我们通过计算所有正对上的 l l l 来获得最终的对比损失:
通过最小化方程(11),模型能够强制(1)异常子图的表示之间的接近性,以及(2)嵌入空间中异常子图和正常子图之间的差异。
式(9)中的偏差损失和式(11)中的对比损失以如下方式相互补充。从子图表示的角度来看,对比损失通过对比同一训练批次中的每对子图来增强学习能力,从而能够捕获子图间的相关性。同时,偏差损失决定了用于评估的检测结果(即异常分数),并根据学习到的表示强制将明显更高的分数分配给异常节点/子图。
因此,我们将这两个目标结合起来如下:
其中 λ \lambda λ 是正则化参数。值得一提的是,如果节点级监督也可用,我们提出的 Wedge 框架可以很容易地摄取这种细粒度的监督,这使得 Wedge 适用于更广泛的场景。
我们在算法 1 中总结了完整的算法。
4. 实验
在本节中,我们进行实证评估以证明所提出框架的有效性,我们旨在回答以下研究问题:
- RQ1。所提出的 Wedge 框架在检测具有粗粒度子图标签的节点级异常方面有多有效?
- RQ2。所提出的 Wedge 框架的每个组件(即注意力机制、对比损失)如何对检测性能做出贡献?
- RQ3。Wedge 对不同程度的污染的鲁棒性如何?Wedge 对模型参数的敏感度如何?
4.1 实验设置
评估数据集。我们使用四个真实世界的数据集,包括 Yelp、Amazon、PubMed 和 Reddit,这些数据集是公开的,并且在之前的研究中已被广泛采用 [19,25,39,42]。表 1 总结了每个数据集的统计数据。详细说明如下。
- Yelp [39] 是从 Yelp.com 收集的,包含位于纽约市的餐馆的评论。根据 Yelp 反欺诈过滤算法,将评论者分为两类:异常(仅过滤评论的评论者)和正常(未过滤评论的评论者)。我们选择总评论的子集并按如下方式构建网络:节点代表评论者,如果两个评论者对同一家餐厅发表了评论,则他们之间存在链接。我们对文本内容应用词包模型 [65] 来获取节点属性。
- Amazon [34] 包含亚马逊办公产品类别下的产品评论信息。根据 [63],具有超过 80% 有用票的审稿人被标记为正常,否则被标记为异常。我们通过连接对同一产品发表过评论的评论者来构建评论图,并从评论内容 [65] 中提取词包特征作为节点属性。
- PubMed [42] 是一个引文网络,其中节点表示与糖尿病相关的医学文章,边表示引文关系。节点属性由来自字典的 TF/IDF 加权词向量表示,该词典由 500 个唯一单词组成。
- Reddit [19] 是从 reddit.com(一个在线讨论论坛)收集的,其中节点代表线程,如果两个线程由同一用户评论,则两个线程之间存在边。节点属性是使用线程的平均词嵌入向量构造的。我们从原始大型网络中提取节点子集进行实验。
与 Yelp 和 Amazon 数据集不同,PubMed 和 Reddit 不包含真实异常。因此,我们采用两种异常注入方法 [9,44],通过分别修改图拓扑和节点属性来生成结构异常和上下文异常的组合。为了获得结构异常,我们采用 [9] 使用的方法来生成一组派,因为派通常被认为是一种典型的异常图模式,其中一组节点彼此之间的连接更加紧密 [43]。具体来说,为了构建一个派系,我们在图中随机选择𝑐节点(即派系大小),然后使这些节点彼此完全链接。通过重复这个过程 K K K 次(即 K K K 派系),我们可以获得 K × c K\times c K×c 结构异常。在我们的实验中,我们选择团大小 c c c 为 15。此外,我们按照 [44] 提出的方法构建上下文异常。具体来说,我们首先随机选择一个节点 v i v_i vi,然后从图中抽取另外 50 个节点。在 50 个节点中,我们选择其属性(即 x j \mathbf{x}_j xj)与 x i \mathbf{x}_i xi 具有最大欧氏距离的节点 v j v_j vj。然后,我们将节点 v i v_i vi 的属性替换为 x j \mathbf{x}_j xj。值得注意的是,注入的结构异常和上下文异常具有相同的数量,并且注入的异常总数约为图大小的 6%。
获得真实情况或注入的节点级异常后,我们现在可以继续生成标记的异常子图(即 B a \mathcal{B}_a Ba)。我们首先从图中随机选择 k k k 异常节点作为中心节点。然后我们采用重启随机游走(RWR)[47] 来获得局部子图。随机游走的长度和重启概率分别设置为 10 和 0.5,得到的子图的平均大小约为 8.67。然后,通过将 RWR 应用于从未标记节点集(即 V u \mathcal{V}^u Vu)中采样的节点来构造未标记子图集(即 B n \mathcal{B}_n Bn)。特别是,对于 Yelp 和 Amazon 数据集,除了基于 RWR 的构建子图策略之外,我们还认为子图是对同一产品/餐厅发表评论的一组评论者/客户(即节点)。我们评估了 Yelp 和 Amazon 数据集的两种类型的标记子图上所有监督比较方法的性能。为了表示子图类型的变体,我们使用 “R” 表示 RWR 生成的子图,使用 “P” 表示同一产品上相关评论者的子图。
比较方法。我们将我们提出的 Wedge 框架与以下两组异常检测方法进行比较,包括(1)基于特征的:LOF [3]、自动编码器 [68]、DeepSAD [40] 和 MI-Net [22],其中仅节点属性使用,以及(2)基于图的:Radar [29]、DOMINANT [8]、SemiGNN [50]、GDN [13]、CARE-GNN [14]、MI-GNN [48]、CoLA [32]、 SL-GAD [67] 和 BWGNN [45],其中同时考虑了图拓扑信息和节点属性。请注意,对于为节点级标签设计的监督方法,我们将标记子图中的所有节点视为真实异常。比较方法的详细内容如下。
- LOF [3] 是一种基于特征的无监督方法,它根据局部密度的偏差来检测异常值。
- Autoencoder [68] 是一种基于特征的无监督深度自动编码器模型,它引入了基于L1或L2范数的异常正则化惩罚。
- DeepSAD [40] 是一种基于神经网络的方法,用于一般半监督异常检测。我们在实验中使用节点属性作为输入特征。
- MI-Net [22] 是一种深度多实例学习方法,它结合了分类任务的注意力机制。我们在实验中使用节点属性作为训练样本。
- Radar [29] 是一种通过表征属性残差及其与网络结构的一致性来对属性网络进行异常检测的无监督方法。
- DOMINANT [8] 是一种基于 GCN 的自动编码器方法,它从网络结构和节点属性的角度根据重建误差计算异常分数。
- SemiGNN [50] 是一种半监督 GNN 模型,它利用分层注意力机制来更好地关联不同的邻居和不同的视图。
- GDN [13] 是一种最新的基于 GNN 的小样本学习方法,通过对具有不同行为的异常强制执行大分数来进行节点级异常检测。
- CARE-GNN [14] 是一种基于 GNN 的异常检测模型,它利用强化学习根据标签感知相似性度量选择信息丰富的相邻节点。
- MIL-GNN [48] 是一种基于 GNN 的图分类多实例学习框架。在实验中,我们将训练集中的每个子图视为一个单独的图。
- CoLA [32] 是一种基于 GNN 的自监督异常检测框架,它提出对有效实例对进行采样,以对比方式捕获图异常。
- SL-GAD [67] 是一种无监督图异常方法,它通过生成属性重建和多视图对比学习模块计算异常分数。
- BWGNN [45] 是一种监督方法,它提出了专为图异常检测而设计的 GNN 架构中的频谱局部带通滤波器。
评估指标。为了全面评估不同异常检测方法的性能,在这项工作中,我们使用了先前研究中广泛采用的指标,包括(1)AUC-ROC,(2)AUC-PR和(3)Precision@K,详细 如下。
- AUC-ROC 广泛应用于之前的异常检测研究中[8, 29]。具体来说,曲线下面积 (AUC) 描述了随机选择的异常实例比随机选择的正常对象获得更高分数的概率。
- AUC-PR 是不同阈值下的精确率与召回率曲线下的面积,它评估正类(即异常对象)的性能。
- Precision@K 定义为排名靠前的 K K K 对象中真实异常的比例。具体来说,我们按降序对检测算法中的异常分数进行排序。
实施细节。对于预处理,我们使用上述策略生成 k = 50 k=50 k=50 个异常子图以获得 B a \mathcal{B}_a Ba。对于所提出的 Wedge 框架,图编码器是一个具有 512 维的双层图卷积网络(GCN)[25],后面是一个大小为 256 的隐藏层,如等式(3)所示。对于子图异常预测器,我们选择注意向量的维度(即等式(5)中的 p \mathbf{p} p)为128。置信度(即等式(9)中的 m m m)设置为 5,参考分数(即 μ r \mu_r μr)计算为从高斯分布(即 N ( 0 , 1 ) \mathcal{N}\left(0,\ 1\right) N(0, 1))中采样的 5, 000 个分数的平均值。我们在方程式(10)中设置温度 τ = 0.1 \tau=0.1 τ=0.1,式(12)中的正则化参数 λ = 0.4 \lambda=0.4 λ=0.4。
对于训练,我们采样 k = 50 k=50 k=50 个子图来构建 B n \mathcal{B}_n Bn 并用 1, 000 个时期训练模型。对于每个时期,我们分别从 B a \mathcal{B}_a Ba 和 B n \mathcal{B}_n Bn 中随机选择 N = 8 N=8 N=8 个子图,导致批量大小为 16。我们使用学习率为 0.01 的 Adam 优化器 [24]。节点分为 40% 用于训练,20% 用于验证,40% 用于测试。对于所有比较方法,我们选择在验证集上具有最佳性能的超参数,并报告测试数据上的结果。我们报告训练算法运行 10 次后的平均结果。
4.2 有效性结果(RQ1)
我们首先评估所提出的框架 Wedge 和节点级异常检测中的基线方法的性能。我们提出评估结果 w.r.t.(1)表 2 中的 AUC-ROC/AUC-PR,以及(2)图 2 中的 Precision@K。请注意,在表 2 中,对于监督方法(即 MI-Net、Semi-GNN、GDN、CARE-GNN)、MIL-GNN、BWGNN 和 Wedge),我们报告了 Yelp 和 Amazon 数据集上两种类型的子图级标签的结果,如第 4.1 节中所述,分别用 “R” 和 “P” 表示。我们分别以粗体突出显示最佳性能方法(即 Wedge)并强调最佳比较方法。我们有以下观察。首先,就 AUC-ROC 和 AUC-PR 而言,所提出的 Wedge 明显优于所有比较方法。此外,从结果来看。Precision@K,Wedge 还比其他方法在为真正的异常节点分配更高的异常分数方面取得了更好的性能。其次,无监督方法(例如 DOMINANT、Radar)或半监督方法(例如 DeepSAD、SemiGNN)都无法提供令人满意的结果。可能的解释是(1)无监督方法无法利用标记异常的监督知识;(2)对于半监督方法,DeepSAD 无法处理拓扑信息,而 SemiGNN 需要相对大量的带标签的多视图数据,这降低了这些方法的有效性。第三,现有的监督方法(例如 GDN、BWGNN、CARE-GNN)可以从粗粒度标签中提取有限的知识,因此具有边际改进。
为了证实 Wedge 在弱监督环境中的有效性,我们进行了实验来评估 Wedge 在不同级别的弱监督下的性能。具体来说,我们在构建子图时通过修改随机游走的长度来采用各种大小的标记子图。我们将随机游走 l l l 的长度分别设置为 5、10、15 和 20。表 3 总结了结果。不同弱监督水平下 Wedge 的 AUC-ROC/AUC-PR。我们可以观察到,一般来说,随着标记子图尺寸的增大,模型性能逐渐下降。一种可能的解释是,较大的异常子图可能包含更多的正常节点,这对子图级标签的质量产生负面影响(即监督变得更弱)。通过比较表 2 和表 3 中的结果,我们可以看到所提出的 Wedge 仍然能够大大优于基线,这证明了 Wedge 在明显弱监督下的有效性。
4.3. 消融研究(RQ2)
在本节中,我们进行消融研究来检查 Wedge 中每个关键组件的贡献。我们考虑 Wedge 的以下三种变体,包括(1)排除注意机制并利用平均池化来计算子图级分数/表示的 Wedge-a,(2)在训练期间删除对比目标的 Wedge-c,(3)排除这两个分量的 Wedge-p。性能结果 w.r.t. Precision@200 和 AUC-ROC 分别总结在图 3a 和图 3b 中。我们有以下观察结果:(1)通过将 Wedge-c 和 Wedge-a 与 Wedge-p 进行比较,基于注意力的方法和对比目标可以分别显着提高节点异常检测。例如,注意力机制(即 Wedge-c)在 PubMed 数据集上的 Precision@200 方面可以比 Wedge-p 提高 30%。一个可能的原因是基于注意力的方法可以准确地提取异常子图中的关键节点;(2)所提出的楔形进一步受益于两个组件的组合,并且始终优于变体。例如,在 Yelp 数据集上,Wedge 在 AUR-ROC 方面分别比 Wedge-c 和 Wedge-a 好 3.8% 和 5.8%,这验证了关键组件在提取关键知识和学习信息表示方面的有效性。
4.4. 稳健性和敏感性分析(RQ3)
此外,我们分析了所提出的 Wedge 框架的鲁棒性和敏感性。正如第 3.1 节中提到的,在从未标记的节点集 V u \mathcal{V}^u Vu 中采样子图时,我们将采样子图中的所有节点视为正常节点,这可能会在结果子图集中(即 B n \mathcal{B}_n Bn)中引入污染。为了研究我们提出的 Wedge 的鲁棒性如何。通过不同程度的污染 r c r_c rc(即未标记节点集 V u \mathcal{V}^u Vu 中的异常比例),我们评估了 Wedge、CARE-GNN、GDN 和 SemiGNN 的性能,并给出了结果。图 4a 中的 AUC-ROC。我们可以看到,Wedge 对于各种程度的污染始终保持稳健,并且显着优于其他基线。
批量大小 N N N 是对比学习中的一个重要超参数[5]。我们通过调整批量大小进行敏感性分析,敏感性结果总结在图 4b 中。我们可以观察到:(1)总的来说,Wedge 受益于较大的批量大小,并且可以在 AUCPR 方面获得更好的性能,这可以归因于较大批量中包含更多的负面实例;(2)所提出的 Wedge 仍然可以在小训练批量下实现相对较好的性能。例如,在 Reddit 数据集上,如果我们将批量大小从 N = 20 N=20 N=20 更改为 N = 4 N=4 N=4,AUC-PR 的 AUCPR 只会下降 0.036。
5. 相关工作
在本节中,我们从(1)图异常检测、(2)多实例学习和(3)对比学习方面回顾相关工作。
5.1 图异常检测
图异常检测方法专门针对以下两类图结构数据而设计:(1)仅具有拓扑信息的普通图;(2)具有丰富的节点/边特征信息的属性网络。对于普通图,由于图拓扑是唯一可用的信息,此类方法旨在利用图拓扑知识来识别异常[1]。近年来,归因网络因其处理数据异构性的强大能力而被广泛采用来建模各种复杂系统 [15,51,69]。因此,归因网络的异常检测引起了社区越来越多的研究关注 [35,41]。在所提出的方法中,ConOut [41] 识别每个节点的本地上下文并在本地上下文内执行异常排名。最近,随着使用神经网络进行图表示学习的发展,研究人员建议利用图神经网络(GNN)进行异常检测。DOMINANT [8] 通过使用图卷积网络构建深度自动编码器架构,实现了优于其他浅层方法的卓越性能。Semi-GNN [50] 是一种半监督图神经模型,采用分层注意力机制对多视图图进行建模以进行欺诈检测。CARE-GNN [14] 是一种基于 GNN 的欺诈检测器,它通过寻找最佳相邻节点来改进特征聚合过程。GAS [28] 是一种基于 GCN 的大规模反垃圾邮件方法,用于检测垃圾邮件广告。赵等人提出了一个目标函数来训练 GNN 来表示可异常检测的节点表示 [66]。在这项工作中,我们专注于检测带有子图标签的节点异常。
5.2 多实例学习
多实例学习(MIL)是弱监督学习的一种形式,其中实例被组织成与粗粒度标签关联的集合(包)。一般来说,MIL 研究的重点是设计有效的聚合函数,从包中提取关键信息,以推断未观察到的包 [33] 或实例 [26]。例如,Xu 等人提出了一种使用逻辑回归分类器组合实例预测的平均方法 [55]。Zhou 等人建议使用图内核通过利用实例之间的关系来聚合预测 [73]。最近,深度神经网络参数化的聚合函数已经显示出其相对于浅层方法的优越性 [18]。例如,Ilse 等人提出了一种由神经网络参数化的基于注意力的聚合算子,该算子估计每个实例对包预测的贡献 [22]。Tu 等人利用 GNN 捕获节点之间的相关性以生成图预测 [48]。从应用的角度来看,MIL 已经得到了广泛的研究,从肿瘤图像分割 [56]、对象定位 [6] 到情感分类 [2]。与前面提到的 MIL 方法不同,我们的方法旨在通过利用属性网络的丰富信息来捕获节点和子图异常之间的相关性。
5.3 对比学习
近年来,对比学习已成为自监督学习领域的一个热门话题,并在各个领域得到广泛研究 [5,61]。对比学习的关键思想是增强嵌入空间中正实例之间的接近度,同时将样本分离到不同类别中。例如,SimCLR 旨在通过对比各种增强的图像来改进视觉表示学习 [5]。Tian 等人 [46] 研究了多视图设置中的对比学习,他们的目标是最大化不同视图之间的互信息以捕获场景语义。CPC [37] 是一种通用的无监督学习方法,它采用概率对比损失来理解最关键的预测信息。MoCo [21] 利用对比损失的思想来构建大型且一致的实例表示对动态字典,从而提高了各种下游任务的性能。最近,对比学习被充分利用来进一步增强图结构化数据的表示学习 [20,61,75]。例如,Zhu 等人提出了一种无监督的图学习方法,通过最大化通过腐败获得的两个图视图中的节点嵌入之间的一致性 [75]。我们的工作与对比学习相关,我们的目标是通过对比具有不同异常级别的子图来改进图异常检测的节点表示学习。
6. 结论
在本文中,我们研究了弱监督图异常检测的挑战性问题。我们提出了一种新颖的基于图神经网络的架构 Wedge,其关键创新是在异常和嵌入方面精确量化节点和子图之间的内在关系。所提出的楔能够通过从弱监督的子图级知识中提取关键节点来强制异常节点和正常节点的较大偏差。为了进一步改进节点表示学习,我们设计了一个对比目标,其目的是最大化嵌入空间中异常子图之间的相似性和不同类别子图之间的差异。我们通过广泛的实验评估证明了 Wedge 在节点级异常检测方面的卓越性能。
参考文献
[1] Leman Akoglu, Hanghang Tong, and Danai Koutra. 2015. Graph based anomaly detection and description: a survey. Data mining and knowledge discovery (2015).
[2] Stefanos Angelidis and Mirella Lapata. 2018. Multiple instance learning networks for fine-grained sentiment analysis. TACL (2018).
[3] Markus M Breunig, Hans-Peter Kriegel, Raymond T Ng, and Jörg Sander. 2000. LOF: identifying density-based local outliers. In SIGMOD.
[4] Chen Chen, Hanghang Tong, Lei Xie, Lei Ying, and Qing He. 2016. FASCINATE: fast cross-layer dependency inference on multi-layered networks. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 765–774.
[5] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. 2020. A simple framework for contrastive learning of visual representations. In ICML.
[6] Ramazan Gokberk Cinbis, Jakob Verbeek, and Cordelia Schmid. 2016. Weakly supervised object localization with multi-fold multiple instance learning. TPAMI (2016).
[7] Damon P Coppola. 2006. Introduction to international disaster management. Elsevier.
[8] Kaize Ding, Jundong Li, Rohit Bhanushali, and Huan Liu. 2019. Deep anomaly detection on attributed networks. In SDM.
[9] Kaize Ding, Jundong Li, and Huan Liu. 2019. Interactive anomaly detection on attributed networks. In WSDM.
[10] Kaize Ding, Yancheng Wang, Yingzhen Yang, and Huan Liu. 2023. Eliciting structural and semantic global knowledge in unsupervised graph contrastive learning. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 37. 7378–7386.
[11] Kaize Ding, Zhe Xu, Hanghang Tong, and Huan Liu. 2022. Data augmentation for deep graph learning: A survey. ACM SIGKDD Explorations Newsletter 24, 2 (2022), 61–77.
[12] Kaize Ding, Chuxu Zhang, Jie Tang, Nitesh Chawla, and Huan Liu. 2022. Toward Graph Minimally-Supervised Learning. In Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 4782–4783.
[13] Kaize Ding, Qinghai Zhou, Hanghang Tong, and Huan Liu. 2021. Few-shot Network Anomaly Detection via Cross-network Meta-learning. In The Web Conference.
[14] Yingtong Dou, Zhiwei Liu, Li Sun, Yutong Deng, Hao Peng, and Philip S Yu. 2020. Enhancing graph neural network-based fraud detectors against camouflaged fraudsters. In CIKM.
[15] Boxin Du and Hanghang Tong. 2019. Mrmine: Multi-resolution multi-network embedding. In Proceedings of the 28th ACM International Conference on Information and Knowledge Management. 479–488.
[16] Boxin Du, Si Zhang, Nan Cao, and Hanghang Tong. 2017. First: Fast interactive attributed subgraph matching. In Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining. 1447–1456.
[17] Boxin Du, Si Zhang, Yuchen Yan, and Hanghang Tong. 2021. New frontiers of multi-network mining: Recent developments and future trend. In Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 4038–4039.
[18] Ji Feng and Zhi-Hua Zhou. 2017. Deep MIML network. In AAAI.
[19] Will Hamilton, Zhitao Ying, and Jure Leskovec. 2017. Inductive representation learning on large graphs. In NeurIPS.
[20] Kaveh Hassani and Amir Hosein Khasahmadi. 2020. Contrastive multi-view representation learning on graphs. In ICML.
[21] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. 2020. Momentum contrast for unsupervised visual representation learning. In CVPR.
[22] Maximilian Ilse, Jakub Tomczak, and Max Welling. 2018. Attention-based deep multiple instance learning. In ICML.
[23] Jian Kang, Qinghai Zhou, and Hanghang Tong. 2022. JuryGCN: quantifying jackknife uncertainty on graph convolutional networks. In Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 742–752.
[24] Diederik P Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014).
[25] Thomas N. Kipf and Max Welling. 2017. Semi-Supervised Classification with Graph Convolutional Networks. In ICLR.
[26] Dimitrios Kotzias, Misha Denil, Nando De Freitas, and Padhraic Smyth. 2015. From group to individual labels using deep features. In KDD.
[27] Hans-Peter Kriegel, Peer Kroger, Erich Schubert, and Arthur Zimek. 2011. Interpreting and unifying outlier scores. In SDM.
[28] Ao Li, Zhou Qin, Runshi Liu, Yiqun Yang, and Dong Li. 2019. Spam review detection with graph convolutional networks. In CIKM.
[29] Jundong Li, Harsh Dani, Xia Hu, and Huan Liu. 2017. Radar: Residual Analysis for Anomaly Detection in Attributed Networks… In IJCAI.
[30] Yuncheng Li, Jianchao Yang, Yale Song, Liangliang Cao, Jiebo Luo, and Li-Jia Li. 2017. Learning from noisy labels with distillation. In CVPR.
[31] Yixin Liu, Kaize Ding, Huan Liu, and Shirui Pan. 2023. Good-d: On unsupervised graph out-of-distribution detection. In Proceedings of the Sixteenth ACM International Conference on Web Search and Data Mining. 339–347.
[32] Yixin Liu, Zhao Li, Shirui Pan, Chen Gong, Chuan Zhou, and George Karypis. 2021. Anomaly detection on attributed networks via contrastive self-supervised learning. IEEE transactions on neural networks and learning systems 33, 6 (2021), 2378–2392.
[33] Oded Maron and Aparna Lakshmi Ratan. 1998. Multiple-instance learning for natural scene classification… In ICML.
[34] Julian John McAuley and Jure Leskovec. 2013. From amateurs to connoisseurs: modeling the evolution of user expertise through online reviews. In Proceedings of the 22nd international conference on World Wide Web. 897–908.
[35] Emmanuel Müller, Patricia Iglesias Sánchez, Yvonne Mülle, and Klemens Böhm. 2013. Ranking outlier nodes in subspaces of attributed graphs. In ICDEW.
[36] Eric WT Ngai, Yong Hu, Yiu Hing Wong, Yijun Chen, and Xin Sun. 2011. The application of data mining techniques in financial fraud detection: A classification framework and an academic review of literature. Decision support systems 50, 3 (2011), 559–569.
[37] Aaron van den Oord, Yazhe Li, and Oriol Vinyals. 2018. Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748 (2018).
[38] Guansong Pang, Chunhua Shen, and Anton van den Hengel. 2019. Deep anomaly detection with deviation networks. In KDD.
[39] Shebuti Rayana and Leman Akoglu. 2015. Collective opinion spam detection: Bridging review networks and metadata. In KDD.
[40] Lukas Ruff, Robert A Vandermeulen, Nico Görnitz, Alexander Binder, Emmanuel Müller, Klaus-Robert Müller, and Marius Kloft. 2019. Deep semi-supervised anomaly detection. arXiv preprint arXiv:1906.02694 (2019).
[41] Patricia Iglesias Sánchez, Emmanuel Müller, Oretta Irmler, and Klemens Böhm.
2014. Local context selection for outlier ranking in graphs with multiple numeric node attributes. In SSDBM.
[42] Prithviraj Sen, Galileo Namata, Mustafa Bilgic, Lise Getoor, Brian Galligher, and Tina Eliassi-Rad. 2008. Collective classification in network data. AI magazine (2008).
[43] David B Skillicorn. 2007. Detecting anomalies in graphs. In ISI.
[44] Xiuyao Song, Mingxi Wu, Christopher Jermaine, and Sanjay Ranka. 2007. Conditional anomaly detection. TKDE (2007).
[45] Jianheng Tang, Jiajin Li, Ziqi Gao, and Jia Li. 2022. Rethinking graph neural networks for anomaly detection. In International Conference on Machine Learning. PMLR, 21076–21089.
[46] Yonglong Tian, Dilip Krishnan, and Phillip Isola. 2019. Contrastive multiview coding. arXiv preprint arXiv:1906.05849 (2019).
[47] Hanghang Tong, Christos Faloutsos, and Jia-Yu Pan. 2006. Fast random walk with restart and its applications. In ICDM.
[48] Ming Tu, Jing Huang, Xiaodong He, and Bowen Zhou. 2019. Multiple instance learning with graph neural networks. arXiv preprint arXiv:1906.04881 (2019).
[49] Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, and Yoshua Bengio. 2018. Graph attention networks. In ICLR.
[50] Daixin Wang, Jianbin Lin, Peng Cui, Quanhui Jia, Zhen Wang, Yanming Fang, Quan Yu, Jun Zhou, Shuang Yang, and Yuan Qi. 2019. A Semi-supervised Graph Attentive Network for Financial Fraud Detection. In ICDM.
[51] Haohui Wang, Yuzhen Mao, Jianhui Sun, Si Zhang, and Dawei Zhou. 2023. Dynamic Transfer Learning across Graphs. arXiv preprint arXiv:2305.00664 (2023).
[52] Jianling Wang, Kaize Ding, Liangjie Hong, Huan Liu, and James Caverlee. 2020. Next-item recommendation with sequential hypergraphs. In SIGIR.
[53] Felix Wu, Tianyi Zhang, Amauri Holanda de Souza Jr, Christopher Fifty, Tao Yu, and Kilian Q Weinberger. 2019. Simplifying graph convolutional networks. arXiv preprint arXiv:1902.07153 (2019).
[54] Keyulu Xu, Weihua Hu, Jure Leskovec, and Stefanie Jegelka. 2019. How powerful are graph neural networks?. In ICLR.
[55] Xin Xu and Eibe Frank. 2004. Logistic regression and boosting for labeled bags of instances. In PAKDD.
[56] Yan Xu, Jun-Yan Zhu, I Eric, Chao Chang, Maode Lai, and Zhuowen Tu. 2014. Weakly supervised histopathology cancer image segmentation and classification. Medical image analysis (2014).
[57] Zhe Xu, Yuzhong Chen, Qinghai Zhou, Yuhang Wu, Menghai Pan, Hao Yang, and Hanghang Tong. 2023. Node Classification Beyond Homophily: Towards a General Solution. In Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2862–2873.
[58] Yuchen Yan, Si Zhang, and Hanghang Tong. 2021. Bright: A bridging algorithm for network alignment. In Proceedings of the Web Conference 2021. 3907–3917.
[59] Yuchen Yan, Qinghai Zhou, Jinning Li, Tarek Abdelzaher, and Hanghang Tong. 2022. Dissecting cross-layer dependency inference on multi-layered interdependent networks. In Proceedings of the 31st ACM International Conference on Information & Knowledge Management. 2341–2351.
[60] Jiaxuan You, Bowen Liu, Zhitao Ying, Vijay Pande, and Jure Leskovec. 2018. Graph convolutional policy network for goal-directed molecular graph generation. In NeurIPS.
[61] Yuning You, Tianlong Chen, Yongduo Sui, Ting Chen, Zhangyang Wang, and Yang Shen. 2020. Graph contrastive learning with augmentations. (NeurIPS (2020).
[62] Reza Zafarani, Mohammad Ali Abbasi, and Huan Liu. 2014. Social media mining: an introduction. Cambridge University Press.
[63] Shijie Zhang, Hongzhi Yin, Tong Chen, Quoc Viet Nguyen Hung, Zi Huang, and Lizhen Cui. 2020. Gcn-based user representation learning for unifying robust recommendation and fraudster detection. In Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 689–698.
[64] Si Zhang, Dawei Zhou, Mehmet Yigit Yildirim, Scott Alcorn, Jingrui He, Hasan Davulcu, and Hanghang Tong. 2017. Hidden: hierarchical dense subgraph detection with application to financial fraud detection. In Proceedings of the 2017 SIAM International Conference on Data Mining. SIAM, 570–578.
[65] Yin Zhang, Rong Jin, and Zhi-Hua Zhou. 2010. Understanding bag-of-words model: a statistical framework. International Journal of Machine Learning and Cybernetics (2010).
[66] Tong Zhao, Chuchen Deng, Kaifeng Yu, Tianwen Jiang, Daheng Wang, and Meng Jiang. 2020. Error-Bounded Graph Anomaly Loss for GNNs. In CIKM.
[67] Yu Zheng, Ming Jin, Yixin Liu, Lianhua Chi, Khoa T Phan, and Yi-Ping Phoebe Chen. 2021. Generative and contrastive self-supervised learning for graph anomaly detection. IEEE Transactions on Knowledge and Data Engineering (2021).
[68] Chong Zhou and Randy C Paffenroth. 2017. Anomaly detection with robust deep autoencoders. In KDD.
[69] Qinghai Zhou, Liangyue Li, Nan Cao, Lei Ying, and Hanghang Tong. 2019. ADMIRING: Adversarial multi-network mining. In ICDM.
[70] Qinghai Zhou, Liangyue Li, Nan Cao, Lei Ying, and Hanghang Tong. 2021. Adversarial Attacks on Multi-Network Mining: Problem Definition and Fast Solutions. IEEE Transactions on Knowledge and Data Engineering (2021).
[71] Qinghai Zhou, Liangyue Li, and Hanghang Tong. 2019. Towards Real Time Team Optimization. In Big Data.
[72] Qinghai Zhou, Liangyue Li, Xintao Wu, Nan Cao, Lei Ying, and Hanghang Tong. 2021. Attent: Active attributed network alignment. In Proceedings of the Web Conference 2021. 3896–3906.
[73] Zhi-Hua Zhou, Yu-Yin Sun, and Yu-Feng Li. 2009. Multi-instance learning by treating instances as non-iid samples. In ICML.
[74] Zhi-Hua Zhou, Min-Ling Zhang, Sheng-Jun Huang, and Yu-Feng Li. 2012. Multiinstance multi-label learning. Artificial Intelligence (2012).
[75] Yanqiao Zhu, Yichen Xu, Feng Yu, Qiang Liu, Shu Wu, and Liang Wang. 2020. Deep graph contrastive representation learning. arXiv preprint arXiv:2006.04131 (2020).