文章信息
来源:IEEE Transactions on Big Data.(2022)
作者:Zhen Liu, Wenbo Zuo, Dongning Zhang and Xiaodong Feng
代码:GitHub - wave-zuo/RGSE: Robust Graph Structure Embedding for Anomalous Link Detection
内容简介
在大数据时代,互联网和社交网络上的通信和在线互动产生了大量具有网络结构的数据。从网络数据中识别异常模式是大数据技术研究面临的主要挑战之一,这将有助于改善大数据的安全基础设施。近年来,图上的异常检测问题得到了广泛研究,其中大部分是针对节点级别的异常检测,例如DONE和ADONE、Dominant和AnomalyDAE等方法已经取得了最先进的结果。由于节点异常检测与链接异常检测之间的差异,关于边级别异常检测的方法研究较少。在现实生活中的网络中,节点之间的观察到的链接可能并不像看起来那么可信,这是由于存在异常链接或对抗性连边。例如,在社交网络中,用户之间的关注关系可能是由机器人用户建立的虚假关系;在蛋白质相互作用(PPI)网络中,蛋白质之间的相互作用可能是由于有限的实验仪器错误地检测出的假阳性链接。因此,研究如何在网络上识别链接级别的异常对于理论和实践都具有重要意义。
识别异常链接的主要挑战在于观察到的网络数据已经被异常链接污染,这意味着链接中混杂了正样本和假阳性样本。因此,现有的假阳性样本会向学习模型提供误导性的监督信号。众所周知,传统的图表示模型在处理这个问题上表现不佳,因为它们持有“所有观察到的链接都是真实的”这个基本假设。如图1所示,给定一个具有两种节点的图G,通过图卷积网络(GCN)生成的节点在二维空间中是可分离的。然而,在添加了一些异常链接的图G'中,很难区分嵌入节点的类别。已有研究报告称,大多数现有的图嵌入模型和图神经网络都存在固有的脆弱性,无法抵御异常链接的负面影响。因此,如果可以通过适当的检测方法从观察到的网络中移除异常链接,将有望解决图表示模型中的脆弱性问题。
最近的一项研究显示,导致这些模型脆弱性的原因可能是学习到的嵌入向量不够稳健。如果能够引入更稳定的图结构特征,这些特征对异常链接不敏感,在图学习框架中,可能可以获得更稳健的嵌入向量,从而有助于检测异常链接。这是本论文的第一个动机。直观地说,对于图神经网络模型来说,如果两个节点共享许多公共邻居,它们往往具有相似的邻接矩阵表示。然而,一项新研究指出,传统的图嵌入和图神经网络模型使用的是一种隐式学习方法,无法直接有效地感知节点之间邻居重叠的程度。明确定义稳定的图结构特征,而不是隐式学习图结构特征,对于增强图学习模型的表达能力至关重要。因此,显式构建基于共同邻居的特征的想法是本论文的第二个动机。
本文主要贡献:
(i) 引入了一个稳健的对比损失函数到自编码器模型中,并通过理论分析和实证验证证明了其有效性。
(ii) 提出了基于共同邻居的局部结构特征,用于表示图中的连边,这些特征对连边扰动不敏感。
(iii) 为了实现异常链接检测,从全局图结构学习和稳定局部图特征表示的角度,设计了一个基于双视图的稳健图结构嵌入模型。
Robust Graph Structure Embedding
本文优化目标为异常链接检测问题的优化目标,目标函数如下:
其中,是边(u,v)的嵌入向量,Θ和Ω分别对应于异常分数函数A(·)和边嵌入模型M(·)的参数。S(·)是一个指示函数,其值反映了链接的实际异常状态,即1表示正常,0表示异常。请注意,S(·)仅适用于模型评估,而扰动性连边的数量对于A(·)和M(·)都是未知的,这意味着构建A(·)和M(·)时,只能使用污染的图信息。
A. 保留拓扑信息的节点嵌入
基于图的结构信息,初始节点向量可以表示为
其中,A是的邻接矩阵,
= (0, ..., 1, ..., 0)T是一个one-hot编码向量,即只有向量的第u个元素等于1。受结构深度网络嵌入(SDNE)的启发,我们采用了两个全连接层来构建编码器,这有助于其对抗结构噪声的全局编码能力。通过这样的方式,我们可以获得低维度的节点嵌入向量:
其中,LeakyReLU(·)是带有负输入斜率为0.2的Leaky修正线性单元,而和
是参数矩阵。用于重构邻接矩阵中元素的解码器计算如下:
其中,σ(·)是sigmoid函数。为了利用图结构的同质性特征并减少图中异常链接的影响,引入了对比损失,给定节点i的对比损失定义如下:
其中,是节点i的邻居集合,
表示节点i和节点j之间的相似度(本文采用余弦相似度),τ是一个称为温度系数的常数,通常设置为1。所有节点的总对比损失为:
将重构损失与对比损失相结合,对比损失作为正则化项,完整的损失函数定义为:
其中,是通过加权交叉熵函数计算的图重构误差。本文提出的基本嵌入模型是一个特殊的自编码器,仅使用图的结构信息。
B. 稳定的局部拓扑特征表示
考虑到异常链接可以轻易扰乱和改变节点之间的一阶邻接关系,这意味着仅包含节点的一阶邻接信息的基于邻接矩阵的网络嵌入可能不够稳健。因此节点的二阶邻接信息对于图表示学习的稳健性也是有用的。
命题:当一个异常链接(u,v)被插入到一个包含n个节点的图中时,节点u成为节点对的共同邻居的概率为,其中
表示图中节点对之间的共同邻居的集合。
同样地,节点v成为节点对的共同邻居的概率为。现实世界的网络通常是稀疏图,即
和
,导致概率
和
非常小。这意味着添加的异常链接不太可能改变大多数节点对的共同邻居。因此,对于给定的节点对(u, v),节点u和v之间的共同邻居{z1, z2, ..., zk},即第二阶邻接信息,可以被看作是一个非常稳定的图特征。
基于上述讨论,进一步提出了基于共同邻居的特征表示。对于节点对(u, v),如果将共同邻居集合视为一个标记为Z的超节点,可以将局部拓扑结构表示为三元组(u, Z, v)。因此,三元组的特征也有3个维度,表示为,可以定义为:
C. Dual-view-based anomalous link detection framework(双视图的异常链接检测框架)
为了利用全局拓扑特征编码的节点嵌入和稳定的局部拓扑特征,本文提出了一个双视图的异常链接检测框架RGSE,如下图所示。
该框架的流程包括两个分支(视图)。第一个分支是应用带有对比约束的邻接矩阵重构,生成节点嵌入(表示全局视图),第二个分支收集图中节点对之间的基于共同邻居的特征(表示局部视图)。对于第一个分支,为了表示给定节点u和v之间的链接,可以通过节点嵌入向量和
的Hadamard积得到一个向量,并将其传递给一个全连接层生成链接表示向量,如下所示:
同时,对于节点对(u, v)的基于共同邻居的特征,也可以输入到一个全连接层中生成另一个表示向量,如下所示:
然后,进一步采用了自注意力机制的层来聚合最终的链接表示向量:
其中,和
是共享的参数矩阵和向量,
和
是注意力系数。
对应于目标函数中展示的边嵌入函数M(·)。节点u和v之间的链接存在概率通过sigmoid函数估计为
对于所有的节点对,采用加权交叉熵损失函数作为目标函数来优化模型,表示为
其中,Ω+ 表示正例(观测到的链接),Ω− 表示负例(不存在的链接)。对于链接分类, 可以作为异常得分函数A(·)来计算链接(u,v)的异常得分。较高的异常得分表示链接是异常的概率较高。
两个视图,即共同邻居特征提取和全局节点嵌入,可以从框架中解耦进行独立训练,从而可以得到两个变体的模型,即没有共同邻居特征表示的模型(标记为RGSE (w/o CN))和没有全局节点嵌入的模型(标记为RGSE (w/o emb.))。
实验分析
1.在异常链接检测上的准确性比较
本文进行实验以识别三种类型的异常链接,即LPL异常、HHL异常和AL异常。表III中的结果是在注入了50% LPL异常的受污染图上进行的10个独立实验的平均值。用于评估检测准确性的指标是ROC曲线下的面积(AUC)。结果显示,本文提出的RGSE在四个数据集上取得了最佳结果,其变体RGSE(无全局编码)在Enron数据集上取得了最佳结果,分别相对于最佳基线方法的提升分别为2.8%、0.5%、3.3%、3.8%和4.2%。对于HHL异常,注入了10%的异常后,对应的平均结果如表IV所示。RGSE在竞争方法中仍然表现最佳,分别相对于最佳基线方法的提升为1.6%、2.3%、1.3%、3.3%和0.3%。同样,对于标记数据集Cora、Citeseer和BlogCatalog的图结构进行Nettack攻击,每个目标节点注入了三个扰动链接。再次如表V所示,通过识别被攻击图中的对抗边缘,RGSE获得了最佳结果,分别相对于最佳基线方法的提升为1.4%、1.1%、1.4%。从识别三种异常链接的实验中,验证了RGSE在从观察到的链接中发现各种异常方面的更强大性能。
为了进一步展示所提出模型及其两个变体的优越性,还绘制了随着异常链接大小增加的AUC曲线,以比较所有竞争方法之间的差异。当将0.1到0.9(间隔为0.2)的LPL异常比例注入到五个数据集中时,如图4所示,可以观察到RGSE获得了最佳的整体AUC。然而,在Enron上,RGSE(无全局编码)的表现略优于RGSE。在图5中,随着HHL异常比例从0.05增加到0.2,可以看到RGSE在Books、Cora和Citeseer数据集上表现最佳。同时,RGSE与RGSE(无CN)在BlogCatalog上持平,并且与RGSE(无全局编码)和AE在Enron上相当。最后,在每个目标节点上的对抗链接数量从1增加到5,如图6所示,RGSE再次在三个属性网络上表现最佳,超过其他竞争方法。
总结
本文针对静态网络中异常链接检测问题,提出了一种基于双视图的鲁棒图结构嵌入模型RGSE,同时考虑了全局图嵌入和稳定的局部结构特征。因此,RGSE能够很好地捕捉异常链接与正常链接之间的潜在差异。实验结果表明,与其他竞争方法相比,所提出的模型及其变体在三种异常链接检测中表现显著更好。通过进一步分析基于共同邻居特征和损失函数中对比约束的作用,我们揭示了该模型区分异常链接和正常链接的机制。本研究提供了一种利用扰动不变的图特征增强网络数据中的链接级异常检测的新研究范式,这将激发未来在这方面的进一步探索。未来,可以考虑进一步研究寻找其他潜在的稳定结构特征,例如高阶邻域信息,作为本研究的可能扩展。