Abstract
属性图异常检测旨在识别明显偏离大多数正常节点的节点,由于图结构数据在现实世界各种场景中的普遍性和复杂性,这种检测方法受到越来越多的关注。然而,目前主流的异常检测方法主要是针对集中式环境设计的,在某些敏感情况下可能会带来隐私泄露风险。
尽管图联邦学习提供了一个很有前景的解决方案,它可以在分布式系统中进行协作模型训练,同时保护数据隐私,但由于每个客户端拥有的图数据量通常有限,因此实际挑战也随之而来。因此,将联合图学习直接应用于分布式环境中的异常检测任务可能会导致性能结果不理想。
为了解决这些挑战,我们提出了一个基于对比自监督学习( CSSL ) [联邦CSSL异常检测框架( FedCAD )]的联合图异常检测框架。FedCAD通过联邦学习( FL )交互来更新客户端之间的异常节点信息。
首先,FedCAD 使用伪标签发现技术初步确定客户端的异常节点。
其次,FedCAD 采用本地异常邻居嵌入聚合策略。该策略可使当前客户端聚合来自其他客户端的异常节点的邻居嵌入,从而放大异常节点与其邻居节点之间的区别。
在对比学习中,这样做能有效增强正负实例对之间的对比,从而通过这种学习范式提高异常检测的效率和精度。
最后,在四个真实图数据集上的实验结果证明了 FedCAD 的效率。
术语表:
一、INTRODUCTION
异常检测(Anomaly Detection)是机器学习中的一个基本研究问题,已经在图像分析和时间序列分析等多个领域得到了广泛的研究。它的主要目标是识别出表现出异常行为或不符合典型模式的数据点或实体。传统的异常检测方法主要集中于单维数据或简单的关系结构。
然而,随着社交网络、物联网 (IoT) 和生物网络等领域复杂关系数据的出现,属性图异常检测的重要性变得日益明显。
属性图表示复杂的数据结构,包括节点、边以及附着在每个节点和边上的各种属性信息。与传统的仅表示节点间相互作用的图不同,属性图为每个节点纳入了丰富的特征信息,允许对更复杂的相互作用系统进行建模[ 2 ]。
属性图上的异常检测涉及在这种更复杂的背景下识别异常的节点、边或子结构。与单维或表格数据不同,属性图上的异常检测带来了更大的挑战。属性图中异常节点的检测对于各种安全相关的应用具有重要的意义,近年来已成为一个迫切的研究课题。例如,社会网络分析、财务欺诈检测、网络安全等。
随着图神经网络( GNNs )的发展,属性图异常检测取得了重大进展,并在许多现实世界的复杂场景中表现出了良好的性能。
尽管传统的集中式异常检测方法取得了进步,但它们往往需要直接访问潜在的敏感用户数据,从而引发了严重的隐私问题[3]。
下面是一个常见场景的例子。考虑到金融行业的实际问题,由于各种原因,城市居民会去不同的银行。因此,他们的客户信息、交易网络和违约记录只存储在他们访问过的银行中。对于希望合作对其客户进行全面信用评估并确定共同行业黑名单的银行来说,一个能够在客户网络(包含来自不同银行的所有子图)中执行高效推理的强大异常检测模型是一个关键要求。
但由于担心用户隐私和利益冲突,所有银行都很难共享用于训练异常检测模型的客户网络。在上述情况下,出现了两个挑战。
上述情况带来了两个挑战。
第一个挑战是数据隐私保护。如何在分布式系统中训练异常检测模型,同时保护数据隐私?
第二个挑战是小型客户端子图。在分布式系统中,每个客户端的数据规模较小,客户端之间的数据可能会重叠。如何扩大每个客户端的数据规模以提高异常检测的效果?
联邦图学习是解决这一问题的一个令人信服的替代方案,它可以在不损害个人数据所有者隐私的情况下,促进分布式系统之间的协作模型训练[4]。它允许客户在本地维护数据,只共享模型参数或加密梯度。然而,当直接应用于分布式环境中的异常检测任务时,由于每个客户端掌握的图数据相对较少,联合图学习可能会因学习过程中缺乏全面的数据暴露而导致性能下降。
对于数据隐私保护的第一个挑战:
在本文中,我们提出了一种联邦图异常检测框架FedCAD,该框架融合了联邦图学习和异常检测的思想。
首先,FedCAD通过联邦参数聚合间接获取其他客户端的图结构,并将其集成到其客户端图结构中。
其次,FedCAD不直接共享节点特征,而是通过对比学习采样得到目标节点的邻居子图,并在共享前将子图嵌入到低维嵌入向量中。同时,服务器只上传异常节点邻域子图嵌入,而不上传正常节点邻域子图嵌入。
这两点保证了数据的隐私安全。
ps:
对于客户端子图规模较小的第二个挑战:
一个明显的方法是扩大每个客户端的数据,公司或组织通过其他渠道扩大数据集的规模。然而,扩大数据集的规模是有成本的。
另一种方法是进行数据增强。然而,目前大多数数据增强方法都适用于计算机视觉(CV)和自然语言处理(NLP)领域。由于图形是复杂的非欧几里得图形,因此可用于图形数据的数据增强技术很少。此外,数据增强产生的数据多为负例,降低了模型在异常检测任务中的性能。
FedCAD通过使用“局部异常邻居嵌入聚合机制”解决了这一挑战,使得当前客户端能够聚合其他客户端的异常节点邻居嵌入,扩大了异常节点与其邻居节点之间的差异,使得对比学习中的正例实例对和