图反函数通过变分自编码器实现图扩散的源定位

原文链接:通过变分自编码器对图反函数进行图扩散的源定位 |第 28 届 ACM SIGKDD 知识发现和数据挖掘会议论文集

1."信息传播级联"是指在网络中发生的信息传播事件的连锁反应

        当一个节点接收到一条信息后,它可能会将该信息转发给其邻居节点,然后这些邻居节点又会继续传播给它们自己的邻居,从而形成一个级联效应。这种级联效应使得信息在网络中扩散传播。

        而"网络大小增长方面"则是指比较不同数据集(或网络)的规模大小,并评估它们在性能上的差异。通过随机抽取两个图来比较网络大小增长方面的性能,可以看出在不同规模的网络中,算法或方法的表现如何。例如,一个算法在小型网络中的表现可能比在大型网络中更容易处理和预测。

        综上所述,级联指的是信息在网络中的连锁传播,而网络大小增长方面则是比较不同规模网络的性能差异。

2.扩散观测和扩散源是图扩散问题中的两个不同概念。

       1. 扩散观测(Diffusion Observations):扩散观测是指在一个网络或图中观察到的扩散现象的数据。它可以是节点上的某种状态、属性或行为在网络中传播的结果,比如在社交网络中观察到的信息传播过程、电力网络中观察到的能量传输过程等。扩散观测可以用来揭示扩散模式、分析扩散影响以及推断扩散源。

       2. 扩散源(Diffusion Sources):扩散源是导致扩散现象发生的初始点或起源。它可以是图中的一个或多个节点,这些节点上产生了扩散现象并引起了其他节点上的传播。扩散源通常是我们希望识别和定位的目标,因为它们对于理解扩散过程和采取相应措施具有关键作用。

        简而言之,扩散观测是实际观察到的扩散现象的数据,而扩散源是引起这些扩散现象的起源节点。通过分析扩散观测,我们可以推断出扩散源的位置和影响,从而更好地理解和处理图扩散问题。

3.原文

        图传播问题,如谣言传播、计算机病毒或智能电网故障的传播,在社会中无处不在。因此,根据当前的图传播观察,确定传播源通常非常关键。尽管在实践中对于源定位的需求和意义巨大,但源定位作为图传播的逆问题非常具有挑战性,因为它是不适定的:不同的源可能会导致相同的图传播模式。与大多数传统的源定位方法不同,本文侧重于以概率的方式考虑不同候选源的不确定性。这样的努力需要克服一系列重大挑战,包括:1)难以量化图传播源定位的不确定性;2)难以概率化地描述图传播源的复杂模式;3)难以在任何基础的传播模式下进行推广。为了解决上述挑战,本文提出了一个通用框架:源定位变分自编码器(SL-VAE),用于在任意的传播模式下定位传播源。特别地,我们提出了一个概率模型,利用前向传播估计模型和深度生成模型来近似传播源分布以量化不确定性。SL-VAE进一步利用源-观察对的先验知识,通过学习到的生成先验来描述传播源的复杂模式。最后,我们导出了一个统一的目标函数,将前向传播估计模型整合起来,以确保模型在任意传播模式下的泛化性。我们进行了大量实验证明了SL-VAE在重构传播源方面的优越性,平均AUC分数比现有技术提高了20%。

4.介绍

       网络在现实世界中的形成改变了人们日常生活中的互动和沟通方式,网络的无处不在也使我们容易受到各种网络风险的威胁。例如,像Twitter和Facebook这样的在线社交媒体让全世界的人们能够表达个人观点。然而,它也被用来传播谣言和其他形式的错误信息,导致了严重后果:在2020年第一季度,COVID相关的错误信息导致了数百人的死亡。此外,计算机病毒可以在互联网上迅速传播并感染数百万台计算机。在智能电网(即电力网络)中,孤立的故障可能导致滚动断电,造成数十亿的财务损失。从实践和技术两方面来看,准确确定传播源至关重要,通过切断传播的关键路径来减少损失。然而,作为信息传播估计的逆问题,源定位问题的难度至少有两个方面:1)不同的扩散源可能导致完全相同的观察结果。如图1所示,不同的扩散源{𝑏, 𝑑, 𝑓}和{𝑐, 𝑒}生成了相同的传播模式,因此仅根据𝑡2时刻的观察结果很难区分哪个是正确的;2)在图上定位传播源可能需要对整个拓扑空间以及所有节点属性进行探索,这可能导致寻找近似最优解或使用简化的启发式方法以实现次优性能时计算复杂度很高。 (这句话的意思是,在图上定位传播源时,需要对整个拓扑结构以及每个节点的属性进行全面的探索。由于图的复杂性,这可能会导致计算复杂度很高,因此通常需要使用近似最优解或简化的启发式方法来获得次优性能。换句话说,寻找确切的最优解在计算上很困难,因此采用一些近似方法来近似解决问题。)

       在过去几年中,研究人员提出了一系列方法来识别传播源。早期的研究利用确定性算法在预设的传播模式下(如易感-感染模型)定位固定数量的源,但这些模型不能定位不同传播模式下的可变数量的源。此外,将先前的模型扩展到在各种模拟的传播模式下定位多个传播源;然而,由于无法编码图的拓扑信息和需要枚举所有可能的解决方案,它们的表达能力和可扩展性仍然有限。此外,最近的一项工作利用图神经网络将邻域和图拓扑信息编码成潜在节点表示,以实现标签传播,并取得了最先进的性能。迄今为止,所有现有的源定位技术都倾向于构建各种确定性算法直接从扩散的观测中计算传播源。然而,源定位任务的逆问题通常意味着其解决方案通常不是唯一的(如图1所示),而现有方法仍然缺乏建立足够模型以描述这种导致相同扩散观测的源的不确定性,更不用说对不同候选源推断的可能性进行量化了。

        对于解决源不确定性的统计模型的不充分探索主要是由于该问题的困难性质。量化不确定性需要自动学习复杂数据的概率模型,这在过去几年一直是一个极具挑战性的领域,直到深度生成模型开始脱颖而出。现有的深度生成模型已应用于相关的逆问题,但通常使用于图像数据。具体而言,现有的工作利用深度生成模型构建输入源和观测之间的概率模型,以通过近似后验概率估计与观测“最优”的源。然而,用于求解计算机视觉领域中逆问题的方法不能直接适用于图领域,因为存在以下技术挑战:1)难以量化图传播源定位中的不确定性。量化图传播源定位的不确定性需要建立给定扩散观测的图与带有扩散源的图之间的条件概率。由于还需考虑到图拓扑以及它如何影响节点模式,因此无法直接将与图像相关的逆问题处理方法直接应用于此处。此外,图数据的概率分布由于其非欧几里德离散数据,难以通过梯度下降等算法高效地建模和优化。2)难以描述传播源的内在模式。描述传播源的模式是至关重要的,因为传播源往往取决于节点及其连接的本质特征。这些信息与扩散观测不同,但可以主导性地帮助确定源。例如,在社交网络中,一段时间内进行异常活动的帐户更容易被怀疑是错误信息传播源。然而,建模图上的传播源分布需要考虑不同节点的离散状态之间的组合模式。这种模式是指数级的高维,并且通常是难以处理的,导致无法将传播源分布简单地嵌入到源定位问题中。3)难以实现在任何底层传播模式下的泛化。大多数现有的源定位方法针对特定的传播过程(如线性门槛、独立级联和流行病模型)进行了定制化,通常对传播过程施加了严格的假设。建立一个源定位框架,既能适应不同的前向模型,又能在任何信息传播模式下定位源,这是至关重要但也具有挑战性的。

        在本文中,为了解决上述挑战,我们提出了一种新颖的通用框架,即源定位变分自编码器(SL-VAE),用于在任意传播模式下定位给定扩散观测的传播源。具体而言,为了解决第一个挑战,我们通过利用前向扩散估计模型以及深度生成模型来构建概率模型,从而量化不确定性。为了解决第二个挑战,SL-VAE从观察到的源-观察对中学习一个生成先验,以编码传播源的先验知识。最后,我们导出一个统一的目标函数,将前向信息传播估计模型整合到整体学习方案中,以使扩散源的重构能够充分考虑任何传播模式。

       我们总结本文的贡献如下:

      • 针对图扩散中的源定位问题,提出了一种新的通用框架来进行概率性源定位。据我们所知,这项工作是首次尝试利用深度图生成模型来描述图扩散问题的先验和条件概率。
      • 提出了一种新的目标函数,用于相互学习前向模型和概率模型,以逆向定位扩散源。此外,所提出的SL-VAE可以与任何扩散估计模型相结合,从而重新构建唯一的扩散源,适用于任何信息扩散模式。
      • 基于变分推断的方法和相关的优化策略被定制化,用于推断给定扩散观测的最佳扩散源,利用历史观测来描述扩散源的内在模式,以实现更好的预测。
      • 在7个真实世界数据集上进行了大量实验证明。与现有方法相比,SL-VAE在不同扩散模式下定位扩散源的AUC-ROC得分平均提高了20%,F-1得分提高了10%。

5.信息扩散估计

       在图上进行信息扩散估计的任务是根据一组扩散源,近似估计受影响节点的预期数量。早期的研究提出了不同的方法:线性门槛(LT),独立级联(IC)和流行病模型来估计影响传播状态。然而,这些既定方法在其泛化能力方面有一定的局限性,并且在这些模型下准确计算影响传播的范围是NP难问题。后续的研究采用了基于学习的模型(例如,循环神经网络,自注意机制和随机过程),用于预测扩散状态。然而,它们也没有将图拓扑结构纳入到学习方案中。最近,图神经网络(GNNs)在许多图挖掘任务中取得了成功。许多研究已经采用GNNs来预测影响传播状态,因为GNNs可以自然地整合图拓扑结构以增强估计的准确性。

       简单来说,这段文字讨论了在图上进行信息传播估计的问题。早期的方法有限,无法很好地适应不同情况,并且计算准确的影响传播范围是困难的。后来的研究采用了学习方法,但没有充分考虑图的拓扑结构。最近,图神经网络成为了一个有效的工具,可以融入图的拓扑结构来提高估计准确性。

6.定位扩散源
       作为信息扩散估计的反问题,在线信息传播的扩散源定位是基于当前的扩散观察结果来回溯推断初始扩散源,这在许多应用中都有广泛的应用,比如在社交网络中识别谣言源头和在智能电网中找到滚动停电的原因。过去的几年,研究人员提出了各种方法来确定扩散源。早期的方法主要集中在利用最小描述长度原则和近似多源定位算法来确定在线疾病的单一源头,扩散模式为易感-感染(SI)。进一步提出了方法来推广源定位模型,以预测部分观测下谣言源头的扩散模式为易感-感染-恢复(SIR)。随后,Wang等人提出了一种名为LPSI的模型,可以自动检测多个扩散源,而不需要任何事先指定的扩散模式,Dong等人进一步利用GNN增强了LPSI的预测准确性。然而,现有的扩散源定位方法无法很好地量化不同扩散源候选者之间的不确定性,并且通常需要在高维图拓扑和节点属性上进行搜索来检测源头,这两个缺点限制了它们的有效性和效率。此外,现有的扩散源定位方法针对特定的扩散模式(例如LT、IC)进行调整,进一步限制了它们对未知和任意扩散模式的泛化能力。

(高维图拓扑是指在图(网络)中存在大量节点和边的情况下,图的结构及其连接方式所具有的复杂性。在一个高维图中,节点之间的连接关系可能非常复杂,包括多重连接、环路、社区结构等。高维图的拓扑结构可以用来描述节点之间的相互关系和信息传递路径。

举个例子,考虑一个社交网络图,每个人是一个节点,人与人之间的关系通过边来表示。当网络中的人数很多时,在这个图中会存在大量的节点和连接关系,这个图的拓扑结构就是高维的。在这样的高维图中,可能存在许多复杂的社区结构、大规模的传播路径以及不同节点之间的复杂交互。因此,研究高维图的拓扑结构对于理解和分析复杂网络系统具有重要意义。)

7.逆问题的生成模型
       由于逆问题的退化,即在没有关于数据的先验知识(如扩散源的分布)的情况下,定位扩散源是具有挑战性的。传统的方法倾向于为解决逆问题手工设计先验,但这些手工设计的先验在许多情况下较少表达,并且通常在实际中难以处理。深度生成模型通过使用确定性变换将高维且难以处理的先验分布表示为简单分布(如标准正态分布),为建模高维且难以处理的先验分布提供了一种不同的方式。两种主要的深度生成模型:变分自编码器(VAE)和生成对抗网络(GAN)广泛应用于许多与图像相关的逆问题的生成先验学习中(如图像修复和图像超分辨率)。据我们所知,SL-VAE是第一个利用深度生成模型解决图逆问题的实际应用(即扩散源定位)的工作。

8.扩散源定位VAE (SL-VAE)
       本节首先给出问题的定义,然后从基于散度的变分推断中推导出总体目标。接下来,我们通过概率图模型的形式提供了SL-VAE的整体结构。最后,我们提供了一种新颖的优化算法,用于根据相应的扩散观测来优化扩散源头。

9.问题定义
        给定一个图𝐺 = (𝑉 , 𝐸),其中𝑉是节点集合,𝐸是边集合。假设有一组初始扩散源指示符𝑥 ∈ {0, 1}|𝑉|(即扩散源),其中1表示已感染,0表示未感染。通过前向扩散估计模型,可以通过每个节点被感染的概率:𝑦 = [0, 1]|𝑉|(即扩散观察)来估计。信息扩散源定位问题(即信息扩散估计的反问题)被定义为通过扩散观察𝑦重构唯一的解𝑥˜ ∈ {0, 1}|𝑉|,使得经验损失∥𝑥˜ − 𝑥∥²²最小化。然而,由于以下挑战,从𝑦中重构出𝑥˜非常困难。
        挑战1(量化不确定性):为了量化扩散源定位中的不确定性,我们需要构建一个概率模型来描述条件概率𝑝(𝑥 | 𝑦)。然而,𝑥和𝑦都与图𝐺相关联,由于𝐺的拓扑结构决定了整个扩散过程,因此很难建立起条件概率模型,现有的方法由于无法考虑复杂且不规则的图拓扑,无法直接适应。
        挑战2(扩散源的内在模式):由于大多数情况下对于扩散源𝑥的内在模式是未知的,很难对其进行建模。即使我们可以将扩散源的内在模式建模为先验分布𝑝(𝑥),这样的分布𝑝(𝑥)通常是高维且难以处理的,这使得最大化联合似然𝑝(𝑥, 𝑦)变得困难且计算上低效。
        挑战3(在各种扩散模式下的泛化):从𝑥到𝑦的基本扩散过程受许多因素影响,包括网络疾病的类型、免疫力、传播速率和网络参数。然而,现有的方法往往预定义一种扩散模式(如IC、LT)并分析在此类模式下的扩散源定位。因此,为了使其在实际生活中实用,有必要将扩散源定位方法推广到处理任何底层扩散模式,以便在未知和任意扩散模式上具有泛化能力。

将观测数据与先验知识相结合,计算参数的后验概率分布。

       在提出的第一个挑战要求我们不仅要构建一个概率模型来量化扩散源定位中的不确定性,还要有效地利用图拓扑来刻画条件概率𝑝(𝑥|𝑦)。鉴于扩散观测结果𝑦是在给定图𝐺和扩散源𝑥的条件下得到的,可以获得条件概率𝑝(𝑦|𝑥,𝐺) · 𝑝(𝑥),其中𝑝(𝑥)是感染源的分布。我们可以自然地利用最大后验估计(Maximum A Posteriori,MAP)近似来估计最佳扩散源𝑥˜,通过最大化以下概率:

       然而,由于扩散源的分布𝑝(𝑥)通常难以处理,正如提出的第二个挑战所建议的那样,我们可以转而利用深度生成模型来刻画这种隐式分布。

       策略是将难以处理且可能具有高维度的𝑝(𝑥)映射到低维语义空间中的潜在嵌入,以近似表示𝑝(𝑥)并降低计算成本。具体而言,通过近似后验概率𝑝(𝑧|𝑥, 𝑦,𝐺),获得潜在的随机变量𝑧 ∈ 𝑅^𝑘(其中𝑘 ≪ |𝑉|),而𝑝(𝑧)则是潜在语义低维空间中的图先验分布。我们可以定义一个联合概率分布:𝑝(𝑥, 𝑦,𝐺, 𝑧) = 𝑝(𝑥, 𝑦,𝐺|𝑧) · 𝑝(𝑧)。因此,后验概率𝑝(𝑧|𝑥, 𝑦,𝐺)可以用来推断给定联合似然𝑝(𝑥, 𝑦,𝐺)时的低维潜在变量𝑧。

       然而,由于 𝑝(𝑥) 难以处理,我们选择建模参数化的近似后验𝑞𝜙 (𝑧|𝑥, 𝑦,𝐺),并利用Kullback-Leibler(KL)散度来衡量 𝑞𝜙 (𝑧|𝑥, 𝑦,𝐺) 与 𝑝(𝑧|𝑥, 𝑦,𝐺) 之间的近似误差。因此可以获得近似后验概率𝑞𝜙 (𝑧|𝑥, 𝑦,𝐺):

(变分自编码器(Variational Autoencoder,VAE)是一种生成模型,结合了变分推断自编码器的思想。它用于无监督学习和生成新样本。

VAE由两个主要组件组成:编码器(Encoder)和解码器(Decoder)。编码器将输入数据映射到潜在空间中的潜在变量,并输出潜在变量的参数化分布。解码器接受潜在变量作为输入,并重建原始数据。这样,VAE可以通过学习将输入数据压缩到低维潜在空间来学习数据的隐含结构

与传统的自编码器不同,VAE使用变分推断来对潜在变量的后验分布进行近似。它假设潜在变量是由一个先验分布(通常是高斯分布)生成的,并通过编码器模型估计后验分布的参数。这个潜在变量的分布被认为是模型对数据生成过程的近似。然后,通过从这个近似后验分布中采样,潜在变量用于解码器生成新的样本。

在训练过程中,VAE通过最大化一个被称为ELBO(Evidence Lower Bound)的目标函数优化模型。ELBO包括两部分:重建损失项和KL散度项重建损失项衡量解码器生成的样本与原始数据之间的重建误差,而KL散度项鼓励近似后验分布接近先验分布。

通过训练VAE,我们可以学习到一个能够生成新样本并在潜在空间中进行插值的模型。VAE在图像生成、样本重建、数据压缩和潜在空间可视化等任务中都得到了广泛应用。)

       所提到的SL-VAE是一种用于估计信息扩散过程中的扩散源的方法。它使用了一种称为变分自编码器(VAE)的基本框架,并结合了信息传播模型和生成模型。

      SL-VAE的目标是找到一个扩散源集合𝑥,使得通过观察到的扩散结果𝑦,能够对𝑥进行准确的估计。为了实现这一目标,SL-VAE引入了两个网络:生成网络(解码器)和推理网络(编码器)

      生成网络建模了给定潜在变量𝑧和扩散图𝐺的情况下,扩散结果𝑦的概率。它用来学习如何通过𝑥生成𝑦的模式。

       推理网络用于近似后验分布,即在已知𝑥和𝑦的情况下,估计潜在变量𝑧的分布。它帮助我们通过最大化似然性来找到与观测数据𝑦相对应的潜在变量𝑧

       为了优化这些网络,SL-VAE使用了一种叫做ELBO的损失函数。ELBO代表证据下界,在最大化ELBO的过程中,我们能够近似最大后验概率。

       除了ELBO,SL-VAE还考虑了信息扩散的单调性约束,即扩散结果𝑦应具有递增的特性。这是因为在信息传播过程中,如果一个节点被传播到了另一个节点,那么传播到前一个节点的概率应该大于或等于传播到后一个节点的概率。为了满足这个约束,SL-VAE引入了一个学习目标,使得𝑦满足单调递增性质。

       综上所述,SL-VAE通过结合生成网络、推理网络和单调性约束,以及最大化ELBO来对信息扩散过程中的扩散源进行准确的估计。这样可以帮助我们更好地理解和预测信息在网络中的传播。

      为了简化起见,当上下文清楚时,我们忽略E𝑞𝜙 (𝑧 |𝑥,𝑦,𝐺)中的下标,并写为E𝑞𝜙 。请注意,由于难以处理的联合分布𝑝(𝑥, 𝑦,𝐺),不能直接计算公式(1)。然而,给定近似后验分布𝑞𝜙 (𝑧|𝑥, 𝑦,𝐺),证据下界(Evidence Lower Bound,ELBO)允许我们对后验进行近似,如下表达:

      根据Jensen不等式,我们可以通过最大化ELBO来近似后验分布,这比直接计算KL散度更具计算效率。因此,我们可以通过优化负ELBO来最小化近似后验𝑞𝜙 (𝑧|𝑥, 𝑦,𝐺)和真实后验𝑝(𝑧|𝑥, 𝑦,𝐺)之间的KL散度。

       似然函数 𝑝𝜃(𝑥, 𝑦,𝐺|𝑧) 是由参数化的生成网络(即解码器)𝜃给出的。而𝑞𝜙(𝑧|𝑥, 𝑦,𝐺) 则是由参数化的推理网络(即编码器)𝜙给出的。

      在大多数信息传播估计模型中,潜变量 𝑧 与扩散观测 𝑦 是相互独立的。在这些模型中,扩散观测 𝑦 仅由潜变量 𝑥 在图 𝐺 下决定。因此,我们可以进一步将公式(2)中的似然函数𝑝𝜃(𝑥, 𝑦,𝐺|𝑧)分解为:

       在这里,𝑝𝜓(𝑦|𝑥,𝐺) 是由参数化的前向信息传播模型给出的似然函数,用于从𝑝(𝑥) 和 𝐺 估计 𝑝(𝑦)。此外,公式(3)中的第二项 𝑝𝜃(𝑥 |𝑧) 表明潜变量 𝑧 只编码来自 𝑥 的信息(即,𝑦⊥𝑧|𝑥,𝐺)。根据这个假设,我们可以将公式(1)中的编码器 𝑞𝜙 (𝑧|𝑥, 𝑦,𝐺) 简化为 𝑞𝜙 (𝑧|𝑥)。最后,负ELBO可以根据公式(2)进行推导:

      上述分解的KL散度强制近似后验𝑞𝜙(𝑧|𝑥),以便同时最大化𝑝𝜃(𝑥 |𝑧)和𝑝𝜓(𝑦|𝑥,𝐺)的似然性。所提出的贝叶斯变分推断框架允许我们共同最大化𝑝𝜓(𝑦|𝑥,𝐺)和𝑝𝜃(𝑥 |𝑧)的似然性,以构建观测𝑦到唯一估计的扩散源𝑥˜之间的直接映射。也就是说,通过将信息传播源的内在模式建模为𝑝𝜃(𝑥 |𝑧),可以解决挑战2。考虑𝑧和𝑦之间的条件独立性后,SL-VAE的更新概率图模型如图2的右侧所示。

      信息传播的单调性约束。除了优化导出的变分推断框架外,网络上的信息传播还受到单调递增属性的规范化,即𝑦(𝑖) ⪰ 𝑦(𝑗),∀𝑥(𝑖) ⊇ 𝑥(𝑗)。直观地说,如果一个扩散源集合𝑥(𝑖)是另一个𝑥(𝑗)的超集,那么从𝑥(𝑖)估计得到的每个节点在𝑦(𝑖)中被感染的概率应大于或等于从𝑥(𝑗)估计得到的𝑦(𝑗),即𝑦(𝑖) ⪰ 𝑦(𝑗)。这个假设在许多网络信息传播任务中都适用(例如,影响力最大化和信息前向估计),其中每个节点应对信息传播做出非负的贡献。因此,由于信息传播的单调递增属性,我们制定以下约束学习目标:

        然而,带有不等式约束的这种学习目标在节点数量很大时会带来大量的约束条件。为了解决这个问题,我们将带约束的公式(4)转化为增广Lagrange形式,如下所示:

        目标函数。因此,所提出的SL-VAE模型的训练过程已经转化为一个具有更简单约束的新问题,如公式(5)所示。

        在每个小批量中,我们从训练样本中随机选择一个 𝑥(𝑖) 和许多 𝑥(𝑗)(满足 𝑥(𝑖) ⊇ 𝑥(𝑗)),相应的 𝑦(𝑖) 和 𝑦(𝑗) 可以通过任意的扩散模式进行估计。

        总之,SL-VAE提供了一个端到端的贝叶斯推断框架,使我们能够将传播估计方案整合到VAE训练中。只要前向扩散估计模型 𝑝𝜓 (𝑦|𝑥,𝐺) 能够成功地表征扩散模式,我们就可以重建出任何扩散模式下的扩散源。因此,挑战3得到解决。在本工作中,我们采用多层感知机(MLP)结构作为编码器𝑞𝜙 (𝑧|𝑥) 和解码器𝑝𝜃 (𝑥 |𝑧) 的结构。而前向传播模型𝑝𝜓 (𝑦|𝑥,𝐺) 则可以是任意可微分的选择,我们将在实验部分讨论不同的𝑝𝜓 (𝑦|𝑥,𝐺) 的选择。

10.扩散源预测

       在训练阶段结束后,我们的目标是根据扩散观测𝑦预测最优的扩散源𝑥˜。由于分布𝑝(𝑥)直接由𝑝(𝑧)确定(通常建模为标准高斯分布),即𝑝(𝑥) = ∫𝑧 𝑝𝜃(𝑥 |𝑧) · 𝑝(𝑧),我们可以通过对𝑝(𝑧)进行边缘化来抽样𝑥˜ ∼ 𝑝(𝑥),以执行最大后验估计(MAP)。因此,我们推导出以下关于𝑥的优化问题,用于寻找给定扩散观测的最优扩散源:

       然而,边缘化𝑝(𝑧)需要尽可能多地抽样样本,以使样本的分布与期望的分布相匹配,这增加了计算复杂性。另一方面,公式(7)不包含扩散观测𝑦的信息,然而在推断扩散源时,我们希望能够捕捉到扩散观测的信息。

       注1(用后验代替先验)。当后验𝑞𝜙(𝑥)没有坍缩时,潜随机变量𝑧从𝑞𝜙(𝑧|𝑥) = N(𝜇, 𝜎^2)中抽样,其中𝜇和𝜎通过训练集中𝑥的稳定函数得到。换句话说,编码器可以将𝑥中的有用信息提取到𝜇和𝜎中。如果VAE可以很好地近似后验𝑞𝜙(𝑧|𝑥)以匹配先验𝑝(𝑧),我们可以从后验分布𝑞𝜙(𝑧|𝑥)中抽样𝑧,而不是𝑝(𝑧)。

       因此,我们可以通过扩展公式(7)来得到关于𝑥的目标函数L𝑝𝑟𝑒𝑑(𝑥):

       这里的𝑥ˆ表示来自训练集的扩散源。因此,最优的𝑥˜可以通过最大化公式(8)来获得。

       注2(𝑥的初始化)。为了在优化公式(8)时降低搜索空间,我们不随机初始化输入(例如,𝑥 ∼ 𝐵𝑖𝑛(∣∣𝑉 ∣∣, 𝜏),其中𝐵𝑖𝑛是二项分布,𝜏是𝑥𝑖作为种子指示器的随机概率),而是解决以下最大后验问题,利用观察到的扩散源𝑥ˆ的先验知识推断出公式(8)的起始𝑥。

 其中,𝑧¯ = 1/𝑁 𝑞𝜙(𝑧|𝑥ˆ)是从训练集中的𝑁个扩散源中获得的所有潜变量的均值。

       总体推断框架如算法1所示。具体而言,我们首先从二项分布(𝜏 = 0.5)中抽样一个初始扩散源𝑥(第1行)。然后,使用梯度下降优化器(例如Adam)通过迭代求解公式(9)中提出的优化问题(第2至6行)。为了在优化过程中确保预测的𝑥的有效性,我们使用𝑡𝑟𝑖𝑚(𝑥, 0, 1)(第4行)将𝑥的值调整在[0, 1]范围内,并通过阈值𝛿(第5行)将连续值的𝑥转化为离散值(即从[0, 1] |𝑉| 到{0, 1} |𝑉|)。然后,将更新后的𝑥作为输入,通过求解公式(8)来获得最优的𝑥˜,以适应观测𝑦。

       简化预测目标。由于扩散观测𝑦符合高斯分布(即在[0, 1]上连续),表示节点被感染的概率,而扩散源符合伯努利分布,用于识别哪些节点是种子指示器。因此,我们可以推导出以下用于优化带有扩散观测𝑦的𝑥的函数:

        其中,𝑓𝜃表示VAE中的解码器,N和|V|分别是图中的训练样本数量和节点数量。对于𝑥中的每个𝑥𝑖,都有一个相应的潜变量𝑧𝑖。𝑓𝜃(𝑧𝑖) ∈ [0, 1]量化了单个节点𝑥𝑖成为扩散源的概率。

11.实验
        在这项研究中,我们利用真实世界的数据集来评估我们提出的模型,以回答以下问题:
        • Q1. 灵活性:当配备不同的前向扩散估计模型时,SL-VAE在源定位任务中的准确性如何?
        • Q2. 准确性和适应性:在不同扩散模式(例如SI、SIR、真实世界场景)下,SL-VAE与其他源定位方法相比表现如何?
        • Q3. 消融研究:SL-VAE的每个组成部分对整体系统的贡献是什么?
        • Q4. 可扩展性:与其他方法相比,随着输入图的大小增加,SL-VAE的训练/推断时间增长有多快?

12.实验设置
        数据。我们在7个真实世界数据集上将我们提出的SL-VAE与其他基线方法进行比较。附录中可以找到更详细的数据描述和统计信息。对于没有信息传播但只有图拓扑的Karate、Jazz、Cora-ML、Power Grid和Network Science数据集,我们随机选择10%的节点作为扩散源,并基于SI和SIR传染病模型进行信息传播模拟,直到收敛为止进行了200次迭代。易感(S)和恢复(R)节点都被视为未感染节点(= 0),其余的节点都是感染节点(= 1)。Digg和Memetracker都由信息传播级联组成。对于每个信息级联,我们分别根据它们的被感染时间,选择前5%的节点和后30%的节点作为扩散源和感染节点。我们随机采样了两个图形用于真实世界数据集,以便根据网络大小的增长展示性能比较。

       对比方法。我们使用两组方法对各种实验中的SL-VAE的性能进行说明。
       • 扩散估计模型。由于SL-VAE可以作为任何扩散估计方法的插件使用,我们选择了三种最先进的扩散估计方法作为SL-VAE框架中的前向函数𝑝𝜓(𝑦|𝑥, 𝐺)。1)GAT [29]使用注意机制计算节点之间的聚合权重,在估计信息传播方面表现出优势。2)MONSTOR [21]通过堆叠多个GCN模型来估计扩散源的总影响传播。3)DeepIS [34]结合了GNN结构和影响传播模型的特性来估计每个节点的易感性。

       • 源定位方法。从网络源定位任务的性能精度来看,我们将SL-VAE与三个基线方法进行比较。1)NetSleuth [26]旨在识别网络中的多个扩散源;然而,它只适用于底层信息传播模式遵循SI模型的情况。2)LPSI [31]传播网络中的感染节点信息,并基于收敛的节点标签预测谣言源,而不需要知道底层的信息传播模式。3)OJC [39]旨在在具有部分观测的网络中定位源,其在SIR传播模式下检测网络源的能力强。4)GCNSI [8]通过GCN学习潜在节点嵌入,并鉴别接近真实源的多个谣言源。

       对于非基于学习的源定位方法(例如LPSI,OJC和NetSleuth),我们根据其原始论文相应地设置超参数。对于基于深度学习的GCNSI,我们调整超参数以使其在每个数据集上达到最佳性能。所有实验都重复进行了10次以获得性能收敛,并报告每个指标的平均分数。

       实现细节。我们在提出的SL-VAE中,对于解码器𝑝𝜃(𝑥|𝑧)和编码器𝑞𝜙(𝑧|𝑥),我们使用了3层MLP进行非线性变换。此外,前向模型𝑝𝜓(𝑦|𝑥, 𝐺)的选择可以变化。我们特别选择了多种最先进的信息传播模型,如Graph Attention Network(GAT),MONSTOR 和DeepIS 。对于GAT,我们将注意力头的数量和每个注意力通道的维度设置为8。对于MONSTOR,我们将GNN堆叠数设置为3,并且对于每个堆叠,我们采用2层GCN网络。对于DeepIS,我们按照其原始设置进行:将2层MLP网络作为聚合网络,并将隐藏单元的数量设置为64。学习率设置为0.002,对于所有数据集,迭代次数设置为1,000。在算法1中,𝑛𝑖𝑛𝑖𝑡 和𝑛𝑜𝑝𝑡 的迭代次数统一设置为20和50。
        评估指标。我们使用两个指标来评估我们提出的模型的性能:
       1) F1-Score(F1):由于网络源定位实际上是一个分类任务,我们需要准确地区分扩散源和所有节点,我们使用最常用的评估指标——F1分数来评估这个任务。F1分数是分类精确度(PR)和召回率(RE)的调和平均值,因此我们还报告了PR和RE分数。

       2) ROC-AUC曲线(AUC):由于大多数真实世界场景中扩散源节点和非源节点(即正样本和负样本)之间往往存在不平衡,我们额外使用ROC-AUC曲线作为另一个评估指标,它对数据不平衡性不太敏感。

Q1: SL-VAE的灵活性
      为了评估SL-VAE的灵活性,我们在SI扩散模式下使用三种不同的前向扩散估计模型(GAT、MONSTOR和DeepIS)评估模型的性能。结果如图3所示,从两个方面揭示了SL-VAE的性能。首先,在配备不同的前向模型的情况下,SL-VAE在恢复扩散源方面的性能令人满意,每个数据集的AUC都在90%以上,只有一个例外,并且F1分数在平均情况下也可以达到80%。其次,SL-VAE在分类扩散源方面的稳定性也得到了很好的证明。从图3中可以看出,每个SL-VAE变体之间的性能没有明显差异。换句话说,只要信息传播模型能够成功捕捉到扩散模式,SL-VAE就可以作为具有高灵活性的逆模型来恢复扩散源。因此,考虑到所有数据集的整体表现,我们选择DeepIS作为SL-VAE的前向模型,后续实验中仅使用SL-VAE(SL-VAE + DeepIS)来指代。

Q2: SL-VAE的准确性
       接下来,我们将评估SL-VAE与其他源定位方法的性能。请注意,强大的源定位算法应能够在各种扩散模型下定位扩散源。因此,我们选择了两个流行病模型(即SI和SIR)作为底层传播模型来测试SL-VAE的有效性。由于SIS模型与SI和SIR模型类似,我们仅采用SI和SIR模型进行比较。

       对于比较方法,LPSI和GCNSI均在两种扩散模式下进行了测试。NetSleuth仅在SI扩散模式下进行了测试。同样,OJC专门用于在SIR模型下定位源,它可以通过少量修改适应SI模型。我们将所有方法的性能进行了对比,并在表格1和2中分别呈现了结果。

       SI扩散模式下的性能表现。从表格1中可以看出,SL-VAE在F1和AUC分数方面优于其他方法。例如,在Cora-ML和Network Science数据集中,SL-VAE在每个评估指标上的优势平均达到20%。特别地,SL-VAE在Karate数据集中的表现不如其他数据集,主要是由于Karate数据集中节点较少。但是,在其他较大规模的数据集上,SL-VAE仍然比其他方法取得了最佳性能。虽然其他比较方法可能在某个特定指标上表现更好(例如,LPSI在几个数据集中具有更高的召回率,而OJC在Power Grid数据集中的精确率更高),但它们的整体预测性能仍无法与SL-VAE相比。由于扩散源节点与其他节点的数量存在严重不平衡,并且其他比较方法无法充分捕捉到扩散源的数据分布,导致其他基准方法往往会预测出不准确的源节点数量。以上观察结果进一步证明了我们提出的SL-VAE通过利用深度生成模型学习这种先验,可以准确预测扩散源,尽管扩散源的数量很少。

        SIR扩散模式下的性能表现。此外,我们还展示了SIR扩散模式下每个基准方法的性能比较结果,如表格2所示。请注意,定位SIR扩散模式下的扩散源要困难得多,因为个体节点的免疫性导致观测不完整,并给源定位任务带来更多的随机性。从表格2中可以看出,SL-VAE在所有方法中仍然取得了最佳性能,其AUC分数至少比第二好的模型高出15%。请注意,OJC专门设计用于通过提出的候选节点选择算法检测SIR扩散模式下的扩散源,然而,SL-VAE在大多数评估指标上仍然优于OJC,并略有几个例外。此外,值得注意的是表格1和表格2中关于SL-VAE的突出之处是,无论底层扩散模式如何,SL-VAE始终能够预测高质量的扩散源。

         在包括SI模型和SIR模型在内的扩散模式下,SL-VAE在所有基准方法中都表现出最佳性能,这与所有定量结果一致。为了展示SL-VAE在真实世界信息扩散模式下的有效性,我们进一步在两个大规模真实社交网络数据集(Digg和Memetracker)上进行了实验,并在表3中报告了预测性能。我们随机抽取了两个子网络:Digg-7556(|𝑉| = 7,556)和Memetracker-7884(|𝑉| = 7,884),以展示图大小的增长对性能的影响。从表中可以清楚地看到,几乎所有基准方法的性能都有所下降,这主要是由于两个原因:1)与表1和表2中使用的其他数据集相比,真实世界图中的节点数量显著增加,使得数据不平衡问题更加严重。2)真实世界网络中的底层扩散模式本质上比指定的扩散模式更加复杂,这使得在真实数据上定位扩散源更具挑战性。然而,借助学习到的生成先验,SL-VAE仍然以较大的优势(例如,在F1得分上比其他模型至少提高30%,在AUC得分上比其他模型高出10%)超过其他比较方法。

        我们还进行了削弱研究,以探究SL-VAE的每个组成部分的重要性。在第一个削弱模型中,我们直接最大化𝑝𝜓(𝑦|𝑥)的似然性,而𝑥是通过公式(9)获得的,而不是优化如公式(8)所示的联合似然性。在第二个削弱模型中,我们直接优化公式(8),而不使用提出的初始化步骤(即公式(9))。为简化起见,我们将这两个削弱模型分别表示为SL-VAE(a)和SL-VAE(b)。在SI扩散模式下,在5个数据集上比较削弱模型和原始SL-VAE的性能,结果列在表4中。总体而言,如果去除我们提出的SL-VAE的任何一个组成部分,其性能都会下降。特别是与表1中的其他方法相比,通过提出的初始化(公式(9))的帮助,SL-VAE(a)已经提供了与之可比的扩散源估计。例如,SL-VAE(a)在Jazz、Cora-ML和Karate数据集的F1得分都优于其他方法,而在其他数据集中排名第二。在加入了提出的联合似然(即比较SL-VAE(a)和(b))到推断模型后,F1和AUC得分都提高了5-20%和2-7%。值得注意的是,SL-VAE(b)的性能在其他方法中表现最好,这表明将观测到的扩散源的先验分布融入模型可以有效提高预测准确性。

        为了分析所提出模型的可扩展性,我们记录了10轮训练所有比较方法直到收敛的平均运行时间。运行时间与Digg数据集中节点数(即3,000、5,000、8,000和16,000个节点)有关的结果呈现在图5中:1)带有不同前向模型的SL-VAE的运行时间(图5a);2)SL-VAE与其他源定位算法的运行时间对比(图5b)。从图5a中可以看出,所有SL-VAE的变体的运行时间随着图大小的增长呈线性关系,差异仅取决于前向模型的复杂性。此外,如图5b所示,只有LPSI在节点数量(≤ 5,000)上与SL-VAE具有可比的运行时间,其他模型在处理大型图(≥ 8,000)时比SL-VAE慢,因为它们需要依靠枚举图结构来定位扩散源。由于SL-VAE利用深度生成模型避免了求解所有可能性的需求,因此其运行时间优于其他模型。

13.可视化

       最后,我们在图4中对所有比较方法在SI扩散模式下的扩散源整体重构性能进行了可视化。我们选择了两个相对较小的数据集(即Karate和Jazz)以更好地进行演示,其他可视化结果展示在附录中。从视觉上看,SL-VAE恢复的扩散源与真实值的分布最相似。而其他基准方法(LPSI和OJC)往往在这两个数据集中预测了过多的源。虽然GCNSI和Netsleuth可以预测与实际情况相似数量的扩散源,但它们的预测性能并不令人满意,因为它们都未能正确量化不确定性。总之,这些观察结果与表1和表2中展示的定量结果一致。

14.结论:
        扩散源定位是一项重要且具有挑战性的任务,在许多网络科学应用中都得到了广泛的应用。本文提出了一个新颖而通用的框架,即SL-VAE,它利用深度生成模型来逼近扩散源的分布。SL-VAE利用学习到的生成先验直接逼近扩散源的内在模式,并能够量化网络信息扩散中的不确定性。最后,我们提出了一个整合的目标函数,共同学习生成模型和任意前向扩散估计模型,以便使模型能够在复杂的扩散模式下具有泛化能力。在七个真实数据集上进行的大量实验和案例研究证明了SL-VAE在各种底层信息传播模式下的一致且卓越的性能。具体而言,SL-VAE的AUC得分在每个扩散模式下比其他方法高出平均20%。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值