Link prediction for ex ante infuence maximization on temporal networks

Abstract

   影响力最大化(IM)是寻找最重要的节点以最大化网络上影响力或信息传播的任务。此任务通常在静态或时间网络上进行研究,其中图的完整拓扑是已知的。然而,在实践中,必须在观察网络未来的演化之前选择种子节点。在这项工作中,我们考虑这种现实的事前设置,其中在选择种子节点之前已经观察到网络的 p 个时间步长。然后在网络继续演化总共 T > p 个时间步后计算影响力。我们通过使用统计、非负矩阵分解和图神经网络链接预测算法来预测网络的未来演化来解决这个问题,然后在预测的网络上应用现有的影响最大化算法。此外,链接预测方法的输出可用于构建新颖的 IM 算法。我们将所提出的方法应用于八个现实世界和合成网络,以使用易感感染(SI)扩散模型来比较它们的性能。我们证明,当我们在八个网络中的七个网络上实现影响力传播在最佳传播的 87% 以内时,可以在事前设置中构建高质量的种子集。在许多设置中,仅基于历史边选择种子节点提供的结果与将未来图快照视为已知的结果相当。所提出的基于链接预测模型的启发式方法也是一些性能最好的方法。这些发现表明,对于 SI 模型下的这 8 个网络,决定最有影响力的节点的潜在过程可能不会有很大的时间变化。因此,为了获得事前 IM 的良好结果,无需了解网络的未来状态。

关键词:扩散、动态网络、图神经网络、影响最大化、链接预测

Introduction

  影响力最大化(IM)是社交网络计算分析中的一个典型问题,其目标是找到最大化信息扩散范围的种子节点(Kempe et al. 2003;Chen et al. 2009;Li et al. 2018) 。自从 Kempe 等人的开创性论文(Kempe et al. 2003)以来,这个话题引起了各个领域研究人员的极大关注。 IM 问题通常在两种设置之一下进行研究。第一种考虑静态网络,其中信息随着时间的推移在网络中传播,但网络的拓扑保持固定。这个假设在许多现实世界的环境中都违反了这一点,因此最近人们对开发允许网络结构随时间变化的方法也产生了兴趣(Holme 和 Saramäki 2012)。但这种情况通常也伴随着不切实际的假设。对于给定的时间网络 G = (G1, ..., GT ) ,通常假设网络拓扑对于所有 t ∈{1, ..., T } 都是已知的,即事后假设。然后在时间 t = 1 时,研究人员选择种子集以最大化对不断发展的网络的影响。换句话说,研究人员可以“展望未来”,在时间 t = 1 时选择最有影响力的节点。然而,假设对网络演变具有完全的预见性是不现实的。在实践中,人们必须根据网络过去的演化来选择种子节点,而不确切知道网络未来会是什么样子。在时态网络文献中,这被称为事前设置,其中解决方案基于预测而不是实际结果。

   图1 建议设置示意图

 在本文中,我们考虑图 1 中突出显示的更现实和更困难的设置。在这里,研究人员从 t = 1, ..., p 观察一些网络 G1, ..., Gp 。然后,在观察网络的前 p 个快照之后,他/她选择种子节点,在观察它们之前,这些种子节点将对接下来的 T − p 个快照 (Gp+1, ..., GT ) 的影响最大化。然后计算最终快照上传播过程完成后受影响的节点数。正式的问题陈述如下:给定一些网络 G = (G1, ..., Gp, ..., GT ) 随着时间的推移而演变,在时间 t = p 时应仅基于 G1, ... 选择什么种子节点,Gp 以便在时间 t = T + 1 时对网络的影响最大化?

Influence maximization problem

   我们首先定义影响力最大化(IM)问题。令 G = (G1, ..., GT ) 为时间网络,其中时间 t 处的图 Gt = (V , Et ) 是节点 V 和边 Et 的集合。请注意,节点是固定的,但边缘集允许随时间变化。每个快照 Gt 由 n × n 邻接矩阵 A(t) 定义,如果节点 i 和 j 在时间 t 具有边,则 A(t) ij = 1,否则为 0。给定信息在网络上传播的某种过程以及整数 k < n ,IM 问题尝试找到一组节点 S ={v1, ..., vk },这样,如果 S 中的节点最初“受到影响” ”或“感染”该信息,则网络影响力的传播在时间 t = T + 1 时达到最大。

   这个问题的关键是信息传播机制。文献中有许多流行的选择,包括独立级联(IC)模型(Wang 等人,2017)。文等人。 2017)、线性阈值(LT)模型(Chen 等人,2010b;Goyal 等人,2011b)、触发(TR)模型(Kempe 等人,2003;Tang 等人,2014)等等。在这项工作中,我们采用流行病学研究中常用的易感感染者(SI)模型(Allen 1994;Murata 和 Koga 2018)。在该过程的每个步骤中,1 节点要么处于易感状态 (S)2,要么处于受感染状态 (I)。如果一个节点处于S状态,那么信息还没有到达它,而处于I状态的节点已经收到了信息。在过程开始时(t = 1),种子集中的节点被设置为 I 状态,所有其他节点都处于 S 状态。那么在时间 t 时,如果节点 u 在 I 中,节点 v 在 S 中,并且两个节点之间有一条边,即 A(t) uv = 1 ,则节点 v 将在时间 t + 1 时变为状态 I有概率 .易感性或感染参数控制信息在整个网络中传播的速率。一旦 t = T + 1 ,扩散过程就结束。因此,如果 σ(S) 是 SI 模型下 S 中的节点初始化为 I 状态时在时间 T + 1 时感染的预期节点数,则 IM 问题寻求使 σ(S) 最大化的大小为 k 的种子节点集合在 G 上,即

  IM 问题在 IC、LT、TR 和 SI 模型下是 NP 难问题(参见 Kempe 等人,2003 年;Li 等人,2018 年)。因此,最优解决方案在许多情况下是不可行的,因此必须利用启发式方法来找到合适的种子集。事实上,即使评估 σ(S) 也是#P-hard(例如,Chen 等人,2010a,b)。在实践中,我们通过蒙特卡罗 (MC) 模拟来估计 σ(S),方法是多次模拟传播过程并取时间 T + 1 时感染的节点的平均数量。

   请注意,在这个定义中,网络的未来演进被认为是给定的。换句话说,在时间 t = 2, ..., T 时图的拓扑已知的情况下,在时间 t = 1 时选择种子节点。但实际上,这是一个不合理的假设;从业者需要在无法了解网络未来动态的情况下选择种子节点。虽然我们对这种更现实和更困难的设置感兴趣,但我们首先强调一些现有的 IM 算法。

Static IM

   我们首先强调静态情况下 IM 的一些现有方法,即 T = 1。请参阅 Li 等人。 (2018)进行全面调查。肯佩等人。 (2003) 是第一个将其假设为组合优化问题并使用贪婪算法来找到最佳种子集的人。在贪婪算法的每一步中,都会添加使 σ(S) 的边际增益最大化的节点,并且该过程一直持续到 |S|=k。从数学上讲,节点 v 被添加到 S,其中

作者证明了贪心算法产生的解在最优解的 (1 − 1/e) 范围内。因此,在研究中它通常被认为是 IM 的“黄金标准”。然而,该方法的计算成本极其昂贵,因此对于大型网络来说不可行。使该算法更高效的努力包括估计边际影响的上限(Leskovec et al. 2007;Goyal et al. 2011a)和简化 σ(S) 的计算(Wang et al. 2010)。另一类 IM 算法根据某种度量对节点进行排序,然后选择度量值最大的 k 个节点作为种子节点。例如,在陈等人中。 (2009),节点根据其度数进行排名,一旦选择节点 u 作为核心,与 u 共享边的所有节点的度数都会按指定因子“折扣”,以考虑节点影响力的重叠。刘等人。 (2014) 对 PageRank 采用了类似的方法。这些方法避免计算 σ(S),这会导致计算加速,但缺乏性能保证。

Temporal IM

  假设信息在静态网络上传播通常是不合理的,因此最近有很多研究时态或动态网络的 IM 问题的工作。首先,Kempe 的贪心算法可以很容易地扩展到时间情况,并且已经研究了该方法的许多扩展(例如,Liqing 等人,2019 年;Erkol 等人,2020 年)。米哈尔斯基等人。 (2014) 表明,在 LT 模型下,时间 IM 方法大大优于静态方法。虽然本文假设网络的未来快照是未知的,但没有尝试预测其演变。 Osawa 和 Murata(2015)采用 SI 模型,并通过近似节点在下一个时间步被感染的概率来开发启发式方法。此方法的执行类似于贪心算法,但速度明显更快。 Murata 和 Koga (2018) 扩展了几种静态网络 IM 启发式方法,包括基于 Yu 等人的动态度的动态度折扣算法。 (2010)。这种方法比贪婪方法和 Osawa 和 Murata (2015) 更快,同时产生可比的影响力传播。最后,Erkol 等人。 (2020) 利用 SIR 模型并使用单个节点平均场近似来通过贪婪算法计算预期影响。这项工作的一个有趣的发现是,简单地使用网络的第一个时间层来查找种子节点通常仍然可以产生良好的性能。这篇论文还简单提到了我们感兴趣的问题,即网络未来的演变是未知的,但没有深入探讨。

Main contributions

  在本文中,我们研究了网络未来演化未知的现实事前环境下的时间 IM 问题。给定观察到的网络快照,我们首先使用统计、非负矩阵分解和图神经网络链路预测技术来预测网络的未来拓扑。我们还提出了一种基于链接预测模型输出的新型 IM 启发式方法。然后,我们使用贪婪和动态度 IM 算法来寻找估计的未来网络上的最佳种子节点。我们对合成网络和现实网络进行了广泛的实验,结果表明,在几乎所有情况下,仅使用历史快照在聚合图上找到最佳种子节点会产生影响范围内的影响范围当使用实际的未来进化找到种子节点时,影响力传播为0%。此外,所提出的 IM 启发法产生的影响力传播与实际预测未来网络演变一样好或更好。这些结果共同表明可能存在不随时间变化的有影响的节点潜在过程。更重要的是,在这种现实且困难的环境中,IM 问题仍然可以得到良好的性能解决。本文的其余部分的结构如下。在“方法论”部分,我们提出了我们的方法论并讨论了各种链接预测和 IM 算法。我们还提出了一种基于链接预测模型的新颖的事前 IM 算法。我们在“实验”部分对八个合成网络和现实世界网络进行了实验,并在“结论”部分分享了结论性想法。

  最后,与我们最相似的工作考虑了一个暂时演化的网络,并在每个快照中选择一个新的种子集。例如,Singh 和 Kailasam(2021)采用 IC 模型进行传播动力学,并采用条件时间限制玻尔兹曼机(ctRBM)进行链路预测(Li et al. 2014)。作者建议为每个图快照选择新的种子节点,并使用交换启发式更新集合(Nemhauser 等人,1978)。我们的论文与 Singh 的论文在几个关键领域有所不同,包括但不限于:仅选择一次种子集、预测未来的多个时间步骤、允许边缘形成和消失、比较几种链接预测算法以及使用 SI模型。我们的问题也与庄等人的问题不同。 (2013) 和 Han 等人。 (2017)。这些论文假设未来的网络是不可观测的,但可以通过探测不同的节点来部分了解它们。相反,我们的工作假设未来的网络是完全未知的。

Methodology

  本文的目标是开发一种事前影响力最大化的方法,在观察网络的未来演化之前选择种子节点。我们建议采用以下方法:

1. 观察网络 G1, ..., Gp。

2. 根据观察到的网络预测网络的未来演化^ Gp+1, ..., ^ GT。

3. 对预测网络 ˆ Gp+1, ..., ˆ GT 应用 IM 算法,以 t = p + 1 为起始时间,获得最优种子节点 S ={v1, ..., vk }。

4. 让网络继续演化为 Gp+1, ..., GT 并计算 S 对真实网络的影响。

该方法有两个关键组成部分:步骤(2)预​​测未来网络和步骤(3)IM 算法。

Link prediction

  链接预测方法的目标是确定网络中最有可能丢失和/或未来的链接。关于这个问题有大量文献,其中包括统计、非负矩阵分解 (NMF) 和图神经网络 (GNN) 等多种方法。我们建议感兴趣的读者参阅以下调查,以全面回顾链接预测方法(Lü 和 Zhou 2011;Kumar等人。 2020;迪瓦卡兰和莫汉 2020;周2021)。一般来说,静态链接预测方法寻找网络中丢失的链接,从而不允许删除链接的可能性。另一方面,时间方法必须考虑新边缘出现和现有边缘消失的可能性。在我们的场景中,我们对网络的动态演化感兴趣,因此我们对时间链接预测方法感兴趣。

    对于这项工作,我们考虑以下每种流行范式中的一种链接预测方法:统计、NMF 和 GNN。统计:Zou 等人。 (2021) 使用带有 LASSO 惩罚的线性回归模型来预测网络中的未来链接。我们稍微修改了他们使用 LASSO 执行逻辑回归的方法。如果节点对 i 在时间 t 有一条边,则令 xi(t) = 1,否则为 0,因为 i = 1, ..., M,其中 M 是在 G1, ... 中至少具有一条链路的节点对的数量。 ,全科医生。那么 fori = 1, ..., M,

  

 因此,对于每个节点对 i,我们拟合逻辑回归模型来找到最佳拟合 βi = (βi0, βi1, ..., βiM)T 。由于该模型中许多边缘对可能没有信息,因此作者添加了 LASSO 惩罚(L1 正则化)以将每个 βij 的绝对值缩小到 0,即 α M j=1 |βij|其中 α 决定惩罚的强度。较小的 α 值对应于较小的正则化,反之亦然。最佳 α 是从值网格中选择的,以最小化接收者操作曲线 (AUC) 下的验证集面积。为了预测未来几个时间步的边缘概率 ^ pi(p + t) ,我们依次使用拟合的 ^ βi 和边缘的估计概率,即

该方法的主要优点是它产生每个边缘对的链接的有效概率,而不是像以下方法那样简单地产生相似度分数。我们还可以预测未来多个时间步的边缘,而无需重新拟合模型。该方法的一个显着限制是它只能预测具有至少一条历史边的边对的链接。此外,线性模型的简单性可能无法捕获链接形成和单独拟合背后的复杂机制每个边缘对的模型意味着该方法可能无法很好地适应具有大量边缘的网络。

  非负矩阵分解:对于给定的 n × n 矩阵 A,非负矩阵分解 (NMF) 寻求找到一个 n × q 矩阵 U 和 q × n 矩阵 V,使得 A ≈ UV 、 q < n 且所有条目U 和 V 均为非负数。换句话说,U 和 V 是 A. Ahmed 等人的低维表示。 (2018) 将这种方法应用于时间网络中的链接预测。令 A1, ..., Ap 为对应于图 G1, ..., Gp 的邻接矩阵。然后,作者寻求找到一系列矩阵 Ut 、 Vt ,使得 At ≈ Ut Vt 并且所有 Ut 和 Vt 分别接近某些共识矩阵 U* 和 V*。从数学上讲,这意味着最小化以下损失函数:

根据 Ut ,Vt 均为非负数。这里, 是一个衰减系数,为较新的图表赋予更大的权重,|| · ||F 是弗罗贝尼乌斯范数。作者推导了一种迭代算法来最小化 (5a)。一旦算法收敛,V* 的行就代表每个节点 (V*)i 的低维嵌入。因此,Sij = sim{(V*)i, (V*)j} 是在时间 p + 1 时节点 i 和 j 之间链接的可能性的分数,其中 (V*)k 是 V* 的第 k 行sim(·,·) 是相似度的度量。在这项工作中,我们使用余弦相似度。为了扩展此方法以预测未来的多个时间步长,我们首先使用 Sij 使用阈值截止来预测 At+1(请参阅下面的进一步讨论)。然后将适当的项添加到损失函数中以找到这个新邻接矩阵的非负矩阵分解,即

一旦算法收敛,我们就获得了 V* 的新估计,并且这个过程继续

  该方法以低维表示 U* 和 V* 捕获网络的时间模式。此外,该方法可以预测任何边缘对的链接,即使还没有边缘对。然而,在我们的环境中使用这种方法存在一些挑战。首先,众所周知,NMF 是一个非凸优化问题,因此我们最终可能会得到局部最优。此外,我们必须选择 q(非负矩阵的潜在维空间)和 φ(衰减因子)。

 图神经网络:我们还考虑了一种用于链接预测的最先进的深度学习图神经网络方法,称为 EvolveGCN(Pareja 等人,2020)。该方法的基本思想是,对于给定的时间t,该方法对Gt执行图卷积步骤,然后使用循环神经网络(RNN)在时间方向上更新相应的权重。具体来说,令 At 、 H (l) t 和 W (l) t 分别为层 l ∈{1, .. 在时间 t ∈{1, ..., p} 时的邻接矩阵、节点嵌入矩阵和权重矩阵。 ., L} .然后使用图卷积步骤更新时间 t 的节点嵌入,即

  初始嵌入矩阵 H (0) t 是时间 t 的节点特征,GCONV 函数在将归一化邻接矩阵与其他两个输入相乘之前简单地对邻接矩阵进行归一化。接下来,作者提出了两种临时更新每个图卷积层权重矩阵的方法。 -H 版本将 W (l) t 视为动态系统的隐藏状态,并通过门控循环单元使用当前节点嵌入 H (l) t 更新权重。 -O 方法忽略节点嵌入,而是使用长短期记忆 (LSTM) 单元更新权重。这两个步骤共同构成了 EvolveGCN 框架。

  这种方法可以很容易地用于链接预测。特别是,如果 hip 和 hjp 分别是最终嵌入矩阵 Hp 的第 i 行和第 j 行,则它们的点积产生节点 i 和 j 之间链接的可能性的相似性得分 Sij,即 Sij = (臀)T hjp 。 Sij 越大,我们就越期望在时间 p + 1 时节点 i 和 j 之间存在边,类似于 NMF 方法。因此,该方法可以预测任何边对的链接,无论是否存在历史链接。请注意,负采样和交叉熵损失函数用于优化权重。为了扩展这种提前预测多个时间步的方法,我们首先提前一个时间步预测网络的状态,^ Gp+1 。然后这个网络可以被输入到拟合模型中来预测随后的时间步 ^ Gp+1 等等。

   使用此方法解决 IM 问题有几个实际考虑因素。首先,该方法需要节点属性。如果这些不可用,我们会计算每个快照中每个节点的 node2vec(Grover 和 Leskovec 2016)嵌入,然后使用输出作为节点特征。由于我们相信图结构而不是这些节点特征在网络的演化中发挥着更大的作用,因此根据作者的建议,我们选择 -O 版本。该方法可以很好地适应大型网络,并且可以捕获驱动链接形成的复杂动态。然而,这种方法依赖于负采样,这是 GNN 中一个重要的开放问题(例如 Robinson 等人,2020)。它还需要节点特征,并且不清楚在缺乏有意义的域特征的情况下node2vec是否是最佳选择。

  从输出到预测边缘:每种链接预测方法都会为每个边缘对生成概率或相似度得分。但这仍然留下了将这些连续结果转换为“链接”或“无链接”的二元预测的重要步骤。据作者所知,将链接预测方法用于下游任务在文献中受到的关注相对较少,因此这是一个不平凡的步骤。我们采用的方法保留了网络中的“平均”边缘密度。具体来说,令 ˆ ρt 为快照 t 的边的平均概率,其中 t = 1, ..., p,即

 我们没有对每个值取平均值,而是对最近的值赋予更大的权重。那么加权平均边缘密度是

 其中 0 ≤ xi ≤ 1 。因此,对于每种方法,我们选择 top(n 2 )ˆ ρ* 边缘对并预测它们在下一个时间步将具有链接。这也确保了每种方法为每个未来时间步预测相同数量的边。

Influence maximization

  一旦我们预测了网络的未来演变,所提出方法的第二步就是 IM 算法。虽然存在许多时间 IM 算法(例如,Michalski 等人,2014 年;Osawa 和 Murata,2015 年;Erkol 等人,2020 年),但我们考虑贪婪算法和动态度折扣算法(Murata 和 Koga,2018 年)。

贪婪:我们考虑的第一个算法是基于贪婪启发式的。在每一步中,都会将一个节点添加到种子集中,从而产生影响力传播的最大预期边际收益(算法 1)。肯佩等人。 (2003) 证明,对于 IC 和 LT 静态传播模型,贪心算法会在最佳传播的 (1 − 1/e) 因子内产生解决方案,因此它被认为是 IM 问题中的“黄金标准”。该方法还可以适应任何扩散过程。然而,由于它需要在 k 个步骤的每一步计算 O(n) 个节点的预期影响范围,因此该算法计算量大,并且仅在小型网络上可行。

动态度折扣:为了解决贪心算法的计算复杂度,Murata和Koga(2018)提出了一种基于动态度的IM启发式算法。首先,作者将具有 T 个快照的时态网络的节点 v 的动态度 DT (v) 定义为

其中 Nv,t 是节点 v 在时间 t 的邻居集合,即 Nv,t ={u ∈ V : A(t) uv = 1}。然后,他们扩展了 Chen 等人针对静态网络的度折扣算法。 (2009)对于时间情况。该方法选择动态度最大的 k 个节点,其中所选节点的效果将从剩余节点中删除或“打折”。详细信息请参见算法 2。 Murata 和 Koga (2018) 表明,该方法可产生与贪婪算法相当的结果,但运行时间仅为其一小部分。

Link prediction output heuristic

 到目前为止,我们已经提出了将链路预测算法与 IM 相结合的路径,以找到对网络不可观察的未来演化产生最大影响的种子节点。由于我们主要关注 IM,因此我们对网络的未来演变并不严格感兴趣,而是对确定未来哪些节点最“重要”感兴趣。因此,预测未来的确切演变并不是完全必要的。此外,我们已经看到选择一个截止值来确定未来预测哪些边缘是多么重要,并且我们用来预测边缘的任何类型的阈值本质上都会丢失信息。因此,我们基于拟合的链路预测模型提出以下 IM 启发式方法,以确定未来网络中最有可能有影响力的节点。这个想法是,如果一个节点可能与许多其他节点有边,那么它也可能是 IM 种子集的良好候选者。因此,如果 P 是由链接预测算法返回的 n × n 矩阵,其中 Pij 是节点 i 和 j 之间的边或相似性的概率,则 P 的列和可生成 IM 任务的节点重要性的有用度量。下面,我们描述每种方法的具体过程,并在 3 中包含通用算法。

LogRegSum:LogReg 的输出是先前观察到的每个边对的链接概率,即 ˆ p(p+1) ij := ˆ Pij 是返回时间 t = p + 1 时的边的概率通过算法其中 Pij = 0 如果 A(t) ij = 0 对于 t ∈{1, ..., p} 。因此,对于每个节点 i,我们可以将节点 i 与其他每个节点具有边的概率相加作为重要性的衡量标准,即 θi = Σ jˆ P(p+1) ij 。然后选择θi值最大的k个节点作为种子节点。

NMFSum:NMF 的输出是每个链接 (i, j) 的相似度得分 ˆ Pij,计算为 (V*)i 和 (V*)j 之间的余弦相似度,即 ˆ Pij = cos((V*) i, (V*)j)。再次选择具有最大 θi = Σ jˆ Pij 的 k 个节点作为种子节点。

GNNSum:一旦 GNN 模型拟合,每个链接 (i, j) 的相似度得分 ˆ Pij 就是 hip 和 hjp 的点积,其中 hkp 是时间 t = p 的嵌入矩阵的第 k 行,即 ˆ Pij = (hip)T hjp 并且种子节点的选择与其他两种情况相同。

这些启发法有几个理想的特征。首先,它们不需要截止值来预测未来的边缘,这很重要。缺乏阈值也意味着我们不会丢失链接预测输出中的任何信息;模型中的所有信息都被纳入 θ 值中。类似地,我们在实践中发现,链路预测输出通常只有 np < n 个活跃节点,即至少有一个预测的未来边缘。如果 np < k ,则不清楚如何选择其他 k − np 节点来包含在种子集中。然而,这些启发式方法总是可以为任何 k 选择 k 个种子节点。另一个优点是,我们在拟合链接预测模型后“免费”获得 IM 结果,因此它将比任何需要第二个 IM 步骤的方法(即贪婪或 DynDeg)更快。最后,种子节点的选择不取决于我们想要预测多远的未来,也不取决于感染参数,而感染参数在实践中通常是未知的。

Experiments

  我们在一个合成网络和七个来自不同领域的现实世界网络上进行了实验,以比较不同的链接预测和 IM 算法。

Datasets

  表 1 所考虑的数据集的汇总统计数据和时间网络测量

我们首先简要描述这些实验中使用的每个数据集。请参阅表 1 了解一些相关的汇总统计数据。 Synthetic是综合生成的网络。对于第一个时间步,生成了 Erdos–Renyi(Erdös 和 Renyi 1959)图,其中 p = 0.002 。然后,对于所有后续时间步长,保留 50% 的先前边,并新生成等量的边,从而保留了每个快照。所有其他网络都是现实世界的网络。如果两个人距离很近,有几种记录边缘:现实、高中 1、医院、办公室和哥本哈根蓝牙。其余的网络来自在线互动:Email4 中的电子邮件和大学社交媒体平台上的交流。选择这些网络是因为它们具有广泛的节点和边缘,包含不同的网络生成机制,并且来自各个领域。我们强调,我们有意选择不同的网络大小(n,m)、聚合层数量(T,p)、种子大小(k)和感染参数,以便在各种设置下比较这些方法。请注意,网络之间的差异是为了确保合理的影响力传播量,并能够区分不同的方法。

Methods

  对于每种方法,我们使用给定的算法通过不同的链接预测方法在预测的未来图上找到最佳种子集。然后,使用这些种子集,我们计算对网络未来实际演化的影响范围,并取 1000 个 MC 样本的平均结果。我们寻求找到影响力传播最大的方法。

• Oracle:假设在 IM 步骤中查找种子节点时已知网络的未来演化,即查找使 Gp+1, ..., GT 上的传播最大化的节点。

• 静态(最后):使用 Gp 查找最佳种子节点,因此隐含地假设网络不会继续演化 • 静态(mem):构造 Gmem,其中每个边对之间至少有一个链接在 G1, ..., Gp 中。从数学上讲,如果A(t)是与Gt相关的邻接矩阵,Amem是Gmem的邻接矩阵,那么如果A(t) ij = 1对于任何t ∈{1, ..., p},则Amem ij = 1,否则为0,IM算法在Gmem上实现。

• JC:基于 Jaccard 系数 (JC) 的简单链接预测启发式(LibenNowell 和 Kleinberg 2003)。考虑 Gp 并让节点 u 和 v 之间没有边,即 Auv = 0 。那么节点 u 和 v 的 JC 为 |Nu ∩ Nv|/|Nu ∪ Nv|其中 Ni 是节点 i 的邻居。我们找到在时间 p 处没有链接的所有边对的 JC,并预测对应于最大 5% JC 的节点对在时间 p + 1 处的边。为了保持网络的密度,我们还随机删除 5% 的边。一旦我们获得了 ^ Gp+1 ,就可以重复这个过程,以预测网络未来多个步骤的演化。

• LogReg:使用带有LASSO 惩罚的逻辑回归方法。最佳惩罚参数是根据使用 75% 的网络时间步长进行训练的最佳验证 AUC 从网格搜索中选择的。选择截止值是为了保留 ˆ ρ*,即平均网络稀疏度。

• LogRegSum:根据第 1 节中描述的 LogReg 启发式选择前 k 个节点作为种子节点。

• NMF:非负矩阵分解方法。 U、V的维数为0.05n,即节点数的5%。该算法随机运行 25 次保留初始化和损失函数最低的结果。选择截止值以保留 ^ ρ*。

• NMFSum:根据第 2 节中描述的 NMF 启发式方法,选择前 k 个节点作为种子节点。

• GNN:EvolveGCN 方法。节点特征是使用 d = 16 维 node2vec 嵌入构建的。该模型经过 200 多个 epoch 的训练,并且选择截止值以保留 ˆ ρ*。

• GNNSum:根据第 1 节中描述的 GNN 启发式选择前 k 个节点作为种子节点。 2.3

请注意,动态度算法不适用于静态网络(静态(最后)和静态(mem)),因此我们应用基于度的简单算法。详情请参阅附录。

Results Synthetic

  首先,我们使用第 1 节中描述的过程生成一个合成网络。 3.1.该网络有 n = 500 个节点和 m = 5174 个唯一边。有 T = 20 个时间步长,第一个 p = 10 用于训练,最后一个 T − p = 10 用于预测。我们固定 = 0.05 并改变种子集的大小。

结果如图 2a 所示,其中我们实现了动态度算法。 LogReg 产生最大的影响力扩散,而 NMFSum 和 GNNsum 产生最小的影响力扩散,但所有方法都大致相同。每种方法的总影响力分布大致随 k 线性增加。当 k = 50 时,LogReg 的影响力传播约为 Oracle 的 87%。请注意,该网络的链路预测任务极具挑战性,因为添加和删除节点的过程是随机的,并且预测的时间范围与训练时间步数相比很长。

Reality

  第一个真实世界的数据集是来自 Eagle 和 Pentland (2006) 的现实网络。该网络有 n = 64 个节点,m = 26,260 个边,在 8.63 小时内每 5 秒记录一次链接。我们将网络聚合成均匀分布的快照 G1, ..., GT ,其中 T = 24 。我们固定 = 0.10、p = 20、T − p = 4 并改变种子集的大小。

图2 合成网络和现实网络的影响力最大化结果

使用贪婪算法的结果如图 2b 所示。请注意,静态(最后一个)、JC 和 GNN 有一个 *,因为对于较大的 k,每种方法的活动节点都少于 k 个。 Static (mem) 和 LogRegSum 对于几乎所有 k 都表现最好,并且与 Oracle 的影响范围相差约 67%。 LogRegSum 和 GNNSum 的性能分别比 LogReg 和 GNN 好得多,而 NMFSum 的性能比 NMF 差得多。静态(最后一个)和 JC 在这种情况下表现不佳。

Email

 接下来,我们考虑 Michalski 等人的电子邮件网络 (email4)。 (2011)。该网络有 n = 167 个节点,m = 82, 927 个边,在 271 天内收集,粒度为 1 秒。我们将网络聚合成大约一周的快照 G1, ..., GT ,其中 T = 39 。然后我们考虑第一个 p = 30 来训练链接预测算法并比较其余 T − p = 9 图上的结果。对于该网络,我们固定 = 0.05 ,改变种子大小 k 并使用动态度算法。

结果如图3a所示。多种方法可达到 Oracle 98% 的性能,包括 LogReg、LogRegSum 和 GNNSum。对于 k ≥ 15 ,静态(mem)产生所提出方法的最大影响范围,而静态(最后)和 JC 对于小 k 效果很好。 NMF 和 NMFSum 的性能是所有方法中最差的。 LogRegSum 的性能与 LogReg 大致相同,并且 GNNSum 的性能也优于 GNN。 NMF 和 NMFsum 大致相同。

High school

 High School 1 网络来自 Masstrandrea 等人。 (2015)。该网络有 n = 312 个节点,m = 2242 个独特边,在 5 小时内以 20 秒的间隔收集。我们将网络聚合成大约 15 分钟的快照 G1, ..., GT 其中 T = 20 。然后我们考虑第一个 p = 16 来训练链路预测算法,并比较其余 T − p = 4 图上的结果。我们改变种子大小 k 并使用动态度算法,固定 = 0.10 。

图 3 Email4 和高中 1 网络影响力最大化结果

结果如图3b所示。静态(最后)是 k ≤ 15 的最佳方法,而 LogReg 对于大 k 产生最大的影响范围。当k=20时,LogReg达到了Oracle 90%的影响力。这是 LogReg 优于 LogRegSum 的唯一设置。 Static (mem) 对于大 k 也表现良好,而 GNN、NMF、GNNSum 和 NMFSum 都表现不佳。

Office

  Office 网络来自 Génois 等人。 (2015) 由 n = 92 个节点和 m = 755 个唯一边组成。该数据集的时间中间没有链接,这可能是周末,没有员工在办公室互动。抛开这些时间,我们将数据聚合成 T = 7 个快照,代表一个工作日,并预测最后一天网络的演变 (T − p = 1 )。

我们使用贪婪算法进行 IM,结果如图 4a 所示,其中 = 0.10 。由于我们只预测未来的一个快照,静态(最后一个)和 JC 产生最大的影响力分布,并且与 Oracle 的影响力相差 90% 以内。 Static (mem)、GNNSum 和 LogRegSum 在这里也表现良好。对于所有 k,GNNSum 的性能优于 GNN,对于大多数 k,LogRegSum 的性能优于 LogReg。同样,NMF 和 NMFSum 产生的影响范围最低。

Hospital

  由于 n = 75 个节点和 m = 1139 个唯一链接,医院网络 (Vanhems et al. 2013) 是我们考虑的下一个。我们以 6 小时的间隔聚合网络,产生 T = 16 个快照,我们使用第一个 p = 12 来训练模型,最后一天进行预测。

使用贪婪算法的结果如图 4b 所示,并且 = 0.10GNN、GNNSum 和 LogRegSum 的影响力分布最大,约为 Oracle 的 91%。 LogRegSum 也比 LogReg 做得好得多。对于较小的 k ,静态(last)和 JC 的性能优于静态(mem),对于 k ≥ 8 ,静态(last)和 JC 的性能大致相同。两种 NMF 方法的影响范围最小。

Copenhagen bluetooth

  萨皮津斯基等人。 (2019) 收集了哥本哈根蓝牙网络,其中 n = 703 个节点和 m = 21, 318 个唯一边。数周内以 5 分钟的间隔收集数据。我们以 T = 100 均匀间隔聚合网络,并使用第一个 p = 90 来训练模型。我们设置 = 0.05 ,改变种子大小 k 并使用动态度算法计算最佳种子节点。

结果如图5a所示。静态 (mem) 产生最大的影响范围,并且在 99% 的范围内甲骨文。 LogRegSum 与 Static (mem) 的影响几乎相同,特别是对于大 k。 Static(最后一个)对于大 k 表现不佳的部分原因是它的活动节点少于 150 个,类似于 GNN 和 JC。当 k ≥ 100 时,NMF 和 NMFSum 的性能类似,并且与 GNNSum 相当。

College

  大学网络 Panzarasa 等。 (2009) 在 n = 1899 个节点中有 m = 13, 838 个唯一边。在 193 天内以 1 秒的间隔记录链接。我们将网络聚合成等间隔的 T = 50 个快照,并保留最后的 T − p = 10 个快照进行预测。我们固定 = 0.25 并改变 k,使用动态度算法来找到最佳种子节点。

结果如图5b所示。对于较小的 k,静态(最后)和 JC 产生的影响最大。然而,对于较大的 k,Static (mem)、LogReg 和 LogRegSum 表现最好,与 Oracle 相差 96% 以内。静态(最后一个)和 JC 再次受到对于大 k 而言少于 k 个活动节点的阻碍。 NMF 和 NFMSum 继续产生最小的影响力传播。

Discussion

  这些实验中出现了几种兴趣趋势。首先,我们观察到,对于每个数据集(除了 Reality),性能最佳的方法都在 Oracle 方法影响范围的 87% 范围内,并且在一个案例(哥本哈根蓝牙)中高达 99%。这是一个很有希望的发现,因为它表明即使网络的未来演变无法观察到,也可以为 IM 找到有意义的种子节点。在所提出的方法中,LogRegSum 被证明是最好的方法,因为它在许多设置中产生最大的影响范围,其次是 GNN/GNNSum,而 NMF/NMFSum 通常产生最小的影响。然而,也许最有趣的发现是,仅基于历史边缘的简单启发式静态(mem)始终产生最佳性能之一。这些结果适用于具有不同大小、时间特征、预测持续时间和 IM 算法的网络。由于 Static (mem) 没有链接预测步骤,因此它比所有提出的方法(包括 LogRegSum)要快得多,因此我们建议在实践中使用此方法。

表 1 中的时间网络统计数据与 IM 结果之间也存在一些值得注意的联系。例如,在电子邮件 4 网络中,所有方法可能都表现良好,因为该网络的时间变化较小。该数据集中的 fNT、fLT、FNT 和 F LT 均高于其他网络,表明时间变化可能较小。例如,FNT 很大意味着大多数节点出现在网络生命周期的开始和结束时(也可能在中间)。另一个观察结果是,根据关联度衡量,GNN 方法在具有强大社区结构的网络(高中 1 和哥本哈根蓝牙)中表现相对较差。有趣的是,尽管 College 网络在采样时间的前 5% 和最后 5% 中节点和边很少(这表明时间变化很大),但几种方法仍然表现良好。静态 (mem) 在稀疏网络(高中 1、哥本哈根和大学)上也表现良好。网络中的边较少可能会使链路预测任务变得更加困难,因此跨时间聚合被证明是阐明节点影响力的最佳方法。

  在附录中,我们还报告了每个网络上 JC、LogReg、NMF 和 GNN 的真阳性率 (TPR) 和相对度均方误差 (MSE),以量化链接预测的质量。这些结果凸显了链路预测的难度,因为永远无法实现大于 0.40 的 TPR,也无法实现低于 0.60 的 MSE。

LogRegSum 和 Static (mem) 的强大性能为时态网络上的事前 IM 任务提供了一些关键见解。它首先证明预测网络的未来演化对于确定最有影响力的种子节点并不是严格必要的。相反,选择种子节点所需的大部分信息可以从以前的边缘历史中提取,而网络的实际演化几乎不会改变节点的重要性。这种意想不到的结果与相关但不同的疫苗接种问题的结果有些不一致(Lee 等人,2012)表明,虽然网络随着时间的推移而发展,但从 IM 意义上来看,节点的潜在重要性可能并不重要。改变。因此,从观察到的网络中阐明有影响的节点比预测未来的演变更重要。事实上,链接预测可能会产生噪声结果,并且由于截止值和阈值而固有地丢失信息,因此仅考虑历史数据的方法(例如 LogRegSum 和 Static (mem))可以通过“平均”一些噪声来获得更好的性能。此外,鉴于 Static (mem) 表现如此出色,LogRegSum 也表现出色也就不足为奇了,因为该方法仅预测具有至少一条历史边的边对的链接。因此,即使 GNN 和 NMF 可以预测任何边缘对的链接,但这可能不是一个有利的特征。我们强调,这些发现仅适用于 SI 模型,可能不适用于其他扩散机制。最后,我们看到,如果链接预测方法或启发式方法产生 np < k 个活动节点的预测,那么选择剩余的 k − np 种子节点将成为一项艰巨的任务。使用 LogRegSum 和 Static (mem) 等方法可以避免此问题,这些方法始终允许将所有 n 个节点考虑为种子集。我们强调这些结论仅适用于这些数据集和 SI 扩散模型。

Conclusions

  在这项工作中,我们解决了时变网络上事前影响力最大化的重要问题。我们首先预测网络的未来演化,然后在预测的网络上使用标准时间 IM 算法来找到最佳种子节点。我们还提出了 IM 启发式方法,使用链接预测的模型拟合来查找种子节点,省略了实际的链接预测步骤。在许多设置中,我们证明了使用所提出的方法与黄金标准比较方法相当的影响力传播,其中 LogRegSum 表现最好。这些结果表明,即使网络的未来拓扑未知,也可以为 IM 任务构建令人满意的种子集。此外,我们发现在许多情况下,基于历史边缘的简单启发式方法会产生最佳结果,在实践中,我们建议使用这种方法,因为它的性能、简单性和计算优势。我们令人惊讶的结果表明,最有影响力的节点可能不会随时间变化,即使网络拓扑也会变化。

  我们强调这些结果是在 SI 扩散模型下显示的。在不同的模型下,例如 IC 或 LT,静态 (mem) 可能表现不佳。事实上,由于 SI 模型允许节点在以下任何时间激活其邻居感染(节点永远不会变得不活动),链接发生的时间可能不如链接随时不存在或存在重要。例如,盖罗等人。 (2015) 和 Michalski 等人。 (2014) 都强调了链接时间的重要性,并且当所有快照简单聚合时,他们的方法的性能会受到影响,但这是针对 IC 和 LT 模型的。即使使用 SIR 模型(SI 模型的近亲),Erkol 等人也是如此。 (2020)表明,基于聚合时间快照的方法表现不佳。话虽这么说,盖罗和埃尔科尔的结果是在事后假设下显示的。无论如何,在实践中,了解当前特定问题的扩散机制至关重要,因为这些算法的性能可能会有所不同。

   未来的工作有几个有趣的途径。使用链路预测方法进行下游任务受到的关注相对较少,我们强调了几个挑战。我们提出了一种启发式方法来回避这一挑战,研究其他事前任务并看看是否有相同的结果会很有趣。此外,任何链路预测方法的输出边缘本质上都具有不确定性。未来工作的另一个方向是确定如何将这种不确定性纳入 IM 任务中。 LogReg 将是一种明智的方法,因为与仅产生相似性分数的 NMF 或 GNN 相比,它会产生边缘概率。

节点相似性基于图卷积的链路预测是一种利用图神经网络进行链路预测的方法。在这种方法中,节点之间的相似性被用来指导图卷积神经网络学习节点表示,从而预测节点间的连接情况。 首先,我们需要计算节点之间的相似性。这可以通过计算节点间的相似性矩阵来实现。相似性矩阵可以基于节点的属性信息、节点之间的连接情况、节点的路径信息等进行计算。相似性矩阵可以反映节点之间的相似程度,从而指导后续的图卷积操作。 接着,我们可以利用相似性矩阵来指导图卷积神经网络的学习过程。在图卷积神经网络的每一层,节点的表示会根据其周围节点的表示进行更新。在节点相似性基于图卷积的链路预测中,相似性矩阵可以被用来调整节点表示的更新过程,使得相似的节点在表示空间中更加接近,从而提高链路预测的准确性。 最后,经过多层图卷积操作后,我们可以得到节点的最终表示。这些表示可以被用来进行链路预测。通过学习到的节点表示和相似性信息,我们可以预测节点之间的连接情况,从而实现链路预测的目的。 总之,节点相似性基于图卷积的链路预测方法充分利用了节点间的相似性信息,通过图卷积神经网络学习节点表示,从而实现链路预测的任务。这种方法在社交网络分析、推荐系统等领域具有重要的应用意义。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值