Extending influence maximization by optimizing the network topology

 ABSTRACT

  影响力最大化最近在社交网络上的广告和谣言控制中受到了广泛关注。然而,现有的影响力最大化工作大多集中于挖掘高影响力的种子节点,而没有充分挖掘动态社交网络中信息扩散的时效性,导致扩散效果达不到预期水平。为了填补这一空白,我们研究如何通过向动态网络 Gt 添加 k 个潜在边来最大化种子集 A 的影响范围,这称为动态边添加(DEA)。为此,我们设计了一个激活概率感知(AP)框架,用于向网络添加边缘。具体来说,AP包含三个模块:图生成、节点影响力估计、边添加。图生成模块用于获取图结构。在影响力估计模块中,我们采用基线影响最大化通过马丁格尔斯(IMM)算法,然后通过设置采样遍历深度的限制来改进它以使种子更有效。为了尽快捕捉网络的动态时间变化,我们根据路径的传播概率动态更新节点的影响力。在边添加模块中,我们通过寻找潜在用户和种子用户之间的最短路径长度,提出了一种新颖的边添加策略,并在线性时间内实现了该策略。对真实数据集进行了大量实验,结果表明 AP 相对于其他基线的优越性。

关键词:影响力最大化 信息扩散 动态网络 边缘添加

1. Introduction

  信息时代社交媒体的快速发展,信息传播不仅多样化,而且快捷。 Domingos和Richardson(2001)利用马尔可夫随机场(MRF)来模拟信息传播过程,为研究这一过程打开了大门。影响力最大化问题作为信息传播领域的一个重要问题,首先被Kempe等人简化为离散优化问题。 (2003)。此外,他们提出了占最优解63%的近似解,为影响力最大化的研究奠定了基础。此后,该领域不仅越来越受到学者的关注,而且还被应用于口碑营销(Li et al., 2018)、谣言控制(Yang, Wu et al., 2020)和社区检测(Yang, Wu et al., 2020)等领域。 Li et al., 2017)等。大多数研究人员都将注意力集中在种子挖掘算法上;他们认为,只要找到最优的种子节点,就能获得最大的收益。然而,现实生活中存在这样的情况:所选种子无法达到预期效果。为此,我们可以通过优化网络结构来加速信息的传播。实现这一目标的手段值得研究;在这方面已经提出了某些方案,例如重写边缘(Ally&Zhang,2018)和添加边缘(Khalil等人,2014;Saito等人,2013)。例如,当局可以通过向用户推荐信息并开放额外的信息管道来扩大信息的传播。该措施可以被视为为社交网络图添加边缘。以TikTok为例,为了普及一些具有电商资质的用户(商家),TikTok支持的推荐模块会主动将这些商家的信息反馈给对其感兴趣的新用户。运营能够促进更多新用户关注,提高订单转化率(传播影响力)。

  针对边添加(EA)问题,一些学者提出了一种解决方案,通过静态网络中的边添加来加速信息的传播。但由于网络的复杂性,实现 EA 面临的几个挑战。首先,信息源是EA的基础,信息源的选择是一个NPhard问题(Kempe等,2003)。因此,很难挑选出有效的信息传播源。其次,网络多变、难以捕捉。因此,更新网络结构既费时又费力。第三,EA问题是超模问题(Khalil et al., 2014),即使使用最先进的超模优化方法,也很难处理大规模网络的EA问题。因此,需要进一步探索通过优化网络结构来加速信息传播的可能解决方案。

   为此,本文提出了激活概率感知(AP)框架来解决边缘添加的过程。具体来说,AP由图生成、节点影响力估计和边添加组成。第一个用于获取图表。第二个旨在估计静态和动态社交网络中节点的影响力,包括种子挖掘和节点影响力集的建立。在静态网络的情况下,采用种子挖掘模块中的IMM++来寻找种子。在动态网络的情况下,建立影响力集是为了寻找种子,以便于更新节点的影响力。第三是边缘添加,通过设计连接种子和其他具有重大影响力的节点的策略。对于影响集的建立和边的添加,AP知道路径的激活概率,并设置路径的激活概率受激活阈值的条件。

这项工作的贡献总结如下:

• 我们提出了一个用于网络中边缘添加的AP 框架。与以往忽视社交网络动态变化的方法不同,在社交网络拓扑动态变化的情况下,AP可以在较短的时间内获得更大的影响范围。

• 为了使初始阶段挖掘的种子节点更加有效,我们在IMM的采样过程的基础上,通过控制生成反向可达集(RRS)过程中的遍历深度,开发了一种名为IMM++的种子挖掘算法。

• 为了避免重新评估所有节点的影响力并提高向动态网络添加边的效率,我们开发了一种建立节点影响力集的方法并设计了更新策略。

本文的其余部分安排如下。在第二节中,我们总结了相关工作。第 3 节描述了我们研究的 DEA 问题。第 4 节详细介绍了我们提出的 AP 框架。实验结果在第 5 节中给出,结论在第 6 节中。

2. Related work

  在本节中,我们调查了两个工作流中的相关文献:种子挖掘和边缘添加。

2.1. Seed mining

   种子挖掘是 IM 的关键。因此学者们潜心研究了许多相关算法。这些主要分为贪婪和启发式。采用贪心策略,通过蒙特卡罗模拟来模拟节点的影响,达到了精度的保证,但存在效率较低的缺点。莱斯科维奇等人。 (2007)提出了基于目标函数子模的CELF,时间效率提高了700倍。戈亚尔等人。 (2011)在CELF的基础上提出了CELF++,比CELF节省了35%到55%的时间。为了提高准确性,Li,Li 等人。 (2021)引入高斯传播模型并进一步改进CELF。此外,比斯瓦斯等人。 (2022) 提出了一种改进的差分进化 (DE) 算法,配备多个搜索算子,并将预期差分进化集成到 CELF 中。为了减少时间,研究人员设计了一系列利用网络特征的启发式方法,例如度(Chen et al., 2009)、密度(Ibnoulouafi & El Haziti, 2018)、路径(Chen, Wang et al., 2010;Tang) et al., 2015)来衡量节点的影响。在一些研究中(Chen et al., 2009;Ibnoulouafi & El Haziti, 2018),时间效率得到了提高,但他们牺牲了准确性来换取时间效率。因此,综合评价表现仍不理想。 PMIA在时间效率和精度之间取得了良好的平衡,但仅限于密度较小的网络。唐等人。 (2015)采用RRS来估计节点的影响。这种技术不仅花费更少的时间,而且在精度上非常接近贪婪方法。但RRS的采样具有随机性,影响了算法的准确性。为了提高十亿级图的可扩展性,Manchanda 等人。 (2020)通过使用 Q 学习框架提出了名为 GCOMB 的预算约束组合算法。这使得重要性采样更加高效。在同等质量下,GCOMB 比 IMM 更快。考虑到节点关系的稳定性,Li,Zhong等人。 (2021)提出了一种基于内聚熵的动态影响力传播算法。此外,考虑到用户之间没有明显的关系,Panagopoulos 等人。 (2020) 在扩散级联上提出了 IMINFECTOR(影响因子向量的影响最大化)。与上述作品不同,它基于真实级联而不是图。

  信息传播是一个复杂的过程。该过程涉及多种因素,影响扩散范围,如多条信息、批量选择种子、地点和时间等。已经出现了许多考虑这些因素的工作,包括竞争性传播和互补性传播(Huang,Meng等) ., 2020)、竞争传播(Becker et al., 2020)、实时影响力最大化(Dupuis et al., 2020)、自适应影响力最大化(D'Angelo et al., 2021;Huang, Tang et al., 2021) ,2020),基于人群情绪的归因影响力最大化(Li et al.,2022)。

2.2. Edge addition

  EA源于信息传播路径的优化。斋藤等人。 (2013) 将边缘添加与 IM 结合起来,这被称为“目标选择问题”。作者将传统的 IM 问题称为源选择问题。

  从图1可以清楚地看出,源选择是目标选择的一个特例。当节点x被视为广告主且独立于广告平台时,来源选择意味着广告主将选择种子用户并直接对其进行广告。相比之下,目标选择是指广告主根据用户成为种子的概率有选择地进行广告。前者的概率为1,后者的概率小于或等于1(Saito et al., 2013)。种子之间的差异就这样体现出来,使得广告投放更加精准,资源利用更加合理。卡里尔等人。 (2014)提出通过网络优化来增强种子的影响范围,并设计了添加和删除边的优化方法。杨贤等人。 (2020)根据易感者感染者康复(SIR)模型提出了潜在边缘影响(LEI)策略。这些方法虽然有效提高了种子的收益,但需要增加大量的边。值得注意的是,基于贪心算法的方法对于现实世界的网络来说效率低下(Khalil et al., 2014)。

3. Preliminaries

  在现实生活中,企业需要寻找营销人员来推广产品,而营销人员会随着时间的推移而被遗忘,导致最终的普及效果达不到预期。为了解决这个问题s,需要采取一定的措施。寻找新营销人员的成本太高;或者调整销售网络结构,增强宣传效果。在这里,为了使 EA 问题更加正式,我们分别定义静态和动态网络的 EA 问题。论文中使用的一些重要符号如表1所示。

定义 1(边加法)。给定图 G = (V , E) 和种子集 A,通过从 V × V ∖E 到 G 添加大小为 k 的边集 S* 来最大化 A 的影响范围:

其中 V × V 表示节点集为 V 的完整图的边集,σ(a, G*(V , E ∪ S)) 表示图 G* 中种子节点 a 的影响范围,G* 为图函数 σ(a, G*(V , E ∪ S)) 具有单调性和超模性的特征(Khalil et al., 2014)。

定义 2(动态边缘添加)。给定图快照序列 G = {G0, G1, ... , Gn−1} 和种子集 A,通过从 V t × V t∖ 添加大小为 k 的边集 St* 来最大化 A 的影响范围Et 至 Gt = (V t, Et) (t = 0,1,...,n−1)。

推论 1(单调和超模)。函数 σ (a, Gt*(V t, Et ∪ St)) (t = 0, 1, ... , n − 1) 是单调且超模的。

   卡里尔等人。 (2014) 得出结论,EA 的目标函数在静态网络中是单调且超模的。动态网络可以分为多个网络快照,每个快照相当于一个静态网络。也就是说,EA 的函数在每个快照上都是单调且超模的。动态网络是具有相同属性的快照的集合。因此,DEA的目标函数是单调的、超模的。

4. The AP framework

  基于第3节的形式化描述,无论是静态网络还是动态网络,为添加边而设计的函数都是单调和超模的。与子模问题类似,EA 也需要大量的模拟实验来评估要添加的边的潜力,因为 σ(a, G*(V , E ∪ S)) 的计算是一个 P-Hard 问题(陈元等人,2010)。为了在线性时间内解决EA问题,本文提出了AP框架。该框架包括三个模块:图生成、节点影响力估计和边添加。在影响力估计模块中,主要分为两部分:种子挖掘和节点影响力集的建立。框架具体结构如图2所示。

  图2(a)示出了检索数据的模块,该模块按照图结构存储社交关系。图2(b)是种子挖掘,对图数据进行采样得到RRS,并使用IMM++算法获取种子集。图2(c)是节点影响力集的建立。当网络发生动态变化时,仅更新可达路径发生变化的相关节点的影响集,简化了动态更新过程。图2(d)示出了加边模块,该模块根据节点的度量值进行排序,并添加边来连接种子节点和顶节点。从图 2 的例子可以看出,由于顶部节点 1、2、5 和 7 可以被种子节点 3 激活而无需额外的边,因此最终选择节点 4 与节点 3 连接。这些模块表示向静态网络添加边的过程(步骤 I 和 II)。静态网络意味着社交网络没有变化。虚线表示动态网络中边添加的过程(步骤I、II和III)。这两个过程有两点相同点和一处不同点。相同点是:(1)都需要获取数据,然后将社交关系数据构建成图; (2)两者都需要通过IMM++算法挖掘种子节点,以确定信息源。不同的是DEA的过程比EA多了一步,即为节点建立影响力集。对于静态网络,我们直接使用IMM++算法来估计节点的影响力。对于动态网络,节点的影响力是通过更新影响力集来衡量的。节点的影响力越大,被选择添加一条边连接种子节点的可能性就越高。 IMM++通过随机采样得到一定数量的RRS,然后统计某个节点覆盖的集合数作为该节点的测量值。这种方法具有随机性,无法有效捕获网络变化。因此,它在动态网络中是不可行的。影响集是根据路径建立的,并且可以根据路径的变化进行更新,应用于动态网络中。

   图2简洁地展示了AP框架的结构,下面将详细描述其模块。由于我们使用开源数据集,因此本文不会讨论有关图生成的更多信息。

4.1. Mining seeds 

   IMM是利用RRS评估节点影响力的算法的代表。 RRS 的研究主要集中在数量上RRS 并忽略了采样 RRS 的有效性。在随机采样的过程中,遍历深度不受限制,导致采样的RRS中存在一些无法受到影响的节点。

  示例 2. 图 3(a) 展示了一个具有七个节点和六个边的网络。每条边 e 上的数字代表其权重(即传播概率)w(e)。我们以独立于 G 的概率 1 − w(e) 删除每条边 e,得到的图称为 G 的活边图,如图 3(b)-(d) 中的 g1、g2 和 g3。节点 6 的 RRS 在 g1 中为 {1, 2, 5, 6},在 g2 中为 {2, 5, 6}。由于每条边的传播概率彼此独立,因此方程: (3) 还可用于计算该路径出现在活边图中的概率。经计算,g1中路径1->2->5->6的概率为0.125,g1和g2中路径2->5->6的概率为0.25。路径 2->5->6 更有可能出现在实时边图中。因此,当RRS的数量有限时,我们更愿意采用{2,5,6}作为节点6的RRS,而不是两者都采用。这样,g3中节点7的RRS为{2,5,7}。节点1很难激活节点6和7,因此需要限制搜索深度。

  因此,在该模块中,本文在IMM的基础上提出了IMM++。主要改进在于,在生成RRS时,我们限制了遍历深度,设置了最大遍历深度max_深度(默认max_深度 = d,d为图直径)。这样生成的RRS之间的重叠会减少,有助于估计节点的真实影响力。下面给出RRS的生成方法。

   算法1通过遍历图G来生成RRS。算法的输入是图G和正整数max_深度。首先,初始化新节点集new_nodes、当前反向可达集RRS、上一轮反向可达集RRS0和过渡集temp(第1行)。其次,我们从 G 中随机选择一个节点 u,并将节点 u 插入到 new_nodes 和 RRS0 中(第 2-3 行)。同时,通过采样边缘从 G 获得实时边缘图 g(第 4 行)。随后,我们将遍历深度深度设置为1,并开始搜索生成RRS(第5-19行)。我们将new_nodes中的节点作为初始节点,遍历它们的传入邻居,并将遍历到的节点保存到temp(第7-11行)。 RRS0 和 temp 的并集分配给 RRS,从 RRS 中删除 RRS0 中的节点以获得 new_nodes,然后将 RRS 分配给 RRS0,深度加 1(第 12-15 行)。至此,一轮搜索结束。如果深度超过最大遍历深度max_depth,则终止搜索,否则将触发新一轮搜索,直到RRS中没有新节点,循环结束(第16-18行)。最后,返回 RRS(第 20 行)。

  算法1的时间复杂度计算如下。获取实时边图需要 O(|E|)(第 4 行),搜索 new_nodes 中节点的传入邻居需要 O(|new_nodes|⋅|new_nodes|⋅|E(g)|)(第 6-11 行) ,其中 E(g) 是活边图 g 的边集。另外,另一段代码的时间复杂度是O(1)。在最坏的情况下,算法 1 的总时间复杂度为 O(|E| + |V | ⋅ |V | ⋅ |E|)。

4.2. Establishment of influence sets

  算法1虽然可以快速获得RRS来估计节点的影响力,但由于其随机性,无法随着G的变化直接更新节点的影响力。影响需要重新估计。为了解决这个问题,我们建议基于路径建立节点影响集。主要思想如下:

4.2.1. Establishing initial influence sets for nodes

  在网络快照 G0 中,影响力估计模块将搜索所有传播概率大于或等于激活阈值 ρ(ρ ε (0, 1],如图 2 中 ρ = 0.1)的路径节点 u 在 G0 中的概率,记录在集合 P ath0 u 中,并将 P ath0 u 包含的节点保存到影响集 Inf 0 u 中(如图 2 所示,节点 v1 的影响集为 Inf 0 v1 = {v2, v3, v7}).路径ρpath的传播概率计算如下:

其中 (vi, vj ) 表示路径中包含的边,w(vi, vj ) 表示边 (vi, vj ) 的权重。在搜索过程中,如果ρpath已经小于ρ,则回到上一个节点继续搜索。例如图2(c)中,遍历过程如下:从节点v1开始,到达节点v3时,ρpath = 0.4 > ρ = 0.1,继续遍历,到达节点v5时,ρpath = 0.4 ∗ 0.1 = 0.04 < ρ,回溯到节点v3,然后遍历到节点v7。

4.2.2. Dynamic updating of the influence set of nodes

  获取Inf 0 后,我们需要比较网络快照之间的差异,并更新相应的影响集Inf t(t = 1, ... , n − 1)。更新过程中,只更新可达路径发生变化的节点的影响集,而不需要更新所有节点的影响集,从而节省了大量的时间。具体流程如算法2所示

  算法2为每个节点建立影响力集,并通过捕获网络快照之间的变化来动态更新节点的影响力集。它的输入是一个图快照集 G = {G0, G1, ... , Gn−1},其中 n 表示快照的数量。首先,我们初始化影响集 Inf 、新节点集 new_nodes 和新边集 new_edges (第 1 行)。通过遍历第一个网络快照 G0,在 t = 0 时获得影响集 Inf 0,并将 Inf 0 插入到 Inf 中(第 2-3 行)。第 4-9 行中的 f 或循环动态更新节点的影响集。我们获得网络快照 Gt 和 Gt−1 之间的差异,即 new_nodes 和 new_edges(第 5-6 行),然后更新 Inf t−1 以获得影响集 Inf t 并将 Inf t 添加到 Inf(第 7-8 行) 。循环执行第 5-8 行,直到更新所有网络快照。最后,返回 Inf(第 10 行)。

4.3. Adding edges

   在现实的社交网络中,往往存在具有一定影响力的潜在用户。但他们与种子用户关系较远,成为信息受众的概率极低。为了扩大种子用户的影响力,我们提出了加边策略来寻找具有高影响力的潜在节点(LN),并在潜在用户和种子用户之间建立联系,命名为LN。潜在节点可以通过使用上一小节中给出的算法 1 和 2 来获得。 LN将有助于提高信息传播的有效性。这里,潜在用户和种子用户之间的距离(即路径长度)被视为成本。考虑到这个成本,我们选择与潜在用户距离最短的种子用户,并在他们之间建立链接。潜在用户和目标函数定义为:

  其中,R表示根据节点影响力得到的有序节点集合,A为种子节点集合,B为潜在节点集合,其中某个节点属于R,而不属于A。Patha,b为节点a和节点b之间的路径中的节点集合,a*是到节点b距离最短的种子节点。由于种子节点a*可以在不添加边的情况下激活节点b,因此我们使用激活概率ρ作为控制边添加的阈值。也就是说,如果 ρpatha*,b < ρ,我们在种子节点 a* 和节点 b 之间添加一条边。否则,我们重新选择潜在节点和种子节点,直到添加 k 个边。

  算法3描述了边缘添加的具体过程。首先,种子节点从节点rank的排序列表中删除,因为不需要在种子节点之间添加边(第1行)。接下来,我们计算添加 m 个边后网络的边数(第 2 行)。第 3-13 行负责边缘添加。我们取出最有潜力的节点 u,并选择与节点 u 距离最短的种子节点 v(第 3-4 行)。如果u和种子节点v之间的路径传播概率大于或等于激活概率ρ,我们选择下一组节点。否则,我们添加一条边连接节点 u 和 v,并继续添加下一条边,直到添加了 k 条边(第 5-13 行)。添加边后,图被标记为 G*,并返回 G*(第 14-15 行)。

5. Experimental study

  在本节中,我们进行了三组实验来验证和分析本文提出的IMM++和LN的有效性。我们参考现有工作来设置SIR模型和IC模型中涉及的参数值。在SIR模型中,感染率λ为0.1,恢复率γ为网络平均度的倒数。在IC模型中,激活概率ρ为0.05。考虑到任意两个节点的距离小于或等于网络直径,我们将传播步长max_深度设置为网络直径。实验的硬件配置为Inter Xeon CPU E5-1620 v2 @ 3.7 GHz和16 GB内存。本文算法在Python 3.5中实现

5.1. The effectiveness of IMM++ on expected influence

  本实验主要通过与IMM的比较以及著名的贪心算法(Kempe et al., 2003)来验证IMM++在影响范围上的有效性。我们为这个实验选择了四个真实世界的开源网络数据集。数据集的详细信息如表2所示。

数据集Brightkite(Rossi&Ahmed,2015)是从基于位置的网络服务网站的开源API获得的友谊网络。数据集豆瓣(Rossi & Ahmed,2015)来自社交网站豆瓣,该网站为用户推荐电影、音乐和书籍,并允许用户发表评论。数据集 Epinions (Rossi & Ahmed, 2015) 来自在线社交网站。信任关系网络是在Epinions上获得的。数据集 Slashdot (Rossi & Ahmed, 2015) 是从在线社交平台 Slashdot 收集的用户关系网络。

   实验中采用的信息传播模型是SIR模型和IC模型。我们比较影响传播IMM++和IMM在不同大小的种子集中选择的种子节点的范围。 IMM 在例外时间 O((k + l)(n + m) log n∕ε2) 中运行,并以至少 1 − 1∕nl 概率返回近似解 (1 − 1∕e − ε) (Tang et al. ,2015)。我们为 IMM 设置 ε = 0.5 和 l = 1。

 

 在图中。在图4和图5中,X轴和Y轴分别表示种子的数量k和预期的影响传播范围。总体结果如图。图4和图5表明,IMM++在种子节点的影响传播范围上比IMM表现更好,并且在四个社交网络上接近贪婪算法。众所周知,贪心算法具有耗时高的缺点。从模型来看,与IMM相比,IMM++在SIR模型下的优势更加明显。原因可能是SIR模型下扩散步长受到限制。 IC型号则无此限制;它停止信息扩散,直到没有可激活的节点,这导致两种算法的最终结果逼近。

   我们不仅在RRS采样过程中限制遍历深度,而且在建立影响集的过程中控制路径的激活概率。与IC模型相比,SIR模型更适合作为信息传播模型。因此,我们在后续实验中采用SIR模型作为信息扩散模型。

5.2. Comparison of edge addition strategies in static networks

   我们设计了一个实验来突出闪电网络相对于静态网络中其他策略的优势。这些策略包括度中心性积 (DCP) (Yang, Xian et al., 2020)、特征向量中心性积 (ECP) (Yang, Xian et al., 2020)、LEI (Yang, Xian et al., 2020)、模块化添加 (MA)(Khalil 等人,2014)和基于连接保证的链路添加(CGLA)(Qiao 等人,2021)。 DCP依次在度中心性乘积最大的两个节点之间添加边,并重新计算边添加后节点的乘积。 ECP中,在特征向量中心性乘积最大的两个节点之间添加一条边,添加边后会重新计算节点的特征向量中心性。 LEI 通过 SIR 边方程 (SIRee) 计算的潜在值添加两个节点之间的边。 MA模拟添加任何潜在边后的收入增长来选择要添加的边,这会消耗大量时间。在CGLA中,根据连通性分量计算,将选择具有高中心度的不活跃节点作为添加种子节点链路的候选节点。此外,由于DCP、ECP和LEI都需要添加大量的边来突出添加边的效果,这在大数据集上是不切实际的。我们使用四个小型现实世界开源网络数据集进行实验,包括 1138-bus (Rossi & Ahmed, 2015)、Jazz音乐家 (Kunegis, 2013)、Tech-routers-rf (Rossi & Ahmed, 2015) 和 Inf -USAir97(罗西和艾哈迈德,2015)。由于时间成本的原因,MA策略仅在爵士音乐家(Kunegis,2013)和Inf-USAir97(Rossi&Ahmed,2015)以及少量节点上进行了验证。其参数如表3所示。

   本实验模拟了SIR模型下的信息传播过程。为了观察比较方法的性能,我们根据给定的种子大小改变 k。由于数据集的规模不同,实验中种子集大小和添加的边数也不同。 Jazz音乐家和Inf-USAir97数据集中的种子集大小为10,而数据集中的种子集大小为301138 总线和 Tech-routers-rf。在文献中(Yang, Xian et al., 2020),将要添加的边数设置为节点的一半。在本文中,考虑到时间成本,将添加的边数上限设置为|V|的四分之一。

   所选种子添加边缘后的收益是通过对 104 次蒙特卡罗模拟的结果进行平均来计算的。图6中,X轴和Y轴分别是要添加的边缘数量和影响扩散范围。从图6可以看出,LN策略在影响力扩散范围上远远优于其他策略; LN可以更有效地解决EA问题。如图6(b)和(d)所示,DCP、ECP、LEI和MA的效果较差,与不添加边缘的效果几乎相同。原因可能是爵士音乐家和 Inf-USAir97 数据集的平均程度较大。而且,添加的边数远小于现有边数,整个网络的优化并不明显。相比之下,DCP、ECP、LEI 和 MA 的影响在图 6(a) 和 (c) 中稍微明显一些。值得注意的是,我们在实验中设置的种子数量和边预算 k 明显小于 Khalil 等人的作品中指定的数量。 (2014) 和杨西安等人。 (2020)。这表明尽管边的预算k设置为有限值,LN仍可以具有添加边的高灵敏度的优点。

5.3. Comparison of edge addition strategy in dynamic networks

  为了验证闪电网络在动态网络中的有效性,我们对闪电网络与其他策略的影响扩散范围进行了对比实验。此外,我们与无边添加进行比较,以表明 DEA 问题是有意义的。该实验使用三个开源动态网络数据集:Amazon (Rossi & Ahmed, 2015)、Epinions(Rossi 和 Ahmed,2015)和 Youtube(Rossi 和 Ahmed,2015)。我们根据时间戳将每个数据集分为十个网络快照。

表4和表5分别总结了节点和边的参数。根据表中的信息,这三个动态网络都是增长网络。数据集Epinions和Youtube的增长率远高于亚马逊。可以分别在第一个快照和最后一个快照中获得初始和最终的节点数和边数。这里需要说明的是,动态网络是指在不同时间发生变化的网络,根据时间戳捕获为不同的网络快照。

   我们模拟 SIR 模型下的信息传播过程,并将我们的方法 LN 与其他四个基线:DCP、ECP、NO 和 CGLA 进行比较。在NO策略中,每个网络快照没有边添加。为了进一步观察算法在不同快照上的性能,我们在每个快照上使用给定大小的种子进行边缘添加。种子集大小为 50,每个网络快照添加 10 条边。实验结果如图1、2所示。 7、8、9 和 10。

   图 7 表明 LN 在影响扩散范围方面优于其他策略。同时,DCP和ECP与NO具有相同的作用。这是因为添加边的数量远小于工作中设定的数量(Yang,Xian等,2020),并且DCP和ECP中新插入边的末端有显着影响的节点是种子节点或可以通过种子节点到达。结果表明,LN不仅可以解决DEA问题,而且效率很高。由于添加的边数相对较少,DCP和ECP的效果相当差,正如之前的实验所证实的那样。图7(a)显示LN相对于其他策略具有最明显的优势。这是因为当网络增长率较低时,LN仍然可以从稀疏网络中找到潜在的边来优化网络,这是其他策略无法做到的。

       在图8、9和10中,Y轴表示新网络中添加边和种子节点的信息传播所消耗的时间。不加边策略NO由于没有加边过程,运行时间最短。添加边所消耗的时间为零。 ECP 的运行时间最长,DCP 与 LN 的运行时间差距相对小于 ECP 与 LN 的差距。与DCP和LN相比,ECP在选边过程中花费了太多时间。 ECP中特征向量中心性的计算比较复杂,需要更多的时间反复迭代才能得到相对稳定的值。在DCP中,度中心性的计算比较简单,只需要统计邻居节点的数量即可。在CGLA中,计算导出子图和连通分量需要很多时间。虽然根据逻辑网络中的路径计算节点评价值的复杂度高于计算度中心度,但在更新节点影响力的过程中具有优势。基于之前的网络快照,LN仅计算改变路径中的节点的评估值,而DCP、ECP和CGLA在每个网络快照时重复整个计算。

   如图8所示,由于Amazon数据集规模相对较小,每种加边策略的运行时间相对较短。节点和边的增长比例较低,并且网络快照之间存在少量变化。因此,不同的边缘添加策略在运行时间上没有显着差异。而且,由于网络变化较少,需要动态更新的路径也较少,这导致DCP和LN之间的差异稍显着。如图9所示,Epinions的规模更大。与图8相比,每种加边策略的运行时间显着增加。而且,由于节点和边(尤其是后者)的增长比例较大,边添加策略在不同网络快照上的运行时间也显得不同。然而,由于Epinions的边缘增长率相对较低LN花费的时间主要是计算路径,动态更新需要更多的时间,这导致DCP和LN之间的差距缩小。 Youtube 的规模是Epinions 的几倍。而且Youtube中节点和边的增长率相当高。特征向量中心性的计算涉及大量的邻接矩阵计算,而节点数量较多导致矩阵规模较大,导致计算耗时,进一步影响ECP的效率。因此,与图9相比,图10中ECP的运行时间猛增。综上所述,总体性能如图所示。图 7、8、9 和 10 显示 LN 的运行效率更高;在点差范围和运行时间等指标上具有一定的优势。

6. Conclusion

   在本文中,我们致力于解决动态边加法(DEA)问题,它对传统影响力最大化问题和边加法(EA)进行了显着的补充。在DEA问题中,我们不仅从第一个网络快照中选择最优种子集,而且在后续快照中动态更新节点的度量值。因此,处理 DEA 比执行影响力最大化和 EA 更困难。为了应对这一挑战,我们提出了 AP 框架作为 DEA 的解决方案。在AP框架中,我们设计了IMM++算法来挖掘种子并构建影响集来更新节点的评估值。此外,我们设计了一种新颖的边缘添加策略来完成添加边缘的过程。我们在不同的真实开源数据集上进行了广泛的实验,这些实验的结果证明了我们方法的有效性。总体而言,这项工作探索了通过在动态网络中添加边缘来加速信息传播的可能性,使研究人员能够更加关注探索更有效的方法来解决 DEA。

  • 26
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值