Abstract
为了通过社交网络传播信息和思想,种子策略旨在找到一小部分能够最大化影响力传播的种子用户,这被称为影响力最大化问题。尽管有大量的工作研究了这个问题,但现有的播种策略仅限于静态社交网络。事实上,由于数据传输速度快、参与人数众多,现实社会网络中的扩散过程存在很多方面的不确定性。不幸的是,如实验所示,在这种情况下,最先进的播种策略是悲观的,因为它们无法追踪社交网络中的动态变化。在本文中,我们研究了以自适应方式选择种子用户的策略。我们首先对动态独立级联模型进行正式建模,并引入自适应播种策略的概念。然后,基于所提出的模型,我们证明了一种简单的贪婪自适应播种策略可以找到具有可证明性能保证的有效解决方案。除了贪心算法之外,还提供了高效的启发式算法以满足实际需求。在现实世界网络和合成幂律网络上进行了大量的实验。本文的结果证明了自适应播种策略相对于其他标准方法的优越性。
索引术语——社交网络影响力、自适应播种策略、随机子模最大化。
1 INTRODUCTION
随着过去二十年信息科学的进步,社交网络正在成为重要的传播平台,因为它们允许有效地交流思想和信息。社交网络中的影响力扩散过程已在许多领域进行了研究,例如:流行病学、社会中值和经济学。事实证明,对影响力扩散的研究在设计营销策略[1]、[2]、分析人类行为[3]和谣言拦截[4]等许多方面都有很大用处。为了制定扩散过程,在过去十年中研究了许多模型。 Kempe 等人提出了两种基本操作模型:线性阈值(LT)模型和独立级联(IC)模型。 [5]。在线性阈值模型中,如果邻居的影响达到一定阈值,用户就会采用新想法,而在独立级联模型中,采用者有一定的概率说服其每个邻居。基于这两个模型,已经开发和研究了各种模型。
在影响力扩散的话题中,一个重要的问题是如何通过社交网络有效且高效地传播信息。例如,为了宣传新产品,一家公司希望向一组初始用户提供免费样品,这些用户可能会向他们的朋友介绍新产品。由于费用问题,只能提供有限数量的样品,因此我们对种子用户有一个预算。一个自然的问题是如何选择一组能够最大限度地增加最终采用目标产品的客户数量。该问题在文献[6]中首次提出,被称为影响力最大化问题。
关于影响力最大化问题已经进行了大量的相关工作,但是最先进的技术可能无法处理许多实际的案例。现有扩散模型的一个缺点是它们未能考虑现实世界社交网络的一些不确定性。这种不确定性可以从以下三个方面来看。在现实世界的社交网络中,种子用户并不能保证被成功激活。以销售新产品为例,如果免费样品不能满足初始用户的需求,广告就会被卡住。其次,不能保证信息从一个用户传递到另一个用户,因此传播本身是一个概率过程。此外,由于用户之间的关系程度经常变化,社交网络的拓扑在实际情况下并不总是静态的。就在线社交网络而言,例如 Facebook、Twitter 或 Flicker,拓扑变化是由于一对用户之间共同好友数量的增加而引起的。在本文中,我们研究具有上述特征的社交网络中的影响力最大化问题。通过扩展经典的 IC 模型,我们开发了动态独立级联(DIC)模型,该模型能够捕获真实社交网络的动态方面。在经典的IC模型中,种子节点在选择后保证被激活,两个用户之间的关系简单地用固定概率表示,而我们的DIC模型中的种子节点可能在一定的概率和传播概率下无法被激活两个用户之间遵循一定的分布,反映了社交网络拓扑的变化。
基于DIC模型,我们进一步考虑如何设计种子策略来找到有效的种子节点。为了经典 IC 模型,Kempe 等人。 [5] 提出了一种简单的贪心算法,其近似率为 (1 − 1/e),Chen 等人。 [7]提出了一种有效的启发式播种方法来处理大规模社交网络。现有的方法总是以静态方式进行种子选择(即在传播过程之前确定种子集),这使得它们不适用于 DIC 模型。如前所述,DIC 模型中的种子用户并不能保证被激活。在此设置中,出现的一个问题是,如果用户在过去几轮中未成功激活,我们可以多次为该用户提供种子。可以看出,激活一个强大的用户是值得付出更多努力的,因为他或她可能会对社交网络产生相当大的影响。然而,静态播种算法无法考虑这种情况。此外,为了确定种子集,现有算法需要用户之间的传播概率,但在 DIC 模型中,这种概率是随机变量,我们只能期望其分布。诚然,我们可以利用它的期望值,然后应用先前的方法。但这种方法是悲观的,因为它无法追踪现实世界社交网络的动态拓扑。在本文中,我们首先提供一种简单的自适应播种策略,能够处理现实世界社交网络的动态方面,然后设计一种启发式算法以实现更好的可扩展性。
1.1 Related Work and Technique
多明戈斯等人。 [6] 是最早研究病毒式营销影响节点的人之一。在开创性的工作中 [5],Kempe 等人。从组合优化的角度制定影响最大化问题,并提供近似率为(1 − 1/e)的贪心算法。许多作品[7]、[8]和[9]都研究了有效的启发式影响最大化算法。朗等人。 [10]从最小化的角度进一步研究这个问题。杜等人。 [11] 和罗德里格斯等人。 [12]提出了连续扩散模型并研究了这种情况下的影响最大化问题。上述所有工作的目的都是在扩散过程之前确定有效的种子集,并关注具有静态拓扑的网络。
为了学习可证明的性能保证,子模块函数在先前的工作中发挥了重要作用。肯佩等人。 [5] 表明,预期的活动节点数量是种子集上单调递增的子模函数,因此,根据 [13] 中著名的结果,简单的贪心算法会产生 (1 − 1/e) 近似值。然而,如稍后在第二节中所示。如图3所示,这种技术不能直接应用于自适应播种问题。一方面,种子节点在扩散过程之前是未知的,因为它们是自适应选择的;另一方面,无法明确观察特定种子集上的目标函数的值。
自适应播种策略是一种随机优化框架,是对[5]中原始播种方法的自然扩展。本文的部分分析是基于随机子模最大化。阿萨德普尔等人。 [14]提出了随机子模最大化问题的分析,其中目标函数是在一组独立随机变量的幂集上定义的。戈洛文等人。 [15]用自适应子模块性的概念进一步研究这个问题。尽管上述工作仅适用于自适应影响最大化问题的特殊情况,但它们提供了一个线索,即自适应版本中的贪心算法仍然能够实现可证明的性能保证。在最近的一项工作中,Seeman 等人。 [16]考虑了变体影响力最大化问题的自适应方法,其中种子节点被限制在某个集合中并且影响力只能传播一轮,因此具有与本文不同的设置。
1.2 Contribution
本文的贡献总结如下。我们提出的 DIC 模型能够捕捉现实世界社交网络的动态方面。为了提供自适应播种策略的正式描述,我们引入了播种模式的概念。本文的主要贡献是一种自适应爬山策略,在 DIC 模型中具有可证明的性能保证。我们通过在播种过程之前缩小候选种子集的范围,进一步设计了一种有效的启发式自适应播种策略。进行的实验证明了所提出的自适应播种策略相对于动态社交网络中原始播种方法的优越性。
本文的其余部分组织如下。所提出的 DIC 模型和自适应播种策略在第 2 节中阐述。 2. 贪婪自适应策略的分析如第 2 节所示。 3 中提出了启发式策略。 4. 在秒中。 5、我们展示实验结果。秒。 6 结束。
2 PROBLEM SETTING
2.1 DIC Model
社交网络被建模为有向图,其中节点和边分别表示个人和社会关系。为了在社交网络中传播想法或宣传新产品,选择激活一些种子节点(例如,通过支付或提供免费样品)以触发影响力的传播。按照[5]中的符号,我们将每个节点称为活动或非活动。节点可以由其邻居激活,也可以作为种子节点激活。
在 DIC 模型中,与每个节点 u 相关联的有一个遵循伯努利分布 fu 的随机变量 Xu,其中 Xu = 1 表示节点 u 已成功激活为种子节点。对于节点之间的关系,活动节点 u 有一次机会通过边 (u, v) 激活其不活动邻居 v,概率为 X(u,v),这是一个随机变量。随着种子节点的激活,扩散过程周而复始。不失一般性,对于每条边 e,我们假设 Xe 遵循某个域为 De 的离散分布 fe,并令 die ∈ [0, 1] 为 De 中的第 i 个值。在本文中,我们不强制执行 Xe 1 的任何特定分布。在 DIC 模型中,对于边 e = (u, v),Xe 的值保持未知,直到 u 的邻居之一活跃。这是因为在实践中,行业机构可能只能追踪感兴趣的影响,而无法获得网络其余部分的实时状态。我们用 G = (V, E, FV , FE) 表示 DIC 网络的实例,其中 FV = {fu|u ∈ V } 和 FE = {fe|e ∈ E} 是 Xu 和 Xe 的分布集, 分别。令 N 为 V 中的节点数。由于激活种子节点的费用,我们有一个种子集的预算 B(B ≤ N )。表1列出了本文后面经常使用的符号,表1中的其余符号将在稍后介绍。
2.2 Adaptive Seeding Strategy
基本上,为了设计自适应播种策略,我们考虑两个问题:(1)每个播种步骤中应该使用多少预算以及(2)选择哪些节点。我们使用以下概念来阐述这些问题。
假设仅在两个传播轮之间选择种子节点,我们将第 i − 1 轮和第 i 轮之间的播种步骤表示为第 i 个播种步骤,并且第一个播种步骤在传播过程之前执行。我们假设我们需要一轮来激活每个播种步骤中选择的种子节点。在本文中,我们一致使用“阶梯”进行播种过程,使用“圆形”进行扩散过程。
Definition 1.
播种模式 A = (a1, ..., aN ) 是一个非负整数序列,这意味着我们在第 i 个播种步骤中播种 ai 节点。稍后我们将证明我们最多有 N 个播种步骤。由于预算限制,Σ ai ≤ B。请注意,如果 A = (B),则它会减少为非自适应播种。对应于播种模式 A = (a1, ..., aN ),A 的播种策略 SA = (s1, ..., sN ) 是节点集序列,其中 |si| = ai 和 si 是在第 i 个播种步骤中播种的节点集。 ai = 0 意味着我们在第 i 个播种步骤中没有播种任何节点,因此 si = ∅。
在上述设置中,种子模式和种子策略都可以自适应地构建,即 ai 和 si 可能取决于过去几轮的结果。对于一个具体的DIC网络G,我们用SGA来表示模式A在G上的播种策略。由于DIC模型是一个概率模型,所以这里的目标函数是当没有节点时,最终活跃节点的期望数量。进一步激活,没有剩余预算。我们用 E[S A ] 表示在播种策略 S A 下 G 中活动节点的预期数量。
Definition 2.
给定 DIC 网络 G 上的策略 SG A,如果 si = ∅ 但不存在任何边 (u, v),使得 u 在 (i − 1) 中被其邻居或作为种子节点激活第 轮,我们说 SG A 等待空轮。不难看出,等待空轮对传播过程和策略效果没有影响。除非另有说明,我们假设任何策略都不会等待一轮或多轮空轮。因此,对于任何策略 SG A = (s1, ..., sN ),我们最多有 N 个播种步骤,并且 s1 6= ∅。为了分析方便,我们要求任何策略SG A都不会选择活跃节点作为种子节点.
两个自然模式 A0 和 A* 定义如下。
Definition 3.
设 A0 = {a1, ..., aN },其中 ai = 1(对于 1 ≤ i ≤ B),ai = 0(对于 i > B)。非正式地,在模式 A0 下,我们在每个步骤中连续播种一个节点,直到预算用完。
Definition 4.
另一个模式 A* 的自适应构造如下。在模式 A* 中,我们一次播种一个节点,并等到没有节点可以进一步激活后再播种下一个节点。因此,我们在第一步中播种一个节点,其余的播种模式将自适应地构建。
请注意,给定模式 A,存在多种 A 策略。我们使用 OP T G A 来表示模式 A 在给定 DIC 网络 G 上相对于预期活动节点数量的最优自适应策略。
本文考虑的核心问题定义如下。
Problem 1.
自适应影响力最大化(AIM)。在预算约束下,对于任何DIC网络G,找到模式A和A在G上的策略S A ,使得E[S A ]最大化。
2.3 An Example
我们用下面的例子来说明DIC模型和播种模式的概念。
示例 1. 考虑一个具有六个节点和五个边的示例 DIC 网络 G1 = (V, E, FV , FE),如图 1 所示,其中每个 v ∈ V 的 fv(1) = 0.5,并且 De = { 0.4, 0.8},对于每个 e ∈ E,fe(0.4) = 0.8。在这个例子中,每个节点在被选为种子节点时可以以 0.5 的概率被激活,并且两个连接节点之间的传播概率可以是 0.4 或0.8,概率分别为 0.8 和 0.2。我们将预算 B 设置为 3。假设某个种子策略 S G1 A1 产生模式 A1 = (1, 1, 0, 1) 的种子集序列 ({v3}, {v3}, ∅, {v1})。在这个具体的播种过程中,S G1 A1 分别在步骤 1 和 2 中播种 v3 两次,其中意味着第一次激活v3失败。这样的策略可能取决于过去几轮的结果或每个步骤中观察到的传播概率。
3 GREEDY ALGORITHM
在本节中,我们展示本文的主要结果。贪心算法的种子选择规则如下所示。
规则 1. 在每个播种步骤中,我们选择能够根据观察到的事件最大化边际利润的节点。
请注意,在每个步骤中我们可以观察到以下内容:(1)过去几轮的结果; (2) 活动节点与其邻居之间的传播概率。我们可以看到规则 1 可以应用于任何模式。对于模式 A 和 DIC 网络 G,我们使用 SG A 来表示遵循规则 1 的播种策略。我们的分析包括三个步骤。首先,我们提出了一种转换方法,该方法找到活动节点预期数量的显式表达式。然后,我们证明 A* 是任何 DIC 网络 G 的最优模式,即对于任何模式 A′ , E[OP T G A* ] ≥ E[OP T G A′ ] 。最后,我们证明 SG A* 是模式 A* 下的 (1 − 1/e) 近似,即
3.1 Transformation
在经典 IC 模型中,具体网络是一个图,其中每条边 (u, v) 被指定为活动或非活动。如果边 (u, v) 是活动的,则意味着 u 可以成功激活 v。通俗地说,所有不确定性在具体网络中都是确定的。在具体网络中,活动节点是那些通过活动边的路径连接到种子节点的节点,具体网络中活动节点的数量是种子集上的子模函数[5]。不幸的是,这种方法不能直接应用于我们的 DIC 模型的分析,因为 DIC 模型中的一些情况不能用与原始 DIC 网络结构相同的图来表示。例如,如何表示我们多次为节点播种的情况,以及如何描述每个传播概率遵循分布而不是单个值的特征?为了解决这种情况,我们将原始网络转移到辅助图,在给定种子集的情况下可以显式观察活动节点。
给定一个 DIC 网络 G = (V, E, FV , FE) 其中 V = {v1, ..., vN },我们构造一个辅助图 c-G = (Vc, Ec),如下所示。 Vc 由 N·B + N 个节点组成,并被划分为 N +1 个子集,用 V i c (0 ≤ i ≤ N ) 表示,其中 |V 0 c|= N 和 |V i c | = B (i > 0)。设 V 0 c = {v0,1, ..., v0,N } 且 Vi c = {vi,1, ..., vi,B} (i > 0)。 V 0 c 中的节点对应G 中的节点和 V i c (i > 0) 中的节点用于表示 G 中 vi 上的多次播种。 Ec 由两部分 E1 c 和 E2 c 组成,定义如下。对于 i > 0 且 1 ≤ j ≤ B,每对 vi,j 和 v0,i 以及每对节点 v0,i 和 v0,j 都有一条边 (vi,j, v0,i) V0 (1 ≤ i 6= j ≤ N ),我们有 |D(vi,vj)|由 eik,j (1 ≤ k ≤ |D(vi,vj)|) 表示的边将 v0,i 连接到 v0,j 。令E1 c 为V 0 c 与V i c (i > 0) 之间的边集,E2 c 为V i 0 内的边集。回想一下,D(vi,vj) 是 f(vi,vj) 的域,f(vi,vj) 是 G 中边 (vi, vj) 的传播概率的分布。
实施例1中G1的辅助图c-G1如图2所示。进一步的解释在标题中给出。
现在我们展示给定播种策略如何通过 c-G 观察活动节点。按照[14]中的符号,我们引入了边的状态和实现的概念
定义 5. c-G 的完整实现(f-实现)x 是从 c-G 中的边到某些状态的映射,其中 E1 c 中的每条边映射到 {live, not live},E2 c 中的每条边映射到 {已选择-直播,已选择-未直播,未选择}。在 f 实现中,只有从 v0,i 到 v0,j 的一条边可以映射到 selected-live 或 selected-not live。
定义6. c-G的部分实现(p-realization)y是从边到状态的映射,其中E1 c中的每条边映射到{live,not live,未确定},E2 c中的每条边映射到{已选择直播、已选择-未直播、未选择、已选择-未确定、未确定}。在 p 实现中,如果从 v0,i 到 v0,j 的一条边未确定,则从 v0,i 到 v0,j 的所有边都必须未确定;如果从 v0,i 到 v0,j 的一条边是已选择的、已选择的或未确定的,则必须不选择从 v0,i 到 v0,j 的其他边。
表2和表3列出了状态的解释。c-G中的每条边及其状态对应于原始网络G的扩散过程中的一个事件。我们可以看到,f-实现是扩散的确定情况过程和预实现是事件被部分确定的中间状态。对于种子策略 S G A ,仅当指定 f 实现时才确定由 S G A 选择的种子节点。我们使用 SGx A 来表示 SG A 在 f 实现 x 下选择的种子集序列。
对于 f 实现 x 和 p 实现 y,令 Prob[x](或 Prob[y])为 x(或 y)的概率发生,Prob[x|y] 是 x 以 y 为条件发生的概率。
定义7.如果可以通过将y中某些边的状态从{未确定,已选择未确定}更改为{已选择-活动,已选择-未活动,未选择}来从y获得x,则f-实现x与预实现y兼容。
非正式地,x 与 y 兼容意味着 x 是 y 在扩散过程中可能的连续状态。类似地,我们有两个预实现之间的兼容性关系。令 为空实现,其中所有边都处于未确定状态。对于 DIC 网络 G,我们用 CG(y) 表示与预实现 y 兼容的 f 实现集。
对于 G = (V, E, FV , FE) 上的每个策略 SG A = (s1, ..., sN ),我们在 c-G 中有一个相应的种子集 V ′ ⊆ ⋃ i>0 V i c ,构造如下。如果 G 中的 vi 被 SG A 选择 k 次,则我们将 c-G 中的 vi,1,..., vi,k 添加到 V ′ 。通过此设置,给定 c-G 的 f 实现 x,G 中 S A 下的活动节点数是 V0 c 中通过 c-G 中的活动边连接到 V ' 中节点的节点数。从示例的意义上来说。如图 1 所示,
图 3:c-G1 的 f 实现 x1 示例。与边缘对齐的数字是它代表的传播概率。在这个具体例子中,种子节点是 v1 和 v3,G 中的活动节点是 v1、v3、v4 和 v5
图 3 示出了具有策略 ({v3}, {v3}, ∅, {v1}) 的示例 f 实现 x1。
对于 f 实现 x,令 Node(SGx A ) 为 x 中 c-G 中的 SGx A 生成的相应种子集的并集。对于节点集 V ′ ⊆ ⋃ i>0 V i c ,令 N G x (V ′ ) 为 x 中具有种子集 V ′ 的活动节点的数量。所以,
性质 1. 若 V1 ⊆ V2,则 N G x (V1) ≤ N G x (V2)。性质 2. 对于 ⋃ i>0 Vi 的两个节点子集 V1 和 V2,以及节点 v′ ∈ ⋃ i>0 Vi,其中 V1 ⊆ V2,v′ / ∈ V2,我们有 NG x (V2 ∪ {v ′ }) − N G x (V2) ≤ N G x (V1 ∪ {v′ }) − N G x (V1)。证明。这个证明与[5]中定理2.2的证明类似。唯一的区别是,在我们的例子中,种子节点和活动节点分别受到 ⋃ i>0 Vi 和 V0 的约束。
3.2 Optimal Pattern
正如第 2 节中介绍的那样。 2.1,播种模式确定了我们在每个步骤中应该消耗多少预算。现在,我们证明 A* 是最佳模式。
引理 1. 对于任何 DIC 网络 G,假设 A' 是任意播种模式,并且 S G' 是 A' 在 G 上的已知播种策略。 G 上存在 A* 的种子策略 S A* ,使得 E[S A* ] = E[S A′ ]。
证明。主要思想是根据 S A′ 构建策略 SG A*,使得在任何 f 实现 x 中,NG x (N ode(SGx A′ )) = NG x (Node(SGx A* ))。
令 x 为 c-G 的任意但未知的 f 实现。假设 SGx A′ = (s1, ..., sN ) 且 A′ = (a1, ..., aN )。假设 si = {vi,1, ..., vi,ai },其中节点随机排序。请注意,s1 在传播过程之前是已知的,而 si (i > 1) 在步骤 i 之前是未知的,因为它取决于
3.3 Approximation Ratio
在本节中,我们证明 SG A* 的近似比率为 (1 − 1/e)。表示随机事件空间的方法对于随机模型的分析至关重要。本质上,自适应播种策略 SG A* 形成一棵决策树,其中树中的每个节点都是选定的种子集,树节点的每个外边代表一个可能的连续事件。设根节点为第一层。然后,从级别 i 到级别 i + 1 的每个分支对应于 SG A* 下第 i 轮之后的 p 实现。从根到叶子的每条路径都是由一系列预实现形成的,其中每个预实现与其前一个实现兼容。对于 SG A* 的决策树,令 Zi = {z1 i , ..., z|Zi| i } 是从级别 i 到级别 i + 1 的 p 实现(分支)的集合,其中 |Zi|是分支数,Z0 = { }。虽然基本事件空间是唯一的,但可以通过不同策略下的不同决策树来表示。对于图 1 所示的示例 1,G1 上模式 A* 的策略的决策树如图 4 所示,其中的说明可在标题中找到。请注意,对于 DIC 网络 G,SG A* 的决策树是确定的。
现在我们准备展示本文的主要结果。我们的目标是证明
3.4 Implementation Issues
为了实现所提出的贪心算法,剩下的唯一问题是计算方程。 (5)。不幸的是,正如[8]中所讨论的,计算等式中 Σ x∈CG (z j i ) Prob[x|y] · NG x (V ′ ) 的实际值是#P-hard的。 (3)。然而,我们可以利用蒙特卡罗模拟来获得准确的估计。根据霍夫丁不等式,当进行足够数量的模拟时,估计误差可以无限小。人们可能关心的另一个问题是贪心算法的效率,因为可能需要大量模拟才能准确估计。如[18]所示,Lazy-Forward 技术可以在爬山策略中实现,并导致评估少得多。采用 LazyForward 方法的 SG A* 的伪代码如算法 1 所示。我们用 A-Greedy 表示这种自适应播种策略。
5 EXPERIMENT
在本节中,我们将展示所进行的实验的结果。为了评估所提出的自适应播种策略,我们从以下几个方面检查了我们的策略的性能:(a)与非自适应播种策略相比的影响范围; (b) 启发式策略的有效性和效率。
5.1 Experiment Setup
为了公平地比较我们的播种策略与现有方法的性能,我们采用两个现实世界的社交网络已在先前的作品中广泛使用,以及一个能够捕捉真实社交网络的关键特征的合成幂律网络。传播概率由三个分布生成,如下所示。
网络结构。第一个现实世界的社交网络,用 Hep 表示,是物理学界合著者的学术合作。 Hep 是根据电子打印 arXiv3 的“高能物理 - 理论”部分编译的,并已在先前的工作中广泛使用(例如[5]、[8]、[10]和[19])。对于每一对具有共同作者身份的作者,我们有两条从彼此到另一方的有向边。由此产生的网络具有大约 15,000 个节点和 58,000 个有向边。第二个数据集由 Wiki 表示,包含维基百科诞生之初的维基百科投票数据 [20]。该网络中的节点代表维基百科用户,从节点 u 到节点 v 的有向边代表用户 u 对用户 v 进行投票,这意味着 v 对 u 具有影响力。因此,如果原始数据中存在从 u 到 v 的边,我们在 Wiki 中添加一条从 v 到 u 的边。 Wiki 有大约 8,600 个节点和 103,000 个有向边,并且已在 [21]、[22] 和 [23] 中进行了研究。最后一个数据集是由[24]生成的合成幂律网络。本文选择的合成幂律网络用PL表示,包括2500个节点和26000条有向边。幂律度分布已被证明是社交网络最重要的特征之一[17]。我们使用 PL 数据集来评估所提出的播种策略在一般社交网络中的性能
传播概率。边e的传播概率Xe的三个分布F i(i = 1,2,3)如下所示。在F 1 中,传播概率固定为0.01,与[5]中的相同。 F 2 是均值为 0.01 的指数分布。 F 3 是 {0.1, 0, 01, 0, 001} 上的均匀离散分布。
激活概率。我们在每个节点 u 上分配统一的激活概率,选择 Prob[Xu = 1] 为 1 和 0.5。
请注意,如果 F 1 且 Xu = 1,则它会简化为经典 IC 模型。
播种策略。测试的播种策略如下所示。
1Greedy 这是[5]中提出的最先进的非自适应播种方法。在贪婪中,在扩散过程之前通过爬山算法选择节点。当在 DIC 模型中实现贪婪时,我们通过平均值固定传播概率,因为在扩散过程开始之前,DIC 模型中无法获得真实的传播概率。对于每个估计,运行 10000 次模拟以获得准确的估计。
2) A-Greedy. 这是第 2 节中提出的贪婪自适应播种策略。
3) H-Greedy. 运行 10000 次模拟以获得算法 1 第 11 行中 Σ x∈CG(yi−1) Prob[x|yi−1] · NG x (A ∪ v*) 的准确估计。 3) H -贪婪的。这是第 2 节中提出的启发式自适应播种策略。 4. 第一步运行 H-Greedy,2000 次模拟以获得第 2 节中提到的估计。 4.
4) Random.
这是一种基线种子策略,其中种子节点是随机选择的。
正如之前的工作中所讨论的,基于最短路径和高度的播种策略比贪婪策略表现最差。因此我们忽略其他措施。在我们的实验中,预算选择在 10 到 30 之间。
5.2 Results
首先,我们讨论A-Greedy的性能。如图 5 所示,A-Greedy 在所有情况下都优于 Greedy。这是直观的,因为自适应播种策略能够利用过去几轮的结果。如图 5a 所示,即使在经典 IC 模型中,A-Greedy 也明显优于 Greedy。对于扩散过程具有较大不确定性的DIC模型,本文的结果验证了自适应播种策略相对于非自适应播种策略的显着优势。我们将在下面详细讨论结果。
对于Hep网络,如图5a所示,在F 1 且Prob[Xu = 1] = 1下,A-Greedy比经典IC模型中的Greedy好125%。同时扩散过程的不确定性增加,即通过将 Prob[Xu = 1] 更改为 0.5(如图 5c 所示),A-Greedy 比 Greedy 好 320%。如图所示。 5e 5f 和 5g,对于 PL 和 Wiki 网络,我们有类似的结果。例如,对于 F 1 下且 Prob[Xu = 1] = 0.5 的 PL 网络,在 A-Greedy 下,一个种子节点会产生大约 2.5 个活跃节点,而在 Greedy 下,单个种子节点平均可以激活 1.67 个节点。另一个重要的观察结果是,Greedy 生成的曲线在 DIC 模型中变得不太稳定,这意味着要达到相同的精度水平,Greedy 需要比 A-Greedy 更多的模拟次数。
现在让我们讨论所提出的启发式播种策略 H-Greedy 的性能。图6显示了通过模拟从数据集中得出的E[H(v)]的分布。在图6a中,90%的节点不能激活超过2个节点,而在图6a中,90%的节点不能激活超过2个节点。从图 6b 和 6c 可以看出,有影响力的节点与其他节点的强度存在显着差距。例如,如图6b所示,Wiki中24%的节点可以激活超过1600个节点,而其中82%的节点很难激活超过50个节点。对于相同设置下的 PL 数据集,大约 30% 的节点可以带来 780 个活跃节点,而其中 68% 的节点只能带来少于 100 个活跃节点。承认由于子模性,两个节点之间的 E[H(v)] 差异会随着种子过程而减小,具有较小 E[H(v)] 的节点不太可能是种子节点,因为间隙为太大了,与用户群体相比,我们的预算很小。因此,E[H(v)] 上的 1-sigma 控制是一个安全界限,这样我们就不会错过任何有影响的节点。如图5所示,在所有情况下,H-Greedy的性能几乎与A-Greedy相同。这是因为在这些设置中,H-Greedy 几乎无法消除任何节点,因为 E[H(v)] 的分布如图 6a 所示。因此,在这些情况下,H-Greedy 与 A-Greedy 相同。然而,对于 E[H(v)] 的分布具有如图 6b 或 6c 所示模式的情况,H-Greedy 将是一种有效且高效的策略。在这些情况下,H-Greedy 可以从候选种子节点中排除一半以上的节点,因此种子过程中消耗的时间可能超过 20%保存后如图??。此外,H-Greedy 的性能稍差于 A-Greedy,但仍优于 Greedy,如图 7a 和 7b 所示。
6 CONCLUSION AND FUTURE WORK
在本文中,我们考虑了如何在动态社交网络中最大化影响力传播的问题。所提出的 DIC 模型能够捕捉真实社交网络的动态方面和扩散过程的不确定性。在DIC模型中,某个节点可以被多次播种,并且两个用户之间的传播概率遵循一定的分布。基于DIC模型,引入播种模式的概念,制定自适应播种策略。第 2 节中构建的模式 A*。图 2 显示了确定我们在每个播种步骤中应使用多少预算的最佳方法。将最优模式与自然爬山算法相结合,我们提出了 A-Greedy 播种策略,并表明 A-Greedy 的性能比为 (1 − 1/e)。通过观察社交网络中有影响力的节点比其他节点强大得多,我们在 A-Greedy 的基础上进一步设计了一种简单的启发式自适应播种策略 H-Greedy。本文的实验结果证明了自适应播种策略相对于现有方法的优越性。
本课题未来的工作包括几个方面。我们可以看到,H-Greedy 是一种简单的启发式策略,并不是对 DIC 模型的所有设置都有效。因此,我们计划设计更好的启发式自适应播种策略,能够处理一般的社交网络。我们注意到[7]中的技术可能适用于自适应播种框架,我们保留这部分作为未来的工作。未来工作的另一个方面是设计能够满足轮次限制的自适应播种策略。在实际应用中,我们可能只关心一定轮数内的传播影响力。在这种情况下,自适应播种策略的分析变得复杂。一方面,如模式 A* 所示,我们尝试尽可能晚地利用预算以获得更多信息,而另一方面,延迟播种步骤会导致我们失去一轮扩散,因为我们有轮数限制。人们可以很容易地检查出,在一轮限制下,我们的目标函数不再是子模的,这使得找到具有可证明性能保证的贪婪算法变得更加困难。