Identifying influential nodes in Social Networks: Neighborhood Coreness based voting approach

 abstract

   在线社交网络中信息传播的有效建模,例如市场产品的病毒式传播或谣言控制,可以通过系统中最有影响力的节点来实现。因此,为了最大限度地在网络中传递信息,或者在出现谣言的情况下将信息限制在较小的范围内,找到有影响力的节点至关重要。文献中提出了许多经典的中心性,但都有一定的局限性。最近引入了基于投票排名的方法来寻找种子节点。它根据投票方案选择一组传播者,其中每个节点的投票能力相同,并且每个节点从其邻居那里获得投票。但我们认为每个节点的投票能力应该不同,并且应该取决于其在网络中的拓扑位置。在本文中,我们提出了一种名为 NCVoteRank 的基于核心的 VoteRank 方法,通过在投票时考虑邻居的核心值来寻找传播者。在许多真实数据集上使用 Susceptible–InfectedRecovered (SIR) 随机模型进行的实验和模拟表明,我们提出的方法 NCVoteRank 优于一些现有的流行方法,如 PageRank、K-shell、Extend Coreness、VoteRank 和 WVoteRank。

1. Introduction

   随着大多数人已经成为在线社交网络的一部分,杂志、报纸和电视上的广告等传统营销策略转向社交媒体以进行成功的活动和广告。由于营销成本的降低和品牌忠诚度的提高,社交网络对商业和病毒式营销的好处已在全球范围内广受欢迎。将信息范围增加到系统最大长度的任务称为影响力最大化[1]。基本上,影响力最大化需要战略性地选择一些恒定数量的重要用户,这些用户能够通过“口碑”类比在很大程度上传播信息[2]。现实生活中的社交网络可以建模为图[3,4],其中有影响力的节点[5]对于管理流行病的爆发[6-9]、实现最佳的广告潜力、营销策略和控制谣言具有巨大意义[ 10]。社交网络可以表示为图 G = (V , E),其中 V 表示属于社交网络的人员或实体集,E 表示边。如果两个节点具有社交联系,则它们之间存在边缘。节点的位置及其连接性对于直观地确定其传播和影响能力大有帮助。

    节点拓扑重要性的度量称为中心性度量。基于不同的标准和考虑,研究人员开发了多种中心性方法。度中心性[11]直接意味着信息通过节点的局部传播,因为它结合了当前节点直接邻居数量的计数。介数中心性 [12] 是穿过位于一对节点之间的节点的最短路径的分数。节点的紧密度中心性[13]是当前节点到所有其他节点的距离平均值的倒数。 PageRank [14,15] 中心性源自万维网上对网页进行排名的概念。其思想在于,如果一个节点与系统中标记为重要的节点具有连接性,则该节点在网络中是相关的。 H指数[16]被广泛用作引用指标,根据期刊的引用来确定期刊的影响力和声誉。期刊的 H 指数是 h 的最大值,使得至少有 h 篇论文,每篇论文被引用次数为 h 或更多。该指标在社交网络中也很有用,我们可以根据其邻居(类似于引用)查看每个节点(类似于期刊)的 H 索引。 H指数有效衡量节点影响能力的下界。卢等人。 [17]建立节点的度、H指数和核心度通过算子H连接,其中度是初始状态,H指数是中间状态,核心度是稳态。但是,H指数方法指定了许多具有相同值的节点,这指出了区分这些节点的传播能力的根本问题。刘等人。 [18]引入了LH-index(局部H-index)作为H-index的扩展。它涉及将所有邻居节点的 H 索引与节点本身的 H 索引相加。事实证明,与 H 指数相比,LH 指数对网络影响力最大化具有更好的总体影响。

在这项工作中,我们通过将邻域核心度的值用于投票方案,引入了一种基于邻域核心度的 VoteRank 方法来选择传播者。我们的工作贡献如下:

• 一种名为 NCVoteRank 方法的新颖方法,用于确保全面选择传播者节点以实现影响力最大化。就网络规模而言,它具有线性时间复杂度。

• 调查和评估现有方法以及针对各种现实世界网络数据集提出的方法。

• 事实证明,我们的实现具有更加多样化的传播器节点分布,并且在各种性能参数上优于多种现有算法。

• 它识别具有良好位置、最大覆盖范围和最小邻域重叠的撒布器。

本文的其余部分组织如下:第 2 节描述了相关的相关工作。第 3 节介绍了所提出的称为 NCVoteRank 的方法。第 4 节讨论了用于评估所提出的方法和现有方法的各种性能参数。本文使用的数据集以及一个小型玩具网络在第 5 节中进行了描述。第 6 节描述了基于多个性能参数对各种流行的现有方法所提出的方法的性能分析。第七节总结了我们工作的意义和用途及其前景。

2. Related work

   注意,与存在于网络外围的度数较高的节点相比,具有相对较小度数但存在于网络核心的节点对信息扩散的贡献更大。实验证明,在将影响力传播到整个网络时,位于网络附近的节点具有更好的性能[19,20]。基于这一概念,Kitsak 等人。 [20]提出K-shell中心性。它逐级修剪节点,从外围节点开始到核心,并将核心值或 K-shell 值分配给网络中的每个节点。但它不区分位于同一壳中的节点,并且根据该方法,位于同一壳或核中的所有节点都具有相似的传播能力。混合度分解(MDD)[21]使用 K-shell 的概念,在 K-shell 分解的每次迭代中根据节点的剩余和删除的邻居生成节点的影响。该方法中,节点中心度为:

   其中 Dr 是剩余邻居的数量,De 是已使用邻居的数量,γ 是基于网络结构的可调参数,γ ∈ [0,1]。然而,无论删除的节点在网络中的位置如何,它都会为删除的节点赋予相同的值,从而导致 K-shell 方法的性能略有改善 [20]。

   为了正确估计节点的传播能力,Bae 等人。 [22]认为有影响力的节点有更多的邻居驻留在网络的核心,他们通过考虑其邻居的K-shell值提出了核心中心性或邻居核心性(NC),如下:

    其中 Ks(u) 是顶点 u 的 K-shell 值,NC (v) 是顶点 v 的 Neighborhood Coreness,表示其所有邻居的 K-shell 值之和。通过同时考虑所有邻居的 K 壳中心性,Neighborhood Coreness (NC) 方法能够根据节点的传播能力对节点进行适当的排序。类似地,扩展邻域核心度(ENC)或扩展核心度可以递归定义如下:

  刘等人。 [23]论证了真实网络中类核群的存在,并在网络的K壳分解过程中引入了真实核和类核群的不同链接模式,并找到了冗余链接。在消除这些链接并对剩余网络使用 K-shell 方法后,他们为每个节点导出了一个新的核心指数,以找到其传播能力 [24]。王等人。 [25]在 K 壳分解的每个阶段引入 K 壳迭代因子,以区分同一壳中存在的节点的传播能力。在[26]中,王等人。提出了一种基于邻域位置的排序算法,用于查找网络中的传播器节点。他们在K-shell方法的迭代中引入了熵方法,来捕获节点位置及其邻域的影响,以估计节点的传播能力。他们的方法已被证明优于 K-shell、MDD 等几种著名算法。

    网络社区建设[27]可以帮助识别网络的重要部分,这些部分将成为信息传播的重要地点。社区建设从种子节点集开始,它是网络的一小部分,并使用各种方法在进一步迭代中增加其规模[28]。人们已经提出了多种算法来选择社区构建算法中的种子集,例如标签传播[29]、位置感知 PR 树影响 CSS 算法[30]。基于社区的算法还可以用于对图中的相似节点进行聚类,例如,在社交网络中查找具有相同爱好和兴趣的人。

2.1. VoteRank

    张等人。 [31]引入了 VoteRank 中心性来根据投票方案的概念来识别多个传播者。每个顶点 v ∈ V 都与一个元组 (Sv, Vav) 相关联,其中 Sv 表示顶点 v 的投票得分,Vav 表示顶点 v 的投票能力。投票得分 Sv 是从其相邻邻居获得的,可以通过添加以下公式来计算:所有邻居的投票能力,即

 其中 N(v) 是 v 的邻居。VoteRank 中心性由四个阶段组成:

(i) 初始化阶段:每个顶点v用一个元组(Sv, Vav)初始化为(0, 1),即每个节点的投票得分为0,其投票能力为1。

(ii) 投票阶段:投票将在此阶段进行,每个节点 v 获得的选票是其直接邻居投票能力的总和。如果没有提前选择,获得最多投票的节点可以在本轮中被选为传播者。所选节点的投票能力将被设置为零,这确保该所选节点不会参与后续轮次的投票。

(iii)更新阶段:为了从相距较远的位置选择传播者,所选传播者的相邻节点在下一次迭代中其投票能力的值降低。当选传播者的邻居的投票能力应该降低为 Vav = Vav − δ,(如果 Vav > δ,否则为 0),其中 δ = 1/〈k〉 且 〈k〉 是平均程度网络中的节点。

(iv)迭代阶段:重复步骤(ii)和(iii)直到c个节点被选为传播器,其中c是常数。与 Degree、Cluster Rank、H-index 和 K-shell 等中心性相比,VoteRank 中心性具有较高的准确性。它根据投票方案选择一组传播者,其中每个节点从其邻居那里获得平等的投票,因此节点的度是选择的重要标准。但实际上,即使一个节点的度数较低,但位于网络核心,也可以在信息传递中发挥至关重要的作用[20]。

2.2. WVoteRank

  孙等人。 [32]提出了WVoteRank方法,通过考虑邻居的数量和每条边的权重,在加权网络的情况下扩展VoteRank方法的思想。许多真实的网络,如道路网络、电子邮件通信,都是加权网络,其中边权重表示节点之间交互的距离或程度。基于邻居数量的概念,每个邻居 i 的投票能力为 Vai,节点 v 与其邻居 i 之间的边权为 w(v, i),v 的投票得分 Sv 可以计算如下:

 其中 |N(v)|是节点 v 的邻居数量。WVoteRank 方法的传播者选择和更新投票能力与 VoteRank 方法完全相同。 WVoteRank 方法也可以应用于未加权网络,将边权重 w(v, i) 设为 1,因此投票得分 Sv 可以评估如下:

 3. Proposed work

  最近引入了基于投票排名的中心性方法来寻找种子节点。它根据投票方案选择一组传播者,其中每个节点从其邻居处获得投票,并且每个节点的投票能力相同。但我们认为,每个节点的投票能力应该不同,并且取决于其在网络中的拓扑位置。我们提出了一种基于核心的 VoteRank,称为 NCVoteRank 中心性,通过在投票时考虑邻居的核心值来寻找传播者。每个节点 v ∈ V 与一个元组 (Sv, Vav) 相关联,其中 Sv 和 Vav 分别表示节点 v 的投票分数和投票能力。投票能力(Vav)是指节点v将给予其邻居的投票权。投票分数Sv,从其相邻邻居获得,可以通过添加它们的投票能力来计算,与等式1相同。 (4),即 Sv = Σ i∈N(v) Vai,其中 N(v) 是节点 v 的相邻邻居的集合。与基本 VoteRank 类似,它也有四个阶段:

(i)初始化阶段:每个节点v用元组(Sv,Vav)初始化为(0, 1),即每个节点的投票得分为0,其投票能力为1。

(ii) 投票阶段:基于网络核心节点可以极大地影响信息传播的概念。我们将每个节点的投票能力与其邻域核心度(NC)值相乘。每个节点 v 通过以下等式获得其直接邻居投票能力总和的投票:

其中 θ 是控制参数,在 0 和 1 之间变化,NC (i) 是顶点 i 的归一化邻域核心度,其中顶点 i 是节点 v 的直接邻居。需要进行归一化,因为邻域核心度的值可能具有缩放比例问题的大小差异很大。为了标准化,我们使用了标准分数。列表中变量 x 的标准分数的方程为:

 其中 xmin 和 xmax 分别是列表中的最小值和最大值。如果 θ = 1,

v 的投票得分等于其所有邻居投票能力的总和。在这种情况下,NCVoteRank 与基本 VoteRank 相同。

 这里,节点v的投票得分(Sv)等于其直接邻居的投票能力和邻域核心度的乘积之和。以这种方式,节点的投票得分值可以在其所有邻居的投票能力之和与其直接邻居的投票能力和邻居核心度的乘积之和之间变化。如果之前没有被选中,则获得最多投票的节点可以在本轮中被选为传播者。此外,该节点不会通过将其投票能力设置为零来参与进一步的投票。

(iii)更新阶段:为了实现网络中信息的最大覆盖,应该从不同的位置选择传播者。我们假设当一个节点被选为传播者时,它可以影响其邻居最多两跳。 δ 因子将降低与所选分布器距离为 2 以内的所有邻居的投票能力。在下面的等式中,Vav表示邻居节点更新后的投票能力。

k 是网络中节点的平均度,d 是所选节点与其所有更新邻居之间的距离,最多两个距离单位(即 d = 1, 2)。因此,当一个节点被选为传播者时,距离为 2 的所有邻居的投票能力都会根据等式 1 进行更新。 (9)。 d 的值不是随机选择的。相反,我们将所有更新的邻居减少到距离为 2。它有助于确保从网络中的不同位置选择传播者。

 (iv)迭代阶段:重复步骤(ii)和(iii)直到c个节点被选为传播器,其中c是常数。

传播模型:在本手稿中,随机易感感染恢复(SIR)模型[33,34]已用于估计所提出方法的性能。该模型将输入作为传播者列表,即网络节点的子集、感染概率 (β) 和恢复概率 (γ)。在该模型中,易受影响的节点表示可能从周围环境接收信息的节点;受感染的节点表示在任何时刻携带信息的节点,而恢复的节点表示已将其拥有的信息传输到易受影响的节点。对于一般情况,γ取值为1,这意味着任意时间戳t,所有被感染的节点在向易受影响的节点传输信息后,将在随后的时间戳t+1开始进入恢复状态,不再继续传递。再次信息;此外,他们不会再次被感染。感染概率值选择高于流行阈值(βth)。在 t = 0 时,有影响力的传播者的输入列表被认为是受感染的,并且随着每个连续的时间戳,所有受感染的节点都以概率 β 感染其邻居,即,随机选择 p 个邻居节点受到影响,其中 p 是小于的最大整数大于或等于该受感染节点的邻居总数的 β 倍。由于模型中存在随机性,整个过程需要运行多次,并且结果应该对模拟次数进行平均。

4. Performance metrics

本文选择的性能指标主要侧重于衡量网络中的覆盖范围、影响力和各种选定的传播者。我们使用以下参数:

(i) 感染规模,F(t):在每个时间步,网络中当前感染节点数量的规模发生变化。感染级别是当前时间戳内系统中受影响的节点数量。在任何时候,受感染的传播者都会将信息传输到易受影响的节点,然后自身就会恢复。感染规模迅速增加,达到峰值后下降,因为大多数节点已经被感染,目前正处于恢复阶段。优秀的传播者能够迅速达到高感染水平。以下公式计算感染等级 F (t):

其中nI(t)、nR(t)、n分别表示t时刻的感染节点数、恢复节点数和节点总数。 

(ii)最终感染规模或恢复节点总数,F(tc):我们使用SIR模型作为信息传播模型,其取初始感染节点数(c)、感染概率(β)和恢复概率( γ ) 作为参数。这里,γ 是受感染节点恢复的速率。在网络中,当节点在时间 t 接收到信息或被感染时,它们只能将信息传输给具有感染率的相邻邻居。传输信息后,在时间 t+1 这些节点进入恢复状态,此后这些节点不再参与信息扩散。一般来说,我们取γ值为1,这意味着任何阶段的所有被感染节点在后续阶段都进入恢复状态。因此,最终感染规模或恢复节点总数可以定义为在SIR模型模拟过程中网络中已被感染并在下一阶段恢复的节点总数的一部分。下面的等式

计算最终的感染规模 F (tc ),其中 nR(t) 和 n 分别表示 SIR 模型模拟结束后恢复的节点数和节点总数。在这里,我们要提一下,如果 SIR 模拟在时间 tc 结束,那么最终感染规模将统计信息传播过程中所有已被感染并在后续轮次中恢复的节点,直到时间 tc 。

 (iii) 传播器之间的平均距离 (Ls):传播器节点在网络各个部分的多样化分布至关重要,以确保信息的最大覆盖范围。如果分布器节点彼此靠近聚集,则网络的其他部分将不受影响。所选的两个吊具之间的距离越大,我们期望的覆盖范围就越大。扩展器的多样性可以通过计算扩展器节点vi和vj之间的最短路径的长度来确定。设节点 vi 和 vj 之间的距离为 Dij,选择的吊具节点数量为 c。然后我们可以使用以下等式计算平均最短路径的长度(Ls):

 Ls 值越高,表明传播者是从不同的位置中选择的,这会导致影响力最大化。

(iv) Kendall 的 tau 值:与影响力最大化相关的每个算法都会按照影响力降序生成传播者的排名列表。测量节点影响力的最自然方法是测量网络中的感染度,这是通过将该节点作为单个初始传播者来发生的。然后可以根据它们在系统中单独产生的影响对颂歌进行排名。如果排名算法生成的排名列表与上述排名列表类似,则可以声称该排名算法是有用的。 Kendall 的 tau 相关系数用于检查这两个排名列表之间的相似性。如果我们有 RankList-A 和 RankList-B,如果节点 vi 出现在 RankList-A 中的节点 vj 之前,那么它也应该出现在 RankList-B 中的节点 vj 之前,因为这两个排序列表是相似的。两个列表之间所有此类匹配对的计数可以测量列表之间的总相似度。两个列表中的匹配对称为一致对(Nc),不匹配的称为不一致对(Nd)。当 Nd > Nc 时,Kendall tau 系数的值为负值,并且列表被称为不相似。当 Nc > Nd 时,系数为正值,表示相似性。取值范围在(−1,1)之间。如果 N 是每个列表中的节点总数,则 Kendall 的 Tau 由以下公式给出:

值得注意的是,Kendall 的 Tau 衡量的是两个列表中的排名顺序,并不是算法性能的总体衡量标准。实际性能可能会有所不同,特别是在基于一组协同工作的节点性能的系统中,因为 Kendall’s Tau 中的排序仅关注个人性能而不是联合团队工作。

5. Datasets and toy network

为了测试我们提出的方法,我们使用了不同类型和大小的社交网络数据集。我们选择的数据集涵盖了网络展示的大量各种图形属性,这将公正地阐明算法的性能。这里提到的大部分数据集均来自 SNAP [35],这是一个社交图谱数据库,由斯坦福大学的教师和学生编译。使用的数据集描述如下,其属性列于表1中。

1.亚马逊[36]:包含亚马逊社区内共同购买信息的社交图谱。共同购买是指受到其他人对同一商品的购买影响的购买。

2. PGP [37]:PGP(Pretty Good Privacy)包含 Pretty-Good-Privacy 算法用户之间的信任、连接和交互网络的边缘。

3. Facebook Social [38]:这是一个众包数据集,包含有关 Facebook 上的人的社交圈的信息。

4. 海豚社交网络[39]:这是一个无向的海豚社交网络,描绘了 62 只海豚之间的互动。

5. 安然邮件 [40] 安然社区中的电子邮件交互,包含超过一百万封电子邮件的信息。

6.互联网[41]:互联网数据集包含由边界网关协议表构建的互联网结构。

7. Cond-Mat [42]:这是一个研究人员之间关于凝聚态物质主题的共同作者网络。 8.爵士音乐[43]:代表爵士音乐家网络中互动的数据集。

玩具网络 - 为了揭示我们算法的有效性,我们使用图 1 中所示的 28 个节点的玩具网络,其中很容易可视化传播器节点的选择。图中还显示了每个节点获得的投票分数及其在所提出的方法下的投票能力。玩具网络的设计目的是比较每个节点在不同中心性下的得分,并展示其子图中的各种结构特性。它可以帮助我们轻松地根据我们的算法判断选择。在该网络上运行我们的算法会选择节点 D(以粉色标记)作为第一次迭代中的传播者。

表2列出了每个节点使用不同方法(例如K-shell、PageRank(PR)、Neighborhood Coreness(NC)、Normized Neighborhood Coreness(Norm.NC)、VoteRank、WVoteRank和NCVoteRank)的得分或中心性值,其中使我们能够识别每种方法下的最佳节点。使用等式计算各个节点的 NCVoteRank 值: (7) θ取值为0.25。

   在第一次迭代中,虽然节点 G 的 PageRank、VoteRank 和 WVoteRank 值最高,但节点 D 的 NCVoteRank 值最高。因此,根据我们的技术,选择节点 D 作为传播者,通过查看其在网络中的位置,这是更合适且更好的选择。在玩具网络中,平均。节点度,〈k〉 = 2.214。因此,1 〈k〉 = .4516,1 2〈k〉 = .2258。使用等式(1),距离 D 1 的节点(例如 A、B、C、E、O、M、N、O)的投票能力(Va)将减少 1 〈k〉。 (9) 他们的新投票能力为 = 1− 1 〈k〉 = .5483。距 D 2 距离的节点(如 H、I、J、L、P、Q 、R、S、T、F)的投票能力(Va)将减少 1 2〈k〉,其新的投票能力 = 1 − 1 2〈k〉 = .7742。

   

    图2描绘了在上一次迭代中选择节点D作为传播者后每个节点的投票得分和投票能力。在第二次迭代中,节点 G 使用 NCVoteRank 方法获得了最高分。因此,选择它作为吊具。类似地,根据投票得分的最高值,可以在后续迭代中选择不同的节点作为传播者,并且最多两个距离的所有邻居的投票能力将得到更新。当一个节点被选为传播者时,它的投票能力被设为 0,这意味着它不会参与后续轮次的投票过程,因此 2 距离以内的所有 ts 邻居的投票得分都会降低。这确保了可以从网络内的不同位置中选择传播者。

6. Results and analysis

   根据第 4 节中提到的所有参数,进行了测试。我们使用 PageRank [14]、K-shell [20]、扩展邻域核心度或扩展 Corenes [22]、VoteRank [31] 和 WVoteRank [32] 等当代中心性度量来检查我们提出的 NCVoteRank 方法。该调查已在表 1 中列出的八个不同性质、应用程序和规模的现实世界网络中进行。我们使用 SIR 模型来计算最终感染规模 (F (tc )) 作为时间 (t) 的函数以及最终感染规模 (F (tc )) 作为传播者分数的函数。由于该模型中存在随机性,整个过程运行了 100 次模拟,并对模拟次数的结果进行平均。文献中,感染率(β)选择在流行阈值(βth)之上,并且对于选择该阈值没有固定的标准值。流行病阈值βth1=1〈k〉和βth2=〈k〉〈k2〉的不同取值,其中〈k〉、〈k2〉分别表示所有节点的平均度和二阶平均度。为了简单起见并保持所有数据集分析的一致性,我们选择感染率(β)为 0.1,这意味着当一个节点被感染时,它可以随机感染其邻居的 10%。由于大小不同,不同数据集的传播者分数的值保持不同。在 SIR 模型中,不失一般性,我们将恢复率 (γ) 保持为 1,这意味着当节点在时间 t 比下一个时间 t + 1 被感染时,它会进入恢复状态并且不会做出任何贡献后续阶段的信息传播。

6.1. Final infected scale (F (tc )) vs. time

   

     图 3. (a)–(h):对于所有数据集和不同传播者比例,在相同感染率 (β) = 0.1、调整参数 (θ) = 0.5 下,八个网络的最终感染规模 (Ftc) 与时间正如每个图中所提到的。

   图 3 绘制了在给定感染率和传播者比例下,不同网络数据集的最终感染规模与所用时间的关系。最终感染规模 (F (tc )) 使用方程式计算。 (7)控制参数(θ)取0.5。 NCVoterank 方法中控制参数 θ 的值决定了节点的投票能力与邻域核心度值以多大比例求得最终得分。 θ 的值取为 0.5,与其他 θ 值的选择相比,它提供了最佳性能。最终的感染规模是信息从最初的传播者集合开始传播的网络部分。不同的撒布器分数已用于不同的数据集。由于较小的图具有较少的节点数量,因此与较大的图相比,小图的初始分布器分数被设置得较高。对于像 Dolphin 和 jazz 这样的较小数据集,分别选择 0.1、0.2。对于相对较大的数据集,例如 CondMat、PGP 和传播者分数的互联网值,取 0.005。例如,CondMat 共有 n = 23 133 个节点;因此,初始传播者为 0.005 * 23 133 = 115。对于安然数据集,传播者分数选择为 0.003,对于 Facebook 社交,选择为 0.03,而对于亚马逊数据集,则保留 0.0001。从图 3 中可以清楚地看出,NCVoteRank 方法优于所有其他模型 - VoteRank、WVoteRank 以及 K-shell、PageRank 和 Extended Coreness 等经典度量。

6.2. Final infected scale vs. fraction of spreaders

 

 图 4. 所有数据集在相同感染率 (β) = 0.1 和控制参数 (θ) = 0.5 下,相对于传播者分数的最终感染规模。

  图 4 进一步显示了初始传播者数量的变化对最终感染规模的影响,最终感染规模是使用方程 1 计算的。 (7)控制参数(θ)取0.5。该图显示了在两个较小的网络(即 Dolphin 和 Jazz Music)上,F (tc ) 相对于传播者分数的结果,范围从 0.025 到 0.20,而在其他剩余数据集上,其范围从 0.005 到 0.040。我们注意到,在一些图中,其他方法(如扩展核心度、VoteRank 和 K-shell)在更改初始扩展器分数方面的性能不一致(图 4(a)、(b) 和 (e))。在 Dolphin 和 Internet 数据集的情况下,VoteRank 的表现略好于 NCVoteRank,但在其余情况下,NCVoteRank 的表现优于其他方法。随着初始传播器数量的增加,NCVoteRank 始终表现良好,并且比其他方法具有更好的扩展性。由此我们可以得出结论,NCVoteRank 的选择质量并不会随着传播者数量的增加而降低。因此,我们可以预期 NCVoteRank 也能在更大尺寸的图表中展示其功能。

6.3. Kendall tau (τ ) matrix

 

 表 3 列出了使用各种方法和 NCVoterank 得出的 Kendall tau 相关系数值。我们根据节点在多次 SIR 迭代中的平均性能对节点进行了排名。传播者选举排名是根据中心性指标预先计算的。我们计算两个排名列表共有的节点的肯德尔 tau 值。为了进行模拟,我们选择与计算图 3 中恢复的节点图相同数量的初始传播者。感染率 (β) 的值已设置为 0.1,控制参数 (θ) = 0.5。正如我们在 6.1 节中得到的优化结果,即 θ = 0.5 上的“最终感染规模与时间”,因此,为了保持评估的一致性,我们使用相同的 θ 值。对于任何算法,肯德尔 tau 系数通常会在较小的图上获得较高的值。由于 Kendall 的 tau 主要基于根据节点性能对节点进行排名,因此对于 NCVoteRank、WVoteRank 和 VoteRank 等协作排名系统,我们得到了不同的结果,因为它们更关注节点的协作性能。我们希望引起人们的注意,我们的算法如何始终比其他方法表现得更好。

6.4. Average shortest path length between spreaders (Ls)

     最终感染规模 (F (tc )) 以及所选传播者的影响也取决于它们的相对位置。如果所选择的吊具是从不同的位置中选择的,那么它会导致最大值。表 4 列出了平均值使用各种方法和 NCVoterank 来计算所选扩展器之间的最短路径长度 (Ls)。为了计算 Ls 值,所有数据集的感染率 (β) 均设为 0.1,控制参数 (θ) 设为 0.5。由于我们在 θ = 0.5 的情况下得到了“最终感染规模与时间”的优化结果,因此,我们在这里保留相同的 θ 值以保持评估的一致性。传播者分数对于 Dolphin 设置为 0.2,对于爵士音乐设置为 0.1,对于 CondMat、PGP 和 Internet 设置为 0.005。对于Enron 数据集,选择0.001,对于Facebook Social 0.03,对于Amazon 数据集保留0.0001。

   

从表 4 中我们可以看到,在测量网络中吊具之间的平均最短路径距离时,NCVoterank 优于所有其他指标。在该指标中获得更高的值意味着我们的算法在选择不同位置的吊具时可以做出更好的选择。这将确保信息的最大传播已感染节点之间的重叠最小。具有高平均节点度的图的 Ls 值通常小于其他图,因为具有高度的图,节点之间可能有更多的连接,因此更有可能在两个传播器节点之间找到更短的路径。

   基于各种性能参数的结果,例如最终感染规模与时间的关系(图 3)、最终感染规模与传播者比例的关系(图 4)、Kendall tau (τ )(表 3)以及平均最短路径长度(Ls)之间的传播者(表4),很明显,所提出的方法从合适的地点和不同的位置找到传播者或种子节点,从而在网络中很大程度上覆盖信息。由于系统中较好的连通性和拓扑位置,有影响力的用户对于信息传播起着至关重要的作用。同样,此类用户的角色对于阻止信息传播至关重要。现在,在控制谣言的情况下,我们可以使用所提出的方法NCVoteRank找到系统中的突出用户,并通过调节这些用户,可以将信息限制在网络中较小的范围内。因此,通过监控有影响力的用户可以有效地控制谣言。

NCVoteRank 的计算复杂度:

   NCVoteRank 的时间复杂度包括三个阶段。我们将网络数据集表示为 G = (V , E),其中节点总数 |V | = n 和边总数 |E| = 米。

  1.初始化阶段:初始化n个节点的投票能力的时间需要O(n)时间。为了找到一个节点的投票分数,我们需要添加其所有邻居的投票能力。因此,计算所有节点的投票分数需要 Σ vi ∈ V di = O(m + n) 次,即网络中所有节点的度之和等于节点总数和边总数之和存在于系统中,其中 di 表示节点 vi 的度。因此,第一阶段的时间复杂度为O(n+m)。

2. 传播者的选择:每轮投票得分最高的节点将被选为传播者,需要 O(n) 时间。此外,可以在O(cn)时间内选择总共c个扩展器,其中c是常数。

3. 更新投票能力和投票分数:更新所选节点距离以内的所有邻居的投票能力和投票分数可以在 O(c〈k2〉) = O(c ∗ m2/n2) where 〈k 中完成〉 是网络中节点的平均度。

因此,总时间复杂度为 O(n + m + cn + c ∗ m2/n2),其中 c 是一个常数,并且远小于节点总数 (n),即 c≪n。一般来说,社交网络是一个稀疏网络;我们可以假设 O(m) = O(n)。因此,NCVoteRank 的总体时间复杂度为 O(n)。

7. Conclusion

     在这篇手稿中,我们介绍了一种新颖的中心性方法 NCVoteRank 来选择具有线性运行时间的传播器节点。该方法的本质是考虑到邻域核心度值越高的节点在传播者节点的选择中应该拥有更多的选票,而不是使每个节点的投票能力相同,而不管其在网络中的拓扑位置如何。为每个节点分配投票分数,然后选择得分最高的节点作为传播者,然后更新其邻居的投票能力最多两个距离的新颖方法使得能够从网络中的不同位置找到传播者。因此,所提出的方法成功地基于位置参数维持了传播器节点的多样化分布。此外,我们调查了各种现实世界的数据集,并评估了它们的流行中心性度量。与其他研究方法相比,我们的方法实现的最终感染规模显示出显着的改善。 NCVoteRank 的 Kendall tau 相关系数说明了其有用性,因为它与节点的实际传播能力具有良好的相关性。我们通过优化这组分布器节点来实现最佳性能,这些节点作为一个团队战略性地工作,以超越专注于最大化单个节点性能的算法。此外,增加传播器的数量并不会降低我们算法的性能程度,尽管经过实验发现它会影响其他算法。这项工作可以进一步扩展到具有特定参数的加权网络上进行测试,例如在基于信任的[44]网络和微博网站中,我们可以从边缘权重中获取影响信息并确定信息通过网络传播的路径。

  • 12
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值