FIP: A fast overlapping community-based influence maximization algorithm using probability coefficie

 ABSTRACT

  影响力最大化是从复杂网络中识别一小组有影响力的节点以最大化激活节点数量的过程。由于选择种子集的准确性、稳定性和时间复杂度等关键问题,近十年来提出了许多研究和算法。然而,大多数影响力最大化算法都面临着缺乏最佳种子节点选择、影响力传播不合适、时间复杂度高等重大挑战。本文旨在通过减少搜索空间来降低时间复杂度来解决上述挑战。进一步考虑社区结构特征、社区内和社区间重叠节点和枢纽节点的扩散能力以及全局扩散的概率系数,选择影响力传播更为优化的种子节点。所提出的算法称为FIP算法,主要检测重叠社区,对社区进行权重,分析社区节点的情感关系。此外,选择种子节点的搜索空间因删除无关紧要的社区而受到限制。然后,利用全局扩散概率的影响生成候选节点。最后,衡量重要节点的作用以及社区中重叠节点的扩散影响,以选择最终的种子节点。现实世界和合成网络中的实验结果表明,所提出的 FIP 算法在效率和运行时间方面显着优于其他算法。

1. Introduction

  随着信息技术的发展,社交网络的使用越来越广泛。社交网络被视为分享想法、新闻和任何信息的服务器。人们通过网络广泛而轻松地进行互动。由于在社交网络中与其他人建立了更多的关系和协作,个人的行为(例如购买特定产品)可能会影响其他人(Berahmand、Bouyer 和 Samadi,2018 年;Bouyer、Azad 和 Rouhi,2022 年;Singh、Kumar) ,辛格和比斯瓦斯,2019)。因此,社交网络已成为当今世界扩展信息的有力工具,是企业和网络营销的重要来源。例如,公司可以通过选择一些人免费使用其产品来在社交媒体上创建广泛的广告级联。因此,公司必须选择对该产品接受效果最大的用户,并将其推荐给其他人。因此,选择在社交网络上具有高信息级联的最有影响力的人是一个重要的问题。影响力最大化问题被提出作为一种选择有影响力的人的方法,这些人可以帮助公司的商业、改进推荐系统、控制谣言传播、确定免疫或隔离目标以预防人群中的流行病(Cherif、Palla、西曼斯基和卢,2019;龚等,2013)、网络监控等。近年来,一些研究人员吸引了影响力最大化的问题(Aghaee、Beni、Kianian 和 Vahidipour,2020;Kazemzadeh、Karian、Safaei 和 Mirzarezaee,2021)。值得注意的是,多明戈斯和理查森首先引入了影响力最大化问题(Domingos & Richardson,2001)。然后,肯佩等人。开发并表述了这个问题,并证明它是一个 NP 难问题(Kempe、Kleinberg 和 Tardos,2003)。因此,影响力最大化问题是指选择社交网络中具有最高影响力传播的最小 k 个节点。同样,独立级联模型和线性阈值限制是影响力最大化问题中的两种流行模型。扩散概率是扩散模型中的一个重要参数,表示一个节点影响另一个节点的概率。此外,影响最大化问题在独立级联和线性阈值模型中具有子模块性和单调性(W. Chen、Wang 和 Yang,2009)。

    最近,研究人员研究了基于社区检测方法的影响力最大化问题。最近,提出了许多具有线性时间复杂度的本地社区检测算法(Aghaalizadeh, Afshord, Bouyer, & Anari, 2021; Bouyer & Roghani, 2020; Zarezadeh, Nourani, & Bouyer, 2021),用作 IM 问题的预处理步骤。这些算法比贪婪算法更有效,因为影响力传播的计算仅限于社区(Aghaee、Ghasemi、Beni、Bouyer 和 Fatemi,2021)。然而,基于社区的检测算法有几个缺点:1.这些算法不能考察社区结构的全局扩散概率,而社区全局扩散概率的考察必须作为一个重要指标来衡量。 2. 这些算法没有考虑任何减少选择种子节点的搜索空间的方法,而在大规模社交网络中应该减少搜索空间来提高效率。 3. 它们没有考虑社区的拓扑特征来计算影响力传播,同时通过检查社区的拓扑特征来发现适合影响力传播的社区。 4. 大多数算法都会检查具有核心角色的节点来选择最终的种子节点,而在种子节点的最佳选择中不会检查其他节点(例如枢纽节点或桥接节点)的角色(Samadi&Bouyer,2019)。例如,PHG 算法尽管本质简单,但在大规模网络上可能非常耗时。由于算法必须在每次迭代时检查所有社区,因此由于搜索空间较大,运行时间会增加。因此,提出FIP算法来解决独立级联模型下基于社区影响力最大化的弊端。新算法在运行时和影响力传播上比近年来开发的算法更加高效。该方法基于重叠社区的检测,包括两个一般阶段。在第一阶段,使用 LPANNI 算法(Lu,Zhang,Qu,&Kang,2018)来检测重叠社区。每个社区的权重是通过社区的拓扑特征和社区节点的情感关系分析来确定的。接下来,通过计算 θc 准则来限制搜索空间,从而删除不重要的社区。第二阶段通过考察社区内的扩散概率和社区外的扩散概率系数来选择候选节点。然后,从候选集合节点和最佳重叠节点中选择种子节点。总而言之,我们在本文中的主要贡献是:

   1. 针对影响力最大化问题,提出了基于重叠社区的FIP算法。在社区过滤阶段限制搜索空间,以提高运行时效率。因此,该算法适用于大规模网络。

2. 该算法通过对节点情感关系的分析,根据社交互动力来考察适合影响力传播的社区。该步骤对种子节点选择的质量有一定的影响。

3.根据FIP算法,根据邻居结构和节点在社区中的角色来选择种子节点。有时,重叠的节点可能在影响力的传播中发挥关键作用。因此,该算法在蒙特卡罗模拟中极低频率下选择种子节点的精度明显较高,而现有的其他方法在蒙特卡罗模拟中低频下选择种子节点的精度很低。

4. 我们对社交网络的真实和合成数据集进行全面测试。

获得的结果显示了 FIP 算法与其他比较方法相比的效率。本文的其余部分安排如下。第 2 部分包含对文献的有价值的回顾。第 3 节提供了所提出方法的详细描述。第 4 节讨论了所提出算法的实验评估,第 5 节得出了本研究的结论。

2. Related work

  随着社交网络的进步,许多学者关注影响力最大化问题。本课题的相关研究分为两类:

1. 基于扩散的算法 2. 启发式算法

这些分类算法在 2.1 和 2.2 小节中进行了简要解释。

2.1. Algorithms based on diffusion

   Domingos 和 Richardson 首次提出影响力最大化作为一种​​算法方法(Domingos & Richardson,2001)。后来,Kempe 发展并制定了影响力最大化(Kempe et al., 2003)。他们开发了贪婪算法,该算法使用蒙特卡洛模拟计算每个节点的影响力分布(Kempe 等人,2003)。贪心算法保证了最优近似,但由于蒙特卡罗模拟需要贪心算法大量迭代,因此在大规模网络上效率较低。因此,莱斯科维奇等人。开发了CELF算法,该算法使用惰性评估来减少影响扩散计算(Leskovec,Krause等人,2007)。然而,由于在大量迭代中使用蒙特卡罗模拟,CELF算法仍然效率低下。陈等人。开发了 NewGreedyIC 算法,该算法使用一组可用节点计算每个节点的影响力分布。此外,Chang 等人。提出了 StaticGreedyDU 算法来提高 NewGreedyIC 算法的运行时间(Cheng、Shen、Huang、Zhang 和 Cheng,2013)。然而,StaticGreedyDU 算法不需要有效地找到最佳种子。戈亚尔等人。开发了一种 SIMPATH 算法,该算法通过限制简单路径计数来选择种子节点[19],以加快影响力传播计算。 SIMPATH 算法在选择 K 节点种子方面具有出色的运行时间和较低的内存开销,但不能保证最佳逼近。此外,SRFM 被提出作为一种基于 shell 的排序和过滤方法,用于选择最佳种子集,目的是在近线性时间复杂度中最大化影响力(Ahmadi Beni & Bouyer,2021)。它首先过滤外围节点和来自不重要外壳的一些节点。 MIA算法由Wang等人提出,是一种可扩展的算法,使用树状树在本地计算影响力分布(C. Wang, Chen, & Wang, 2012)。 MIA 算法具有良好的运行时间,因为它无需使用蒙特卡罗模拟即可执行影响扩散计算。该算法的另一个弱点是其高内存开销。

2.2. Heusteic algorithms

   陈等人。提出了 DegreeDiscount 算法来提高 NewGreedyIC 算法的运行时间,该算法最初选择度数最高的节点作为种子的第一个节点。然后,它通过降低邻域中具有种子的节点的度数来选择种子节点(W. Chen 等人,2009)。 DegreeDiscount 算法不保证最优近似,但与 Greedy、CELF 和 NewGreedyIC 算法相比,它具有出色的运行时间。然后,纳拉亚南等人。开发了 SPIN 算法,该算法使用 Shapley 值来计算每个节点的影响力分布(Nar ayanam & Narahari,2010)。该算法具有良好的运行时间,但不能保证最佳逼近。然后,Kitsak 等人。开发了 Kcore 算法,指定图中的核心节点和外围节点,并将核心节点视为种子节点(Kitsak 等人,2010)。张等人。开发了基于投票的 VoteRank 算法(J.-X.Zhang、Chen、Dong、&Zhao,2016)。由于主要关注快速运行时间,该算法在选择种子节点方面也没有适当的质量。此外,该算法不具有子模块性。然后,陈等人。开发了一种基于社区检测的 CIM 算法(Y.-C. Chen, Zhu, Peng, Lee, & Lee, 2014)。尽管CIM算法具有良好的运行时间,但它在识别合适的种子节点方面存在问题。然后,尚等人。开发了 CoFIM 算法,这也是一种基于社区的方法(Shang、Zhou、Li、Liu 和 Wu,2017)。其性能优于CIM。然而,CoFIM算法的运行时间取决于种子节点的数量。当时,莫罗尼特等人。提出了基于影响扩散计算本地化的 CI 算法(Morone, Min, Bo, Mari,& Makse, 2016)。该算法将圆内的影响力扩散计算限制在半径L内,但该算法的运行时间取决于L和种子节点的数量。此外,刘等人。开发了基于启发式方法的 LIR 算法(Liu,Jing,Zhao,Wang,&Song,2017)。在LIR算法中,根据邻居度计算每个节点的LI值,然后将LI值最低的节点集合按降序排序,并选择k个节点作为种子。此外,LMP 算法被提出作为一种局部快速方法,用于识别线性时间复杂度中有影响力的节点(Bouyer & Beni,2022)。它主要使用节点标记方法来减少搜索空间。在LMP算法中,在局部快速步骤中对节点进行排序后,选择具有最高排序标签的节点作为候选节点。然后,使用拓扑特征和候选连接器节点的战略位置来识别最终种子集。阮等人。开发了 ProbDeg,它使用节点的多跳邻居和传播概率来选择种子节点(Nguyen、Nguyen、Do 和 Yoo,2017)。该算法不提供近似保证。阿哈贾姆等人。开发了 HybridRank 算法,该算法根据特征向量中心性和核心性选择种子节点(Ahajjam & Badir,2018)。在该算法中,种子节点的选择避免了富俱乐部现象。萨克塞纳等人。基于个人的社交倾向和聚合产生社会中心性得分,开发了一种新颖的中心性衡量社会中心性的方法(Saxena、Kaur 和 Bhatnagar,2018)。 Wu 等人,提出 LAIM 作为一种线性时间迭代方法,用于解决大规模网络上的影响最大化问题(Wu 等人,2018)。该算法在大规模社交网络上具有较低的内存开销。班纳吉等人。开发了一种 ComBIM 算法,可根据社区预算选择种子节点(Banerjee、Jenamani 和 Pratihar,2019)。该算法不提供近似保证。

   李等人。 (W. Li、Zhong、Wang 和 Chen,2021)使用基于内聚熵 (CECOPA) 的社区重叠传播算法来检测网络中的重叠社区。然后,他们探讨了传播的动态性以及局部聚集因素对影响力扩散的影响,并利用可选动态影响力传播算法(ODP)提出了一种基于内聚熵的动态影响力最大化算法。此外,谢等人。提出了 MBIC 模型的 IRR 算法(Xie、Chen、Zhang 和 Liu,2019)。该算法将影响传播过程分为影响阶段和参考阶段两个阶段。该算法比 DegreeDiscount 算法具有更好的影响力传播。瑞等人。开发了 RNR 算法(Rui、Meng、Wang 和 Yuan,2019),该算法使用邻居来计算每个节点的影响力。邱等人。开发了一种使用基于社区的方法的 PHG 算法。它还使用贪心算法来影响价差计算(Qiu,Jia,Yu,Fan,&Gao,2019)。然而,影响范围和运行时间取决于贪心算法选择的种子节点的数量。加尔曼等人。开发了一种模块化中心性,该中心性具有二维向量(Ghalmane、El Hassouni、Cherifi 和 Cherifi,2019)。二维向量基于节点在其社区中的局部影响力以及对网络其他社区的全局影响力。林等人。基于线性阈值模型中的混合分布值累积算法改进了激活效果,该算法有两个阶段:价值贪婪阶段和爬山算法阶段(Lin,Zhang,Xia,Ren,&Li,2019)。王等人。提出了一种计算影响力扩散的新算法,该算法在独立级联模型中定义了节点吸引的概率。除此之外,节点吸引的概率是由节点属性设计的(G. Wang, Jiang, Li, & Wang, 2019)。加尔曼等人。提出了重叠模块化中心性,利用重叠和非重叠节点的局部和全局影响力来选择有影响力的节点(Ghalmane、Cherifi、Cherifi 和 El Hassouni,2019)。艾哈迈迪·贝尼等人。开发了一种基于社区的算法来检查社区中核心节点和其他节点的评分能力之间的关系(Beni & Bouyer,2020)。李等人。提出了一种新的信息传播传播速度模型(W. Li et al., 2020)。该想法基于以下事实:远离社交网络中的源,传播就会变弱。查克拉帕尼等人。提出了影响力最大化问题中的一个新问题,该问题是基于时间敏感的。此外,种子节点是在指定的时间限制内选择的(Chakrapani、Chourasia、Gupta 和 Haldar,2021)。李等人。提出高斯传播模型代替独立级联模型和线性阈值模型;该算法基于子模性改进了 CELF 算法(W. Li, Li, Luvembe, & Yang, 2021)。该算法在社区数量较多的网络中速度并不快。卡齐姆扎德等人。提出CTIM算法,该算法中影响力节点与高魅力力之间存在正相关关系。该算法使用局部和全局扩散来选择种子节点(Kazemzadeh、Safaei 和 Mirzarezaee,2022)。张等人。提出了基于网络动态 GCN 的 GCNM 算法,旨在调整社交网络的规模和神经网络的规模(C.Zhang, Li, Wei, Liu,& Li, 2022)。他们还实现了领导者假标签机制,为每个节点生成节点标签以进行模型训练。最后,根据学习到的节点表示,将具有较大影响力的节点集合识别为种子集。

   李等人。提出了基于异构关系嵌入的多重聚合的 MAHE-IM 算法,用于识别影响异构信息网络中全局和局部特征计算的传播的种子节点(Wei,Zhao,Liu,&Wang,2022)。李等人。基于群体动力学理论,将行为定义为需求与力量相互作用的结果,定义了用于选择影响节点的文本情感力量。 TFG 算法不会选择最优种子节点,因为 Greedy 和 Degree 比 TFG 算法具有更好的影响力传播(W. Li, Li, Liu, & Wang, 2022)。 LMP 算法提出选择有影响力的种子节点,为每个节点分配标签(Bouyer&Beni,2022)。冯等人。通过考虑细粒度折扣并假设用户概率性地接受折扣,提出了一种新方法(Feng et al., 2022)。然后,他们在他们的方法中定义并证明了一个新概念,称为集合友好悖论(FP)现象。查哈博尔吉等人。提出了基于易感感染者恢复(SIR)流行病模型的 TOPSIS 方法来检测使用流行病传播概率的种子集。他们的发现表明有影响力的节点在遏制 COVID-19 的传播方面具有绝对关键的作用(Chaharborj、Nabi、Feng、Chaharborj 和 Phang,2022)。李等人。提出了一种新的引力模型,根据 k 壳值和特征向量中心值等不同特征来识别有影响力的传播者。该算法中的影响扩散取决于截断半径,截断半径基于节点的邻域准则(Z. Li & Huang,2022)。王等人。提出LENC算法,通过节点的边权值计算信息熵值,用于选择有影响力的节点。此外,该算法还考虑了节点的一级边和二级边的扩散(B. Wang,Zhang,Dai,&Sheng,2022)。魏等人。提出了一种寻找目标免疫策略影响节点的新方法,他们发现介数、度、H指数和核心度在无标度网络中的疾病传播模型中具有重要作用(Wei et al., 2022)。库马雷特等人。提出了基于社区多样性、社区模块化和社区密度来检测有影响力节点的 CSR 算法,其中社区多样性取决于其与不同社区的边缘(Kumar、Gupta 和 Khatri,2022)。张等人。提出了 IM-NM 方法,根据高度重要的网络主题查找 k 个有影响力的节点(X.Zhang、Xu 和 Xu,2022)。在该方法中,通过定义结构稳定性水平、权重比和度密度概念来发现高度重要的网络基序。接下来,使用朴素贝叶斯算法对高重要性主题进行分类。最后,从选定的关键主题中识别出具有最佳桥梁和强大通信能力的 k 个影响力节点。尽管其计算时间较长,但与度中心性等局部方法或 BC 或 CC 中心性等全局方法相比,其感染能力并不令人满意。

3. The proposed method

   FIP算法是一种基于社区的影响力最大化问题检测方法,它利用社区权重和全局扩散概率有效地选择有影响力的节点。 FIP算法包括两个主要步骤: 1.社区的生成和优化; 2.生成一组候选节点并选择最终种子集。 FIP算法的步骤如图1所示。图1中a是基于LPANNI的社区发现。然后,在图1.b中,计算社区的权重。之后,在图1.c中,不适合影响力传播的社区被最佳地忽略。然后,在图1.d中,根据社区扩散的概率系数选择候选节点。最后,在图1.f中,节点从最佳的非重叠影响节点和重要性重叠节点中选择作为种子节点。

图 1. FIP 算法步骤的典型示例。

3.1. Community detection and reduction

   社区结构是社交网络的主要属性之一。在这些网络中,节点通常在集群或社区内以高密度连接,而集群之间的通信密度较低(Roghani&Bouyer,2022;Roghani,Bouyer,&Nourani,2021;Taheri&Bouyer,2020)。在影响力最大化问题中,发现社区结构有助于我们减少计算开销。在我们提出的算法中,LPANNI算法用于社区检测,这是一种众所周知的重叠社区检测算法(Lu et al., 2018)。 LPANNI算法基于节点重要性、标签更新策略和历史标签优选策略来检测社区,具有两个至关重要的特点:时间复杂度低和社区检测的稳定性。 LPANNI算法检测到社区后,识别出社区中的重叠节点。然后,根据等式(1)对社区进行加权。需要计算每个社区的权重,以了解该社区是否适合进行影响力计算。根据我们的实验,很多社区不适合进行影响力计算。有些社区适合影响力传播,因为这些社区中的节点可以将信息传播到其他社区。对于发现的社区结构,必须过滤掉一些不重要的社区,以避免从这些社区中选择种子节点。因此,不需要计算所有节点的影响力分布,社区。社会的拓扑结构和社区内节点的情感依赖对于决定影响力的传播非常重要。因此,必须有效地删除一些社区,以最佳地减少搜索空间并选择最有影响力的种子节点。因此,对于每个图G=(V,E),C={c1,c2,c3,⋯,cl}检测到社区,其中ci=(vc,ec)使得vc∊V和ec∊E,并且wc={ wc1, wc2, wc3, ⋯, wcl} 是计算出的社区权重。社区Ci的权重定义如下(wci):

  其中,eci 为社区 ci 内的边,eoi 表示社区 ci 与其他社区之间的边数,e 为网络中边的总数。此外,nci 为社区 ci 中的节点数,n 为节点总数。 vci 是社区 ci 中的一个节点,degvci 是其度数。在方程(1)中,提出了一种新的基于网络的表征,它根据网络的结构和特征来识别两个人的浪漫感情。而且,原则上,我们不仅仅提取方程(1)中的情感特征。如果离散度较高,则两个节点的情感关系较强,如果两个节点的离散度较小,则两个节点的情感关系较弱。

  此外,间接网络的相配系数由方程 (2) 定义如下(Newman,2003):

  其中degvci和degvcj分别是节点vci作为源的平均度和节点vcj作为目标的平均度。准则越高,社区中相似的节点被连接的越多,因此

在这个社区中信息的传播可以是最佳的。此外,disvci 代表了检查社区 ci 中情感关系数量的分散标准(Backstrom & Kleinberg,2014)。需要说明的是,子图Gvci是通过对每个节点vci进行情感关系分析而得到的,其中包括该节点vci的邻居。对于子图Gvci中的每个nodeu(Gvci是节点vci和vci的所有邻居),集合Cuvci是vci和其子图Gvci中的每个nodeu之间的所有公共邻居。因此,根据式(3),根据Cuvci集合中的每对节点计算离差,其中dv是Cuvci中节点的距离函数,s和t是Cuvci中的两个节点。当 s 和 t 不直接连接并且在子图 Gvci 中没有公共邻居时,距离函数 dv 为 1,否则等于 0 (Backstrom & Kleinberg, 2014)。

  越高作为衡量标准,指的是友谊的亲密程度,因此这个社区的信息传播才能达到最优。方程 (1) 的第一部分检查社区 ci 的拓扑标准以及节点和边的密度。第二部分表示社区节点的情感关系和依赖程度。在方程(1)中,节点和边的数量不能成为选择最优社区的良好特征。结果,具有最多情感关系和相似度的节点的社区被选择作为传播的最佳社区。

  通过CPM算法发现社区后,可以看到生成的社区数量较多。另一方面,存在一些弱社区,其影响力传播的节点较弱。因此,应该消除这种不重要的社区,以减少种子节点选择的搜索空间。社区缩减背后的主要思想是,没有必要的情感关系和密度的弱社区的影响力无法传播到其他社区的影响。因此,为了减少一些社区,阈值θc由方程(4)定义如下

  其中 denc,max 是最大群落的密度。 denc,max 的值越高,意味着有大量社区参与计算寻找有影响力的价差。如果 denc,max 的值较低,则说明参与下一步探索有影响力节点的社区数量较少。现有社区中,C={c1,c2,c3,⋯,cl}.,nc,max和nc,min分别表示最大和最小社区的节点数。 k表示种子节点的数量,A表示检测到的社区的数量。如果wci ≥ θc,则社区i适合后续探索和寻找有影响力的节点。下一步有可能没有选择种子节点。换句话说,其中一些选定的社区不一定拥有最好的种子。

 图 2. 不同 wc 的社区中的扩散量。 (a) 表示路线视图网络。每种颜色代表社区。 (b) 显示了 wc = 1.9 的社区中节点 A 的扩散量。蓝线是指社区中激活的、在网络上传播信息的节点。粉色节点表示节点 A 的扩散量。(c) 表示 wc = 0.001 时节点 B 的扩散量。蓝线是指社区中激活的、在网络上传播信息的节点。另外,粉色节点表示节点 B 的扩散量。(d) 表示 wc = 0.002 时节点 C 的扩散量。蓝线是指社区中激活的、在网络上传播信息的节点。粉色节点显示该节点的扩散量。

 图 2 显示了具有不同 wci 的三个社区的扩散量。在图2(a)中,每种颜色代表一个社区。例如,蓝色节点位于社区 1。黄色节点位于社区 2。在图 2 中,蓝线指的是社区中被激活以在网络上传播信息的节点。图2(b)、图2(c)、图2(d)中的该节点分别为节点A、节点B、节点C。图2(b)中粉色节点为激活的节点从图中可以看出,wc高的社区激活的节点数量较多。因此,具有较高 wci 的社区内的节点可以激活其社区内以及其他社区内的两个节点(图 2 (b))。然而,如图2(c)和2(d)所示,低wc社区中的节点只能激活其社区内的少数节点,因此此类社区中的扩散不会传播到其他社区中的其他节点。

  算法1的输出是找到适合扩散的社区。在算法 1 的第 2 行中,通过 LPANNI 算法发现社区,然后在第 3-5 行中为每个社区 ci 计算 wc。然后,在第 6 – 10 行中,删除了不重要的社区。对于每个社区 ci,如果 wci ≥ θc,则 ci 被添加到集合 Cb 中,其中 Cb 是一组适合探索有影响力节点的社区。

  图 3. 减少社区的示例

 我们提出的完全选择重叠节点的方法是不同的。它只选择一些特定的、重要的重叠节点作为候选节点的概率。为了证明这个问题,请注意图3中的示例网络。在这个示例中,我们有4个社区,每个社区的权重分别为wc1 = 0.25、wc1 = 0.21、wc1 = 0.151和wc1 = 0.165。此外,θc = 0.175 来寻找适合影响力传播的社区。根据 wc 和 θc 标准,社区 1 和 2 适合影响力传播,因为 wc1 > θc 且 wc2 > θc。此外,在影响力传播的计算中,社区 3 和社区 4 被忽略,因为 wc3 < θc 且 wc4 < θc。社区2和社区4的节点数相同,但FIP算法选择社区2来影响种子节点的传播和选择。可以看到,社区1、2、3、4中有4个重叠节点15、5、7、8。FIP算法选择社区1和社区2之间的重叠节点15作为重要重叠节点作为候选节点由于该节点作为两个社区核心节点之间的看门人,在网络的全局扩散过程中发挥着重要作用。显然,节点5和节点15的度相同,但根据FIP算法中的式(7),节点15比节点5具有更好的战略地位,将其添加到候选集中。

  在FIP算法中,根据式(6)、式7、式10和式11,对重叠节点评估了节点度、节点及其邻居节点的聚类系数等一些特征的影响。重叠节点的这些拓扑特征对影响力传播有显着影响。值得注意的是,具有高聚类系数的节点位于图中的密集区域,这些节点通常对全局扩散的影响较小。因为在这些节点中,共同邻居的数量非常多,这必然会导致密集区域的局部扩散,而无助于网络中的全局扩散。

   例如,假设一所大学的教职人员打算举办一次国际会议。如果会议官员只在学院工作人员中传播“征文通知”,他们就无法获得最佳的出版物,因为由于每个节点有大量的公共邻居,他们只能在网络的密集部分重复传播信息。为了避免现实世界中的这种自然现象,FIP 算法特别重视战略位置的重要重叠,这些重叠位于社区之间,作为信息传播的高速公路。但是DEIM算法只考虑连接到至少6个社区的重叠节点的桥接性,而这种选择过程是不可行的,因为许多桥由于与不同社区的外围节点有连接而具有较低的重要性。而且,它不关心自聚类系数和邻居节点的聚类系数等重要特征。因此,只有那些度较高、自聚类系数较低且其邻居的聚类系数平均较高的桥梁才具有合适的战略地位。因此,需要注意的是,FIP算法选择的重叠节点除了具有上述特征外,大多与网络中不同的社区核心有联系,因此在影响力传播中发挥着重要作用。

3.2. Identifying influential candidate nodes

   影响最大化问题的主要目标是种子节点的最优选择。但需要注意的是,计算影响力扩散以选择种子节点是一个耗时的过程。因此,为了减少计算时间,FIP算法为集合Cb中的每个选定社区生成有限数量的候选节点,因为寻找最终种子节点的其余计算仅限于这些候选节点的集合。此外,根据社交网络中的社区结构,生成合适的候选节点和全局扩散的概率系数对于最终种子节点的选择起着重要作用。因此,每个候选节点都被检查为潜在的种子节点。而且,候选节点比其他被选为种子的节点更重要,因为这些节点是多个社区之间的桥梁,并且可以对社区产生最显着的影响。由于候选节点的选择取决于社区中全局扩散的概率系数,因此必须首先检查社区的全局扩散概率系数。

3.2.1. The probability coefficient of community diffusion

    社区扩散概率系数在影响力最大化问题中具有很高的重要性,因为对于被选为种子的节点,该节点的社区扩散概率系数高于其他节点。为了计算社区扩散的概率系数,那些节点被认为仅在社区内部有连接。因此,每个社区cib的节点被分为两个集合vI和vO,其中vI={vI1,vI2,vI3,⋯,vIh}是社区cib内与其他社区没有边缘的节点集合,vO ={ vO1, vO2, vO3, ⋯, vOh} 是社区内的一组节点,这些节点与集合 Cb 中的其他社区有一些边。因此,每个节点 vI 的社区扩散概率系数由式(5)计算如下: pd = par(n1i + 2 ̅̅̅ n √ 2i ) (5) 其中 n1i 和 n2i 分别是节点 vi 的邻居,集合vO的距离1和2。在现实世界中,信息扩散并到达集合 vO 中的节点的概率是随机参数函数。因此,par被认为是一个随机参数,它是一个在[0,1]之间均匀分布的随机数。最后,对所有节点的 pd 值进行归一化。一般来说,pd 是一个介于 0 和 1 之间的值。当 pd=1 时,节点 vi 向其他社区扩散的概率最大,而当 pd=0 时,节点 vi 向其他社区扩散的概率最小。因此,即使具有低 pd,i 的节点不直接与其他社区相连,但由于 vO 集合中距离为 1 和 2 的邻居节点较多,因此它可能有更高的全局扩散到其他社区的概率。因此,具有高 pd 的节点可以在传播信息方面发挥重要作用,因为它们与作为社区之间连接器的多个桥梁节点密切相关。

   另一方面,我们计算了集合 vo 中的节点由于在其他社区之间具有边缘角色而发生社区扩散的概率系数。因此,对于社区 cib 内的节点 vo, Γvco ={ vco1, vco2, ⋯, vcoj} 是社区 cj 中节点 vo 的直接邻居。此外,集合 vHc ={ v1HD , v2HD , v3HD , ⋯, vnHD } 是每个社区 cj 中度数最大的节点。需要指出的是,各个社区可能具有相同最大度(degcj,max)的节点。所有这些节点都必须添加到vHc。由此,每个节点vo的社区扩散概率系数计算如下:

   其中 |vHc|是集合 vHc 中度数最大的节点数,w 是节点 vo 的邻居数,xspi 是 Γvco 的每个节点 vcoi 到 vHc 中最近节点的最短路径距离,nc是 Cb 中的社区数量,deg(ci,max) 是社区 Cbi 中的最大度数,degc,max 是 Cb 中所有社区中的最大度数,pari 是扩散中其他节点访问节点 vcoi 的概率过程。一般来说,如果 Гvco ∈ vHc,则意味着节点 vo 的所有邻居都是度数最高的节点。在这种情况下,pd 具有最大值。如果 Γvco ∩ vHc = ∅,则意味着节点 vo 的邻居都不是集合 vHc,此时节点 vo 的 pd 值最低。一般来说,pd 被归一化为 0 到 1 之间的值。如果 pd = 1,则节点 v 对其他社区的全局扩散最大。因此,社区扩散概率系数背后的主要思想是nodev通过访问度数最高的重要节点,可以实现最大的全局扩散。此外,如果节点 v 与度数最大的节点之间的距离最小,则它肯定具有更好的扩散性。

3.2.2. Generating candidate nodes

  候选节点包括社区中相对于其他节点在社区拓扑上具有更好传播影响力的一些节点。事实上,候选节点是有潜力选择种子节点的代表。因此,候选节点的选择对于减少计算开销和种子节点的最优选择具有重要作用。候选节点分为两个主要组:第一组包含 k 个重叠节点,第二组是最佳非重叠节点。这两组的选择分两步进行,如下:

  步骤1:选择k个重要的重叠节点:

重叠节点很重要,因为它们是多个社区的通信路径,因此它们对其他社区传播很大的影响力。因此,在选择潜在种子节点时必须考虑这一点。值得注意的是,大型社交网络中重叠节点的数量非常多。因此,由于计算开销较高,我们不能考虑所有重叠节点。此外,由于与不同社区的联系较少,一些重叠对信息传播的影响较小。因此,为了减少这种开销时间,使用等式(6)对条件 wci ≥ θc 的社区对重叠节点进行排序。最后,最好的重叠节点被添加到集合F中。集合F被称为候选节点。

步骤2:选择最佳的不重叠影响力节点:

  我们在第二步中继续从集合 Cb 中除上一步中选定的节点之外的所有节点中进行候选选择。在候选节点和种子节点的选择中,除了重叠节点之外,非重叠节点也很重要。因此,为了生成一组候选节点,可以通过等式(8)计算节点vc的binf,vc,如下所示:

 其中ne和nn分别是距节点vc距离1和2处的邻居节点数,vi是距节点vc距离1和2处的邻居节点,degvi是节点vi的度数。另外,g表示节点vc与其有连接的社区数量。 binf,vc高的节点是社区之间信息传播的有力桥梁,可能具有较高的传播影响力。因此,选择每个社区 ci 中 binf,vc 较高的节点并将其添加到 setTci 中。每个社区 ci 的集合 Tci 的大小由等式(9)定义。

其中 NTci 是集合 Tci 的长度,nci 是社区 ci 的节点数,k 是种子集的大小。通过算法3和算法4选择候选集后,最终的候选节点由式(10)定义如下:

3.3. Selecting the final seed nodes

  生成一组候选节点后,选择影响力传播最大的最终种子节点。对所有生成的候选节点进行评估,并将具有最佳影响力传播的前 k 个节点添加到种子集中。换句话说,在候选集中,在独立级联模型和蒙特卡罗模拟的1000个频率下影响力传播最大的k个节点被视为种子节点。因此,在独立级联模型中,利用函数f*(S)(通过式(11))选择集合FC内具有最大影响力传播的节点作为种子节点。

函数f*(S)中,S为种子节点,σ(S∪{vH})实现了将节点vH(集合FC中的节点)添加到集合S中的影响力扩散。

3.4. Time complexity analysis

  FIP算法中的时间复杂度分析包括两个主要步骤。第一步,社区检测和归约的时间复杂度为O(nlogn +n +c)≈ nlogn。下一步,生成候选集和选择最终种子集的时间复杂度为 O(kn′ c′ + k′ n′ R)≈ k′ n′ R,其中 c′ 是集合中社区的数量Cb。而且,n′是集合Cb的社区中所有节点的节点,并且n′<n。因此,FIP 算法的总时间复杂度为 O(nlogn +k′ n′ R),其中 n 是图节点的数量,c 代表社交网络中社区的数量。 k表示种子节点的数量,k'是候选节点的数量(且k'<kc'),R是蒙特卡罗模拟的频率数量。我们提出的算法以及其他基本和最近提出的算法的时间复杂度总结在表1中。

  在时间复杂度分析中,n′<n,m′<m。 LIR 和 Kcore 算法的时间复杂度低于其他最先进的算法。然而,他们在影响力传播方面的表现却不尽如人意。 CI和PHG算法比FIP算法需要更高的时间复杂度。与CI和PHG这两种众所周知的方法相比,FIP算法的时间复杂度和性能更优越且更稳定。

4. Experimental results and analysis

4.1. Dataset

  为了验证所提出的算法,使用真实网络和合成网络来评估 FIP 算法的效率以及其他比较方法。这些网络的信息如表2、表3和表4所示。

 

4.1.1. Real-world networks

  我们首先评估算法 FIP 在七个真实数据集上的性能。数据集是无向的。数据集的大小有大和中。所有网络均可在 KONECT2 网站上找到。

• DBLP:DBLP 提供了计算机科学领域的共同作者网络(Leskovec、Kleinberg 和 Faloutsos,2007)。如果两位作者至少合作发表了一篇论文,他们之间就会产生优势。该网络由 317 K 个节点和 1 M 条边组成。

• 电子邮件:电子邮件数据集是 Rovira i Virgili (URV) 大学的网络,其边表示至少发送了一封电子邮件(Guimera、Danon、Diaz-Guilera、Giralt 和 Arenas,2003)。该网络包含 1 K 个节点和 5 K 个边。

• 路线视图:数据集路线视图是通过互联网相互连接的自治系统网络(Kunegis,2013)。节点代表自治系统,边代表他们之间的关系。该网络由 6 k 个节点和 13 k 个边组成。

• 豆瓣1:豆瓣是中国的社交网络服务网络。该网络由 154 k 个节点和 327 k 个边组成。

• 姐妹城市:姐妹城市数据集是通过从WikiData 中提取的“姐妹城市”连接的世界城市网络(Kunegis,2013 年)。该网络由 14 k 个节点和 20 k 个边组成。

• PGP:PGP 数据集是 Pretty Good Privacy 算法用户的交互网络(Bogun ́a、Pastor-Satorras、Díaz-Guilera 和 Arenas,2004)。该网络仅包含巨大的连通分量。该网络由 10 k 个节点和 24 k 个边组成。

• As-22july06:这是自治系统级别互联网结构的数据集。该网络由 23 k 个节点和 48 k 个边组成(Kunegis,2013)。

4.1.2. Synthetic networks

  我们通过合成网络评估FIP算法的性能,并使用森林火灾模型(Barab ́ asi & Albert, 1999)和LFR算法(Lancichinetti, Fortunato, & Radicchi, 2008)来创建合成网络。

- 森林火灾模型:前向燃烧概率 (p) 是该模型中的一个参数。 v 首先均匀随机选择一个节点 w 并形成到 w 的链接。接下来,生成均值为 (1 p) 1 的二项式分布的随机数 x 。节点 v 选择带有节点 w 的 x 条边。该模型具有幂律分布特性,使得综合网络更接近现实世界。合成网络如下:

• M¡Fo115:根据森林火灾模型生成的M Fo115 网络,连接概率p = 0.115,包括10 k 个节点和23 k 个节点。

• M¡Fo120:根据森林火灾模型生成的M Fo120 网络,连接概率p = 0.120,包括10 k 个节点和29 k 个节点。

LFR合成网络:我们选择LFR算法来生成合成网络。在该算法中,度和社区规模分布都是具有不同指数的幂律。

4.2. Basic compared algorithms

    FIP 算法与八种基本算法进行了比较。基本算法列表如下所述。

• PHG:Qiu 等人。开发了一种使用基于社区的方法的 PHG 算法。它还使用贪婪算法来寻找影响力扩散(Qiu et al., 2019)。

• TI-SC:Ahmadi Beni 等人。开发了一种基于社区的算法来检查社区中核心节点之间的关系和其他节点的评分能力[37]。

• MCGM:Li 等人。提出了一种新的引力模型,根据 k 壳值和特征向量中心性值等不同特征来识别有影响力的传播者(Z. Li & Huang,2022)。

• ProbDeg:Nguyen 等人。开发了 ProbDeg,它使用节点的多跳邻居和传播概率来选择种子节点 [33]。

• LIR:Liu 等人。开发了基于启发式方法的 LIR 算法(Liu et al., 2017)。在LIR算法中,根据邻居度计算每个节点的LI值,然后将LI值最低的节点集合按降序排序,并选择k个节点作为种子。

• SRFM:Ahmadi Beni 等人。提出了基于核心节点的SRFM算法(Ahmadi Beni & Bouyer, 2021)。

• 集体影响力(CI):Morone 等人。提出了基于影响扩散计算本地化的 CI 算法(Morone et al., 2016)。该算法将圆内的影响力扩散计算限制在半径L内。

• VoteRank:Zhang 等人。开发了基于投票的 VoteRank 算法(J.-X.Zhang 等人,2016)。

• K 核心:Kitsak 等人。开发了一种 K-core 算法,指定图中的核心和外围节点,并将核心节点视为种子节点(Kitsak 等人,2010)。

• CTIM:Kazemzadeh 等人。提出了CTIM算法,该算法中影响力节点与高魅力力之间存在正相关关系(Kazemzadeh et al., 2022)。

• RNR:Xiaobin 等人。提出了一种通过反向排名、权重和影响力来选择有影响力节点的新算法(Rui et al., 2019)。

4.3. Evaluation metrics

  我们使用三个指标来评估 FIP 算法的效率:

• 影响力传播:该指标衡量种子节点在信息传播中的准确性。该指标的较高值表明种子节点已针对影响最大化问题正确选择。因此,影响扩散是独立级联模型中蒙特卡罗模拟每次迭代的激活节点的平均数量。

• 运行时间:运行时间是在 FIP 中测量的,所有比较的算法都选择 k = 30 个种子节点

• 加速比:加速比是通过k = 10、20 和30 个种子节点的FIP 基准算法来测量的。

4.4. Experiment setup

  本文采用Python语言编写FIP算法,并在具有2.5 GHz Intel Core i5 CPU-3230M和12 GB内存的计算机上实现。我们在十三个网络上测试了我们提出的算法,并使用七种最先进的算法对其进行了评估。扩散模型和影响概率生成是影响力最大化的重要问题。 FIP 算法使用独立级联 (IC) 模型。节点u对v的影响概率为puv = 0.01。

4.5. Result

4.5.1. Influence spread

 

  我们首先比较不同算法对七个真实数据集的影响范围,其中 x 轴表示种子节点的数量。相反,y 轴代表整体影响力传播。四个真实世界数据集的结果表明,FIP 算法在影响力传播方面完全优于其他比较方法。 K-core 算法在除路线视图和 As-22july06 数据集之外的所有网络上显示出最差的性能。 PHG方法虽然在某些数据集上表现良好,但不能提供任何性能保证。例如,无花果。图4和图5显示,它们在数据集DBLP和豆瓣中的影响力传播值较弱。然而,图56表示FIP、PHG、CTIM和TI-SC算法表现出相同的影响扩散值。当k为15时,图6中PHG和VoteRank算法的影响力扩散值与FIP算法相同。

图7还表明FIP算法比其他算法具有更好的性能。图8表示FIP和VoteRank算法表现出相同的影响力分布值。

在图 9 中,我们可以观察到 FIP 算法与其他算法之间的影响力传播值存在显着差距。总体而言,从实际网络上的结果来看,FIP 算法比最先进的算法具有更好的效率寻找最有影响力的种子节点。此外,PHG 方法具有第二好的性能。在图10中,我们看到PHG、VoteRank和TI-SC算法的影响力扩散值低于FIP算法。例如,在 k = 30 的 As-22july06 数据集上,FIP 算法获得的影响力扩散值为 252.599,而 VoteRank 和 PHG 的值分别为 245.142 和 246.358。

   另一方面,使用两个合成网络来比较影响力传播。从图 11 中可以明显看出,FIP 算法在 M FO115 数据集中优于其他对比算法。此外,图 12 显示 FIP、VoteRank、PHG 和 TI-SC 算法在 M FO120 数据集中表现出相同的影响力分布值。我们还分析了表 5 中合成网络上 k = 10、k = 20 和 k = 30 的平均影响力分布。我们可以观察到 FIP 在所有算法中获得了最佳影响力分布。图13还表明FIP算法比其他算法具有更好的性能。

在图14、图15和图16中我们看到CI、PHG、VoteRank和TI-SC算法的影响力扩散值低于FIP算法。

   现在,我们比较具有重叠节点的 FIP 算法和不具有重叠节点的 FIP 算法在七个真实数据集、六个合成网络(其中 x 轴表示种子节点的数量)上的影响力分布。相反,y 轴代表总体影响力传播。所有现实世界数据集中的结果表明,具有重叠节点的 FIP 算法在影响力传播方面表现出色。在FIP算法中,重叠节点对传播有显着影响。如果这些节点不影响种子节点的选择,那么影响力的传播将会大幅减少。在图中。 1729,可以看出,在不同数据集中,没有重叠节点的影响力传播有所减少。

   表 6 显示了我们提出的算法 FIP 相对于基线算法的加速百分比(就影响范围而言)。使用方程(12)计算加速比。

例如,如果FIP和LIR算法的影响率分别为162.42和131.336,则FIP相对于LIR的速度计算如下:

另外,LIR相对于FIP的速度计算如下: 加速LIR→IOG =(( 131.336 162.42)÷ 131.336 )× 100 = 23.66

表 6、表 7 和表 8 显示,FIP 算法在所有网络中都比基线方法具有正加速。在这些表中,K-core 算法称为 Kc,VoteRank 算法称为 VR。我们还在表9、表10和表11中分析了k = 1到k = 30的平均影响力分布。我们可以观察到FIP在所有算法中获得了最佳影响力分布。

4.5.2. Runtime metric

   图 30、图 31 和图 32 分别显示了七个现实世界、两个使用森林火灾模型创建的合成网络和四个使用 LFR 创建的合成网络上不同算法的运行时间。这里的运行时间是选择k=30个种子节点的时间。从结果中我们看到,LIR、k-core 和 VoteRank 在所有数据集上的运行时间都很短,但与其他方法相比,它们的质量都是最低的;他们无法在影响力传播方面提供任何绩效保证。尽管如此,与 PHG 和 CI 算法相比,FIP 具有最佳的运行时间。最差的运行时间是 PHG 算法,它是一种基于社区的方法,如 FIP 算法。

5. Conclusions

  本文提出了一种新的基于社区的算法,重点关注重叠节点的影响和社区扩散理论的概率系数来解决影响力最大化问题。这个问题我们重点关注两个问题,第一是种子的有效性,第二是时间复杂度。因此,FIP算法考虑两个主要步骤来提高所选种子节点的有效性:1.初始社区的生成和优化,以及2.生成候选节点并选择最终种子集。为了减少种子节点选择的搜索空间,在候选节点选择的计算中不考虑不具有所需传播影响力的社区。在FIP算法中,通过分析社会关系和社区结构来提高种子节点选择性能。我们在七个真实数据集和 2 个人工网络上验证了 FIP 的质量和运行时间测量。实验结果证明了FIP算法的有效性和运行效率。结果证明,我们的算法在时间效率方面可以显着优于基线算法,并且不会影响时间复杂度。作为未来的工作,FIP算法可以在线性阈值模型下进行扩展,并考虑候选节点之间距离的影响。

  • 30
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值