TSIFIM:复杂网络中影响最大化的三阶段迭代框架

本文链接：https://blog.csdn.net/qq_41588123/article/details/130573818

TSIFIM:复杂网络中影响最大化的三阶段迭代框架

ABSTRACT
1.Introduction
2. Related work
3. Preliminaries
4. Proposed algorithm
- 4.1. Determination of initial candidate seeds based on global communicability
- - 4.1.1 Calculating the global communicability of nodes
  - 4.1.2. Classifying nodes based on global communicability

TSIFIM: A three-stage iterative framework for influence maximization in
complex networks

ABSTRACT

影响最大化问题是网络科学领域中研究得很好的经典问题，但现有的大多数研究都在计算复杂性或结果准确性之间妥协。在这项工作中，提出了一个影响最大化的三阶段迭代框架（TSIFIM），以在复杂网络中找到一组种子传播器。在TSIFIM中，首先通过考虑每个节点的全局可通信性及其在其本地网络中的重要性来选择初始候选种子。然后，除了候选种子之外，基于所提出的局部资源分配相似性指数，将其他剩余节点分配给特定社区，并选择每个社区中满足局部影响阈值条件的核心节点作为补充候选种子。此外，我们采用了一种自适应搜索策略来在这些候选者中找到最优解。在九个真实世界的网络上，将所提出的算法与八种流行的影响最大化算法进行了比较，以验证其性能。实验结果表明，TSIFIM在影响扩散、灵敏度分析、种子分散和统计测试方面具有较好的性能。

1.Introduction

复杂网络的固有特性使在整个网络中选择一些有影响力的节点作为种子的任务变得复杂。最近，研究人员试图利用社区结构来解决IM问题（Chen et al.，2021；Huang等人，2019；Samir等人，2021；Sun等人，2021）。根据社区的定义，社区内的用户比社区之间的用户更有可能相互交流。检测每个社区内的核心节点将获得最准确、最分散的种子集，该种子集可以有效地代表整个网络。此外，整个网络通常比一些社区大得多，在多个小社区中选择种子可以有效地降低时间成本，扩大总影响力的传播。Huang等人（2019）为病毒营销设计了一种新的影响力最大化算法，这根据话题的用户相关性和影响力在每个社区中的传播过程来提高性能。Sun等人（2021）利用k-shell分解算法将网络划分为几个小社区，并采用贪婪策略搜索每个社区中最具影响力的传播者。Samir等人（2021）定义了一种有效的方法来检测最具影响力的种子集，其中使用传统的Louvain算法来划分整个网络，然后使用k-shell分解算法来确定每个社区中的种子节点。Chen等人（2021）提出了一种基于位置的社交网络中可扩展且高效的影响力最大化模型，该模型结合社区结构和节点属性来评估节点的重要性。基于社区的影响最大化算法的初衷是降低计算复杂度并分散所选的种子节点。然而，社区划分的准确性存在一些局限性，并且评估每个社区中最具影响力的节点的标准定义如此模糊，这是迫切需要解决的问题。

在这项工作中，针对复杂网络中的影响最大化问题，提出了一个三阶段的影响最大限度迭代框架。通过在降低时间复杂度的同时保持准确性，所提出的TSIFIM算法包含了三个关键思想。首先，通过考虑每个节点的全局可通信性及其在本地网络中的重要性来获得初始候选种子集，这确保了所选择的候选种子是完全分散的。其次，从资源分配和信息传递的角度，将整个网络划分为几个小社区，并选择每个社区中具有较大可通信性的核心传播者来优化候选种子集，这有利于提高算法的准确性和效率。第三，所提出的TSIFIM采用自适应搜索策略从候选者中获得最优解，这可以避免过早收敛，并在合理的时间内产生令人满意的解。简而言之，我们的主要贡献总结如下。

该算法引入了可通信性网络矩阵来评估节点的传播能力，然后将网络中的节点按线性复杂度分为三个族，以减轻“网络俱乐部”现象，并使所选的候选种子均匀分布。
根据所提出的局部资源分配相似性指数，将网络中的所有节点划分为几个社区，并将每个社区中满足局部影响阈值条件的核心节点添加到候选种子集中。
为了提高种子选择过程的准确性并减少迭代次数，提出了一种自适应搜索策略来获得这些候选之间的最优解，并且所获得的种子集有效地最小化了重叠影响并最大化了总影响扩散。

2. Related work

自从Domings和Richardson在本世纪初首次将影响力最大化作为一种优化算法（Domingos&Richardson，2001）以来，已经开发了一系列用于选择种子节点以最大化影响力传播的算法。现有的算法主要可分为四大类：贪婪算法、启发式算法、元启发式算法和基于社区的算法。

2.1 Greedy algorithms

Kempe等人（2003）在几种广泛使用的模型下研究了IM问题，并提出了一种基于子模块函数的贪婪爬山算法来解决这个问题。理论分析和大量实验表明，在这些模型下，选择一组种子节点的优化问题是NP难的。为了优化传统贪婪算法的效率，Leskovec等人（2007）提出了一种适用于大型社交网络的影响力最大化的改进贪婪算法，该算法充分利用了目标函数最重要的子模性质。在该算法中，具有最大边际增益的节点将被选择为当前最佳种子节点，并且总影响扩散由种子节点的边际增益累积。为了进一步降低计算成本，Amit等人（2011）考虑了节点边际增益的最高先验，并提出了一种称为CELF++的改进算法，通过更好的修剪策略实现了更高的运算效率。此外，Kim等人在独立级联扩散模型下开发了一种有效的影响近似算法（Kim
et al.，2013），大量实验表明，所提出的算法具有较低的空间复杂度，并且比几种流行的影响最大化算法快一个数量级。Heidari等人（2015）提出了一种快速贪婪算法来解决复杂网络中的IM问题，该算法通过预测传播过程中的遍历节点来提高可行性。Liu等人（2017）提出了一种新的基于拓扑的算法来选择复杂网络中的一组种子，该算法在选择有影响力的节点方面比度算法更准确，而且执行时间也很快，但不能保证最优逼近。He等人（2019）构建了一个用于解决复杂网络中IM问题的两阶段迭代框架，其中首先根据每个节点的传播效益确定候选种子集，然后通过避免候选种子之间的重叠影响来选择种子节点。最近，开发了一种新的影响力最大化算法，称为TS-VA-MODE，用于确定复杂网络中的一组种子节点（Biswas et al.，2021），该算法利用VIKOR方法从候选种子中过滤不重要的节点，并将具有子模块性的EDV函数纳入贪婪算法框架。

2.2 Heuristic algorithms

近年来，人们提出了大量的启发式算法，这些算法在与贪婪框架的契约中具有更好的效率和应用范围。Chen等人（2009）提出了单次折扣和度折扣算法，以避免种子之间的影响重叠现象，这两种算法的核心思想是，如果选择一个节点作为种子，则其邻居的影响将降低到折扣值。Zhang等人（2015）提出了PRDiscount算法来分散种子节点，通过对与所选种子密切相关的节点的影响进行折现，提高了算法的可行性。程度惩罚算法依次选择种子节点（Wang et al.，2016），并惩罚位于所选种子的两级邻域中的节点的重要性。Bao等人（2017）提出了一种在复杂网络中寻找前k个有影响力节点的高效聚类算法，该算法根据相似性指数将节点分类到不同的聚类中，并随机选择初始聚类中心作为种子。基于进化思想，一种新的影响最大化模因算法DDSE（Cui et al.，2018）将降阶搜索策略与EDV函数相结合，可以加速包括初始化、变异和交叉在内的差分进化。Jiang等人（2019）提出了用于研究IM问题的启发式群发现算法，该算法将IM问题转化为寻找由内聚节点组成的集群的问题。Yang等人（2020）设计了一种新的启发式聚类算法来识别复杂网络中的节点，这在传统的本地路径索引和Katz索引之间进行了权衡。Wang等人（2022）开发了一种有效的启发式聚类算法，用于实现复杂网络中的IM问题，该算法较好地保证了种子集的总影响及其之间的分散性。

2.3 Meta-heuristic algorithms

在不同的轨道上，为了实现更低的时间成本和更高的效率，不同的学者已经开发了许多元启发式算法。Gong，Yan等人（2016）引入了离散粒子群优化来解决IM问题，并引入了针对特定问题的局部搜索策略和启发式策略来提高算法的效率。Bucur和Iacca（2016）设计了一个有效的元启发式模型来确定社交网络中最具影响力的传播者集。此外，还提出了一种动态独立级联模型，用于自适应地选择种子（Tonget al.，2017），该模型通过捕捉扩散过程的不确定性来提高精度。Zareie等人（2019b）根据用户对信息的兴趣，在病毒营销网络中设计了一种意见领袖识别算法（IMUD）。与现有的一些研究不同，IMUD有效地避开了病毒营销网络中的非目标用户，即那些为活动推广“买单”的用户。基于网络拓扑特性，Tang等人（2020）提出了离散混洗蛙跳算法来解决IM问题。Calio和Tagarelli（2021）提出了ADITUM算法来确定复杂网络中有影响力的传播者，该算法根据节点级可用的边信息尽可能地分散种子，其中边信息对应于分类属性值。Lotf等人（2021）提出了一种动态广义遗传算法来选择社交网络中的动态种子集，该算法使用软计算来提出一种考虑时间限制、可扩展性和网络结构的方法，并通过减少计算来提高识别有影响力个体的速度和准确性。 Konotopska和Iacca（2021）提出了一种改进的进化算法，通过各种图感知增强来解决IM问题，与对比算法相比，该算法显著减少了运行时间。Wang，Ma等人（2021）提出了一种用于影响最大化的基于MFO的混合优化算法，其中通过评估邻居节点和整个网络来开发有效的影响评估模型，并通过局部交叉和变异进化框架来确定种子集。

2.4 Community-based algorithms

由于现实世界中复杂系统的规模巨大，将整个系统视为一个单一的实体很难解决IM问题。一群紧密相连的个体构成了这个共同体。受社区特征的启发，研究人员将IM问题转化为识别每个社区中最具影响力的节点。一般来说，基于社区的影响力最大化算法由三个主要阶段组成（Azaouzi et al.，2021）：
（i）将输入网络合理地提取到不同规模的社区中。
（ii）选择每个社区中的核心节点以形成候选种子集。
（iii）从候选者中依次选择具有最大影响力传播的种子。
Rahimkhani等人（2014）设计了一种有效的影响最大化算法，用于在复杂系统中寻找一组种子，该算法通过减少所研究的节点数量来降低时间成本。从社区结构的角度来看，Gong，Song et al.（2016）引入了一种优化模型来检测复杂网络中最具影响力的节点，通过优化两跳内的影响传播过程来选择最具影响的种子，并加速了算法的收敛。 基于社区结构，Shang等人（2017）提供了一个影响力最大化框架，用于确定大规模中最具影响力的节点集复杂的网络。Li，Cheng等人（2018）提出了一种基于社区的种子选择算法来解决IM问题，该算法利用节点的相对位置，通过频谱聚类算法来划分网络的社区结构。基于社区接近度的影响最大化算法同时考虑每个社区中的节点数量和边缘密度，以找出最具影响力的节点（Wu et al.，2020）。最近，Li等人基于用户对共享对象的动态选择。（2021）讨论了扩散模型上的动态传播，并提出了一种影响力最大化算法来选择社交网络中最具影响力的用户。

3. Preliminaries

3.1 Influence maximization

在这里插入图片描述

3.2 Independent cascade model and weighted cascade model

计算给定扩散模型下的影响扩散是解决IM问题的重要步骤。独立级联（IC）模型是应用最广泛的信息扩散模型之一（Kempe et al.，2003；Wang，Sun et al.，2021）。在IC模型中，节点处于活动或非活动状态，非活动节点可以变为活动节点，而活动节点不能变为非活动节点。此外，非活动节点受其相邻活动邻居影响的可能性固定为p.
给定初始活动节点集S, IC模型的具体思想如下。在初始阶段，集合中的所有节点S 假设为活动状态，而其他未设置的剩余节点S 被设置为非活动状态。然后，在传播过程的每一步中，每个活动节点都试图以一定的传播概率激活其非活动邻居S. 激活后，活动邻居将继续尝试激活其自己的非活动邻居。重复该激活过程，直到网络中没有新激活的节点为止。对于种子组S, 其影响范围或范围大小σ(S)是扩散过程结束时可以激活的最大数量的节点。
IC模型假设每个边缘的传播概率是相同的，这不能准确地描述网络中的信息传播过程。作为IC模型的改进版本，加权级联（WC）模型（Chen et al.，2009；Kempe et al.，2003）基于这样的假设，即每个节点对的传播概率不是对称的，并且所有节点也处于活动或非活动状态。更具体地说，如果节点u 被激活为圆形i, 其非活动邻居节点v 将被激活i+ 1，概率为1/dv, 当dv 是节点的度数v 这意味着具有大量连接的受欢迎的个人相对难以被单个邻居激活。

3.3 Fitness function evaluation

3.4 Communicability network matrix

对于复杂网络中未连接的节点，这些节点之间仍然存在一些关联。例如，它们是相互可达的，并且可以在公共邻居节点的帮助下传输信息。为了测量每对节点之间的可通信性，Estrada等人引入了具有形式的可通信网络矩阵（Estrada&Hatano，2008；Estrada et al.，2012）
在这里插入图片描述

4. Proposed algorithm

如第2节所述，从不同的角度建立了许多有效的IM算法，我们可以观察到大多数现有的IM算法都面临以下挑战。一方面，由于计算成本高，传统的贪婪算法不再适用于大规模复杂网络（He et al.，2020）。另一方面，仅根据节点的特定特征来选择种子是非常有限的，例如局部影响或全局影响（Dong et al.，2022；Kumar et al.，2021；Sun et al.，2020）。为了解决这些问题，在本研究中，提出了一个影响最大化的三阶段迭代框架（TSIFIM），该框架由三个阶段组成：
（i）确定初始候选种子。
（ii）候选种子的优化。
（iii）种子节点的生成。
在第一阶段，引入可通信性网络矩阵来评估每个节点的扩展能力，并通过考虑每个节点的全局可通信性来选择初始候选种子节点及其在本地网络中的重要性，以确保所选择的候选种子是完全分散的。
在第二阶段，根据新的局部资源分配相似性指数，将整个网络划分为多个社区，并将满足局部影响阈值条件的社区核添加到候选种子集中。
在第三阶段，基于EDV适应度函数，我们采用自适应搜索策略在这些候选者中搜索最优解，其目的是避免过早收敛，并在合理的时间内产生令人满意的解。这种搜索策略可以显著缩小种子选择的范围，也可以减少种子选择的时间，在一定程度上避免影响重叠。表1列出了本文中使用的符号和符号，所提出的算法的细节如下。

4.1. Determination of initial candidate seeds based on global communicability

候选种子集由网络中有可能成为种子节点的节点组成，因此有必要缩小节点的搜索范围，加快种子的选择过程。在这项工作中，我们提出了一种基于两个标准构建初始候选种子集的有效措施。一种是选择的节点分布均匀，以避免重叠效应，另一种是种子集中的节点在网络中具有很高的影响力。 从一个角度来看，一个节点的影响可以被视为其自身与其他剩余节点的可通信性之和。 幸运的是，可通信性网络矩阵可以很好地描述低计算复杂度网络中节点的全局影响（Estrada&Hatano，2008；Estrada等人，2012年）。根据全局可通信性，将网络中的所有节点分为三个族，分别称为前导节点、跟随节点和观测节点。 最后，选择前面的节点和后面的一些节点作为候选种子。

4.1.1 Calculating the global communicability of nodes

复杂网络的许多拓扑和动力学性质是通过假设网络上的大部分传输沿着最短路径流动来定义的。事实上，只考虑最短路径是非常有限的，不能表明复杂网络的全局可通信性，因为非最短路径在信息传播过程中也起着重要作用。在第3.4节中，引入的可通信性网络矩阵测量了一个用户在所有可能的路径下与另一个用户共享信息的能力。换句话说，这个矩阵中的元素可以用来表示一个节点与另一个节点建立连接的概率。节点i的全局可通信性可以定义为

4.1.2. Classifying nodes based on global communicability

在现实世界中，每个群体中的个体大致可以分为三个家族：领导者、追随者和观察者。值得注意的是，每个群体中的领导者都可以很容易地影响周围的个人，而追随者是那些对领导者代表性较低但追随程度较高的人。对于观察者来说，他们缺乏明确的隶属关系，在多个群体之间摇摆不定。Bai等人（2018）指出，每个小组的领导者都被视为其代表，具有很高的领导地位。
在这里插入图片描述