Influence maximization in social networks based on TOPSIS

最新推荐文章于 2024-03-13 15:16:05 发布

流浪的诗人，

最新推荐文章于 2024-03-13 15:16:05 发布

阅读量913

点赞数 19

分类专栏：读论文文章标签：论文阅读学习

本文链接：https://blog.csdn.net/qq_59482564/article/details/136588628

版权

读论文专栏收录该内容

74 篇文章 6 订阅

订阅专栏

abstract

识别对新闻和消息传播有影响力的用户是社交网络分析中最重要的主题之一。这些网络中传播过程的成功取决于有影响力的用户的选择和指定机制。除了选择有影响力的用户外，该机制还应考虑所选用户之间的距离，以确保最小的重叠和最大的网络更广泛区域的覆盖。同时实现这两个目标可能是矛盾的。在本文中，我们提出了一种使用理想解决方案相似度偏好顺序技术（TOPSIS）方法来选择有影响力的用户集的新方法，该方法旨在通过考虑上述两个目标来提出解决方案。对现实世界和人工网络的模拟结果表明，所提出的方法选择的集合比传统方法选择的集合表现出更大的影响力。

1. Introduction

社交网络和现代社会风格，除了作为用户的沟通工具之外，在营销和传播信息方面也获得了相当大的地位（Bond et al., 2012; Contractor & DeChurch, 2014）。一方面，消息和新闻快速传播的强大能力，另一方面，用户对朋友的信任和印象，使社交网络平台成为公司和组织广告产品和传播信息的主要选择之一。（Cheung、Luo、Sia 和 Chen，2009 年；Chevalier 和 Mayzlin，2006 年；Park、Lee 和 Han，2007 年）。这种能力导致了一种称为病毒式营销的营销模式的创建。在该模型中，考虑到公司的广告预算有限且无法直接联系所有用户，选择有限数量的网络用户来形成初始种子集来启动消息传播过程（Cheung et al., 2009; Chevalier & Mayzlin，2006；Park 等，2007；Probst、Grosswiele 和 Pfleger，2013；Richardson 和 Domingos，2002；Sheikhahmadi、Nematbakhsh 和 Zareie，2017）。该集合的选择方式应能够实现影响力最大化。影响力最大化问题可以定义为识别一组k个网络用户，在特定的传播模型下最大化接收消息的用户数量为了影响力最大化，应该选择消息传播影响力较高的用户；这些用户也应该在网络中彼此保持适当的距离（Bao，Liu，＆Zhang，2017）。因此可以说影响力最大化问题由两个主要子问题组成。第一个子问题的目的是评估网络用户的影响力传播并在此基础上对它们进行排名，第二个子问题的目的是选择这些用户的最佳子集以实现影响力最大化。

图可用于对社交网络进行建模，其中人被建模为节点，而他们之间的关系被建模为边。大多数为影响力最大化而提出的方法都只考虑解决第一个子问题，并指定节点的影响力传播并通过提出中心性度量对它们进行排名（Bae＆Kim，2014；Kitsak等人，2010；Wang，赵、习和杜，2016；Zareie 和 Sheikhahmadi，2017；Zareie、Sheikhahmadi 和 Fatemi，2017；曾和张，2013）。这些中心性度量包括程度中心性（Freeman，1978）、介数中心性（Freeman，1977）和接近中心性（Sabidussi，1966）。为了选择具有最大扩散的最优节点子集，选择排名列表的前k个节点可能就足够了，但是，由于集合成员的覆盖范围之间的高度重叠，这并不一定会导致影响最大化（Bao 等人，2017）。

在本文中，考虑到节点覆盖范围之间的重叠及其影响力的传播，影响力最大化问题被建模为多标准问题。然后，使用理想解相似度优先顺序技术 (TOPSIS) 方法指定开始传播过程的最佳节点集（Hwang & Yoon，1981）。TOPSIS 是一种用于分析多标准决策 (MCDM) 的半身方法（Delgarm、Sajadi 和 Delgarm，2016）。它用于从多个潜在选择中选择最佳替代方案。鉴于其简单性和效率，该方法吸引了大量研究人员来解决经典的 MCDM 问题（Hu, Du, Mo, Wei, & Deng, 2016）。在决策问题中，有些属性表示利润，有些属性表示成本。正理想解和负理想解是该方法中用于寻找最佳替代方案的两个主要概念。正理想使利润标准最大化，成本最小化，而负理想则使成本标准最大化，利润最小化。 TOPSIS 寻求选择与正理想解距离最短且与负理想解距离最长的替代方案。

由于在所提出的方法中，在开始传播过程之前需要选择 k 个节点，因此选择过程迭代 k 次，并且在每次迭代中，每个节点都被视为具有影响传播标准并与当前节点重叠的解决方案种子集成员。对于所提出的方法中所选择的节点，需要更高的影响范围和与当前种子集更低的重叠。因此，影响力扩散被视为利润标准，重叠被视为成本标准。然后，使用 TOPSIS 识别理想节点，并将其作为新成员添加到种子集中。本文的其余部分安排如下。第 2 节回顾了传播模型和相关工作。第 3 节介绍了所提议方法的细节。第 4 节包含实验设计的详细信息和评估所提出方法的结果。第五节介绍了本文的讨论和结论。

2. Spreading models and related works

影响力最大化问题首先由 Domingos 和 Richardson (2001) 提出。该问题涉及选择具有 k 个成员的初始种子集的子集，以便当集合成员开始传播过程时，特定传播模型下的消息接收者数量最大化。在本节的其余部分中，我们首先描述传播模型，然后介绍解决影响最大化问题的不同方法。

2.1. Spreading models

为了模拟现实世界中的传播过程，可以使用传播模型，该模型可分为阈值模型（Granovetter，1978）、级联模型（Goldenberg、Libai和Muller，2001a，2001b）或流行病模型（ Buscarino、Fortuna、Frasca 和 Latora，2008 年；Zhou、Chung、Chew 和 Lai，2012 年）。

• 阈值模型。线性阈值模型（Kempe、Kleinberg 和 Tardos，2003）构成了该类别中最流行的模型。在这些模型中，每个节点可以处于活动或非活动状态。每个节点 v 都有一个阈值 limitθ v，每条边 (u, v) 都有一个权重 wuv。给定阈值和初始活动节点集，该过程以离散步骤确定性地展开。在每个时间戳 t+1 中，节点 v 从非活动状态变为活动状态，如果

其中 Na v 表示节点 v 在时间 t 的活动邻居集合。该过程一直持续到没有新节点可以被激活为止。最终活跃节点数代表了初始活跃节点的影响力扩散程度。

级联模型。独立级联模型（Kempe et al., 2003）构成了这一类别中最流行的模型。在此模型中，每个节点也可以处于活动或非活动状态。在每个时间戳中，每个活动节点以概率 β 将其每个不活动邻居移动到活动状态，然后它本身移动到不活动状态。

流行病模型。近年来，流行病模型被广泛用于对社交网络中传播消息的过程进行建模（Zhang、Mishra、Thai、Wu 和 Wang，2014）。 SIR（易感者-感染者-康复者）（Huang, Lee, Wen, & Sun, 2013；Pastor-Satorras & Vespignani, 2001）是一种流行的流行病模型，已在多项研究中使用（Bae & Kim, 2014；Bao 等人） .，2017；郭、林、郭和刘，2016；王、苏、赵和易，2016；Zareie 和 Sheikhahmadi，2017）。因此，本文采用 SIR 来模拟传播过程。在此模型中，每个节点可以处于三种状态之一：易感 (S)、感染 (I) 和恢复 (R)。首先，属于初始种子集的节点处于状态 I，其余节点均处于状态 S。在每个时间戳中，处于状态 I 的每个节点 v 都试图感染其邻居。为此，它以概率 β 感染处于状态 S 的每个邻居，将它们移动到状态 I；然后节点 v 本身以概率 α 移动到状态 R。当有节点处于状态 I 时，迭代该过程。最后，R 节点的数量表示初始种子集的影响力传播。为了更准确的实验，SIR过程运行多次，并将R节点的平均数量视为影响力的扩散。

2.2. Presented approaches

影响力最大化问题可以定义为两个子问题的形式：（1）识别节点的影响力传播并对它们进行排名；（2）选择具有最小重叠的影响力用户的最佳子集

2.2.1. Spread of influence specification and node ranking

已经提出了不同的中心性度量来确定节点的影响力传播并对它们进行排名，包括以下内容。

度中心性（Freeman，1978）。在度中心性中，每个节点的邻居数量代表其影响范围，度数较高的节点被视为有影响力的节点。

介数中心性（Freeman，1977）。在该方法中，首先计算网络上每两个节点（u，v）之间的最短路径。经过节点 i 的路径数量决定了节点 i 的介数中心性。因此，节点 i 的介数由等式计算：（2）。

其中Puv表示两个节点u和v之间的最短路径的数量，Pui表示u和v之间经过节点i的最短路径的数量。

紧密度中心性（Sabidussi，1966）。在该方法中，节点v到每个网络节点的最短距离之和表示该节点的紧密中心性。节点 i 的紧密度中心性可以使用等式计算：（3）。

其中 liu 是从节点 i 到节点 u 的最短路径的长度，V 表示网络节点的集合。

• K 壳中心性（Kitsak 等人，2010）。根据网络上节点的拓扑位置为每个节点分配一个 k-shell 索引，使得越靠近网络核心的节点具有越高的 k-shell。具有较大 k 壳层的节点被视为有影响力的节点。

邻里核心中心性（Bae & Kim，2014）。在此度量中，节点 i 的中心性是根据其邻居的 kshell 值使用等式确定的。（4）。

其中Ni表示i的邻居集合，ks(u)表示节点u的k壳值。

熵中心性（Zareie、Sheikhahmadi 和 Fatemi，2017）。在该方法中，确定节点的影响力传播，并根据影响力传播在其邻居之间的分布情况对节点进行排名。该方法将具有均匀能力分布的能力邻居的节点视为有影响力的节点。

分层 k-shell 中心性（Zareie & Sheikhahmadi，2017）。该方法通过扩展k-shell概念来确定节点i的邻居的拓扑位置，并在此基础上确定节点的影响力分布。

鉴于上述每个指标在确定具有不同结构特征的网络中节点的影响力传播方面都存在一些不足，作者（Du, Gau, Hu, Mahadevan, & Deng, 2014; Gandhi & Muruganantham, 2015; Hu et al ., 2016; Liu, Jiang, Wang, & Yu, 2015; Yang & Xie, 2016）试图通过同时采用多个中心性指标来提高最先进指标的准确性。在这些方法中，每个节点都被视为具有不同标准（例如度中心性、介数中心性等）的解。因此，确定节点的传播影响力并对其进行排序的问题被定义为多标准问题，然后使用 TOPSIS 方法对节点进行排序。选择排名列表的前 k 个节点来形成初始种子集是不够的，因为忽略了该集合成员之间的适当距离，因此在传播过程中不会取得相当大的成功（Bao et al., 2017））。因此，所提出的第二类方法（稍后将要解决）寻求选择彼此距离适当的具有高影响力传播的节点作为初始种子集节点。这导致一组重叠较少的节点。

2.2.2. Selection of a subset of influential users with minimal overlap

肯佩等人。 (2003) 提出了一种选择初始种子集的贪婪方法。在这种方法中，考虑初始种子集 SS，通过使用传播模型在算法的每次迭代中将节点 v 添加到该种子集，使得 SS∪{v} 最大化影响的传播。通过 k 次迭代选择初始种子集。鉴于在算法的每次迭代中实施传播模型会导致非常高的时间复杂度，特别是在大型网络中，Leskovec、Krause 等人。 (2007) 利用子模性的特性，提出了一种对贪婪算法的改进，称为成本有效的惰性前向 (CELF)。该算法比贪心法快 700 倍（Leskovec、Krause 等，2007）。此外，还提出了其他方法，例如新的贪婪算法（Chen，Wang，＆Yang，2009）和基于社区的贪婪算法（CGA）（Wang，Cong，Song，＆Xie，2010）来改进贪婪方法。

由于需要实现传播模型，此类方法在大型网络中面临时间过载的问题。因此，一些方法寻求采用启发式方法，根据网络的结构特征，提出更有效的影响最大化问题的方法，而不需要实现传播模型。

在陈等人中。 (2009)，提出了单折扣和双折扣方法来选择具有 k 个成员的有影响力节点的子集。在这种方法中，节点的度数首先决定了它们的影响范围。第一步，将影响力传播最高的节点 v 作为第一个成员添加到种子集中，该节点邻居的影响力传播减小，因为部分影响力传播因与节点 v 重叠而丢失。在单折扣中，每个邻居的影响力传播减少 1，而在双折扣中，每个邻居的减少值使用等式计算。（5）。当该过程迭代 k 次时，将选择种子集元素。

在等式中。 (5)、du是节点u的度，tu是节点u被选为种子集成员的邻居数量。 p 是消息从节点 v 传播到 u 的概率。

节点的度数决定了其影响力的扩散，在度数惩罚中也是如此（Wang，Su，et al.，2016）。在每次迭代中，具有最高影响力传播的节点v作为新成员添加到种子集中，并且其一阶和二阶邻居受到惩罚，并且它们的影响力传播减小。在这种方法中，罚款金额是使用等式计算的。 (6) 对于节点 v 的一阶邻居，使用等式： (7) 为二阶邻居。

其中Su表示节点u的影响力分布，dv表示节点v的度，ω是惩罚系数。

度距离（Sheikhahmadi、Nematbakhsh 和 Shokrollahi，2015）是另一种启发式方法，用于选择具有最小重叠的有影响力的节点。在该方法中，再次将每个节点的程度视为其影响范围，并确定一个阈值来规范节点重叠。在每次迭代中，具有最高影响力传播的节点被指定为种子集中成员资格的候选者。如果该节点与当前种子集中可用的节点之间的距离大于指定阈值，则该节点将作为新成员添加到种子集中。

在初始多传播者节点选择（IMSN）方法（Sheikhahmadi 和 Nematbakhsh，2017）中，提出了一种混合标准来规范节点的影响传播。在此方法中，在每次迭代中根据与当前种子集成员的重叠值来选择种子集中最合适的成员节点。

郭等人。 (2016)还提出了一种称为基于距离的着色方法，使用图着色方法来解决影响最大化问题。在该方法中，为每个节点分配一个颜色索引，使得相同颜色的节点之间的距离大于阈值t。然后，根据颜色对节点进行分组，并根据影响力对每组中的节点进行排序。引入影响力传播度最高的组中前 k 个成员作为种子集成员。在该方法中，可以采用不同的中心性度量，例如度、k-shell和介数中心性，作为确定影响力传播的标准。启发式聚类方法（Bao et al., 2017）是为解决该问题而提出的另一种启发式方法。在该方法中，首先使用标准和方程计算网络中每两个节点 v 和 u 之间的相似度。（8）。该标准实际上表示网络中两个节点之间的重叠量。

在此等式中，A(i) 表示两个节点 v 和 u 之间的 i 阶路径的数量。 λ 是 (0, 1) 中的可调参数。

然后，根据节点之间的相似性对节点进行聚类。为此，首先随机选择 k 个节点聚类中心，其他则根据与中心的相似性分配到聚类中。在下一步中，根据每个簇中每两个节点之间的相似性来更新簇的中心。该过程一直持续到算法收敛。最后，选择簇的中心作为种子集成员。

3. Proposed method

社交网络可以建模为未加权无向图 G=(V,E)，其中 V = {v1,..., vn} 表示图节点集，E = {e1,..., em}表示图边的集合。图中的节点表示用户，边表示网络用户对之间的关系。如果用户u和v之间存在关系，则这两个节点被称为朋友或邻居； Nv用于表示节点v的邻居集合。节点v的邻居数量表示其度数，用dv表示。在所提出的方法中，称为多标准影响最大化（MCIM），初始种子集SS首先被认为是空的，并且每次迭代中网络的最佳节点作为新成员添加到集合中。集合 SS 的成员在 k 次迭代中确定。所提出方法的概述如图 1 所示。

在最优节点选择过程中，每个节点都被视为具有影响力扩散属性且与当前集合SS重叠的解。然后，使用TOPSIS方法确定最优节点，并将其添加到SS中。 TOPSIS (Hwang & Yoon, 1981) 是一种多属性问题的决策方法，其主要思想是将到正理想解的距离最短和到负理想解的距离最长的解指定为最佳方案（Assari、Mahesh 和 Assari，2012）。

考虑了两种类型的传播来指定每个节点v的影响传播，即直接传播（DS）和间接传播（IDS）。邻居数量较多的节点可以更有效地传播消息（Golbeck，2013）。因此，节点 v 的度（表示其邻居数量）被视为该节点的直接影响力传播。节点 v 的直接影响扩散使用等式定义： (9) 式中dv表示节点v的度。

如果消息在邻居之间传播，那么具有影响力邻居的节点也可以在传播过程中发挥适当的作用。因此，节点v的邻居的影响力分布可以通过邻居的总度来表示，从而可以确定其间接的影响力分布。我们在 Zareie 等人中进行了演示。 (2017) 总结节点邻居的度数来确定其影响力传播并不是很有效。如此处所示，使用熵来确定程度分布到节点的邻居的均匀程度可以更准确地确定其影响范围。在这种方法中，方程。 (10) 用于确定影响力传播将如何影响节点 v 的邻居，在 MCIM 中用于计算节点 v 的间接影响力传播。

其中E1(v)和E2(v)分别是节点v的邻居度和邻居度的熵，由式(1)求得。分别为（11）和（12）。

其中dv1是节点v的邻居的度数之和，dv2是节点v的邻居的邻居的度数之和，计算公式为dv2 = Σ u∈Nv d1 u。此外，系数 λv 确定为

节点 v 的直接和间接影响扩散使用等式计算：（9）和（10），其中较大的值表明更优化的节点v。此外，定义直接重叠（DO）和间接重叠（IDO）值以确定节点v与种子集重叠的程度。种子集中节点 v 的邻居数量决定了节点 v 与该集合直接重叠的程度，并使用式（1）计算。（13）。

如果节点u是种子集成员，则su的值为1，否则为0。该方程检查节点 v 的所有邻居是否是 SS 的成员。此外，节点 v 和种子集之间的间接重叠也被确定为它共享的邻居数量的总和与种子集，并使用等式计算。（14）。

在等式中。 (14),|Nu∩Nv|表示节点 v 和 u 共享的邻居数量。此外，该方程检查集合 SS 的所有成员，并确定节点 v 与它们共享的邻居数量。

节点 v 和种子集之间的直接和间接重叠在每次迭代中使用等式确定。 (13) 和 (14)，其中较低的值表明最佳节点 v。在 MCIM 方法中，最大化等式 (13) 的值的节点。 (15)给定四个指定特征DS、IDS、DO，并且IDO在每次迭代中被选择作为最优节点。

为此，首先计算所有节点的四个特征的值，并按式（1）计算矩阵A。（16）。矩阵A的第i行表示第i个节点的特征。

算法 1 显示了 MCIM 算法的伪代码。在算法 1 的第 5 行中，根据式（1）形成初始决策矩阵 A。（16）。第 6-7 行，选择度数最高的节点作为节点 u。在第 8-18 行中，在每次迭代中选择最佳节点并将其添加到种子集中，并且迭代 k 次。在每次迭代中，节点 u 首先被添加到种子集 SS 中，并从决策矩阵 A 中删除。节点 u 的一阶邻居与种子集重叠的程度在第 11 行中更新。重叠量为该节点的每个二阶邻居也在第 13 行中更新。在第 16 行中，假设矩阵 A 已更新，则使用 TOPSIS 选择最佳节点作为节点 u，将其添加到第 17 行的种子集中. 指定的种子集在第 19 行返回作为算法的输出。所提出算法的时间复杂度可以表述如下。

该算法第 6 行的时间复杂度为 O(n)，因为必须找到度数最高的节点。 n 是图节点的数量。

第 8 至 18 行被迭代 k - 1 次，其中：在第 10-15 行中，检查节点 u 的一阶和二阶邻居；假设网络节点的平均度和平均二阶度为分别由 <d> 和 <d2> 表示，这些行的时间复杂度为 O(k(<d>.<d2> ));二.在第 16 行中，执行 TOPSIS 方法，该方法的时间复杂度为 O(k(nc))，其中 n 是节点数，c 是标准数。

根据社交网络图的特征，我们有n<d2>、n<d>和n>>c。因此，所提出的算法的阶数为 O( n + k(<d>. <d2>) + k(nc)) ∈ O(kn)。

下一节将评估和分析MCIM算法在影响力最大化问题中的效率。

4. Experiments and evaluation of the proposed approach

为了评估所提出方法的性能，我们将 MCIM 算法与最先进的算法进行了比较。将 MCIM 方法与 CELF (Leskovec, Krause, et al., 2007)、k-shell (Kitsak et al., 2010)、IMSN (Sheikhahmadi & Nematbakhsh, 2017)、双重折扣 (DD) (Chen et al., 2017) 进行比较。，2009），具有度中心性（DCD）的基于距离的着色（Guo et al.，2016），具有k壳中心性（DCK）的基于距离的着色，以及启发式聚类（HC）（Bao et al.，2017）。鉴于 CELF 方法在大型数据集中的运行时间较长，因此仅针对小规模的人工数据集进行了测试。我们使用六个真实世界的数据集来比较我们提出的方法与相关最先进方法的性能。

Hamsterster full (HAM) 数据集（Kunegis，2013），它代表了一个基于 hamsterster.com 网站用户之间的友谊和家庭关系的网络； • 广义相对论和量子宇宙学数据集（Leskovec、Kleinberg 和 Faloutsos，2007 年），该网络由 1993 年 1 月至 2003 年 4 月提交到广义相对论和量子宇宙学类别的论文作者之间的关系组成；

• Gnutella 数据集（Leskovec、Krause 等人，2007 年），2002 年 8 月以来 Gnutella 对等文件共享网络的一系列快照；

• Pretty Good Privacy (PGP)（Boguñá、Pastor-Satorras、DíazGuilera 和 Arenas，2004 年），Pretty Good Privacy 算法的用户之间的交互和关系网络；

• Astro (AST) 数据集（Leskovec、Klienberg 等人，2007 年），该网络包含 1993 年 1 月至 2003 年 4 月期间提交给天体物理类别的论文作者之间的关系；

Twitter (TWT) 数据集 (Leskovec & Mccauley, 2012)，一个由 Twitter 网络用户之间的关系组成的网络。

上述数据集的特征，包括节点数、边数、平均节点度<d>、平均二阶度<d2>、平均网络聚类系数如表1所示。

此外，还利用了一系列人工数据集来更好地评估所提出的方法，为此目的，采用了 LFR (Lancichinetti-Fortunato-Radicchi) (Lancichinetti, Fortunato, & Radicchi, 2008)。 LFR是生成人工数据集的基准，可以根据不同的参数生成不同的图，例如节点数（N）、平均节点度（<d>）、社区结构的混合参数（μ）和度分布的幂律 (γ )。

4.1. Evaluation strategies

SIR传播模型已用于评估不同方法中所选种子集的影响传播能力。为此，首先将属于方法x选择的种子集的节点设置为状态I，并将其他节点设置为状态S，并且由该模型触发传播过程。在过程结束时，处于状态 R 的节点数量被视为初始种子集的影响力扩散。为了更准确的评估，SIR过程已经运行10 00次，并且R节点的平均数量被报告为种子集的影响力传播。在 SIR 实验中假设 α 的值为零，并且采用了两个模型来指定 β 的值：

• 均匀性模型（UM）（Park 等人），其中假设所有图边的扩散概率 β 相等；

• 基于度的模型 (DM) (Friedman)，在现实世界场景中，与 UM 不同，每两个用户之间的边的 β 值可能不相等，并且可以根据关系和友谊的强度而有所不同它们之间;因此，在DM中，从节点v到节点u的传播概率β被认为是1/du。

统计检验也被用来调查影响结果传播的显着差异。为此，首先使用弗里德曼检验（Friedman，1937）研究结果的显着差异，如果存在差异，则将使用 HolmBonferroni（Derrac、García、Molina 和 Herrera，2011）检验作为事后程序均存在显着差异。在此过程中，将影响范围最大的方法视为控制算法，并确定控制算法与其他算法之间的差异。

Holm–Bonferroni 过程（Derrac 等人，2011）基于从 Y 问题的 X 算法获得的统计值进行操作。在此过程中，选择具有最佳值的算法作为控制算法，然后确定其结果与其他算法的结果之间的差异。假设 p1, p2, ..., pX − 1 是其他算法的 p 值（按升序排列），H1,H2,...,HX − 1 是它们相应的假设。如果 i 是满足 pi>δ / (X−i) 的最小值，其中 δ 是置信水平，则 Holm-Bonferroni 过程拒绝假设 H1 到 Hi − 1，并保留其余假设。

在实验中，研究了这些方法的效率及其确定种子集的准确性。为此，每种方法在不同的数据集上执行 30 次，并报告其平均运行时间。

4.2. Experiments on real-world datasets

在第一个实验中，种子集 k 的大小从 10 到 80 不等，并且使用不同的方法确定有影响力的节点集。在每种情况下，种子集的影响力传播都是使用 SIR 过程计算的。在本实验中，使用UM，并且根据所用数据集中节点的平均度和二阶度。实验结果如图2所示。

如图 1 所示，MCIM 方法选择的种子集比其他方法具有更高的影响范围，并且 MCIM 方法比其他方法表现出相当大的改进，特别是随着 k 值的增加。这表明，与其他方法不同，MCIM 方法能够随着 k 值的增加选择具有最小重叠的有影响力的节点，这导致该方法具有更好的传播效果。 KS 方法的影响范围最小，因为它忽略种子集成员之间的重叠，并选择排名列表顶部的成员。在较大的数据集上，例如 PGP、AST 和 TWT，对于较低的 k 值，DD 方法优于 MCIM，因为有影响力的节点彼此重叠的可能性较小，而该方法无法选择具有较高值的最小重叠的有影响力的节点k.的IMSN 方法在 HAM 和 TWT 数据集上提供的结果接近 MCIM 的结果，但在其他数据集上没有获得可接受的结果。

在下一个实验中，研究了改变 UM 中 β 值对不同方法的影响。为此，假设种子集的大小为 k=40，β 的值从 0.01 变化到 0.1，并且在每种情况下使用 SIR 计算了通过不同方法选择的种子集的影响范围。。本实验结果如图3所示。

图3表明MCIM方法在GRQC、PGP、AST和TWT数据集上优于其他方法，并且不同方法在HAM数据集上获得了接近的结果。与 GLA 相比，DD 方法在低 β 值时优于其他方法，但在较高 β 值时却获得较差的结果。 DCD 方法在此数据集上获得的结果也接近 MCIM 的结果。对于较大的数据集，在选择 AST 上有影响力的节点时考虑重叠的重要性使得 MCIM 在传播过程中取得更大的成功，因为考虑到节点的密度边的数量，而 TWT 数据集中的稀疏性导致不同的方法获得的结果彼此更接近。

在接下来的实验中，研究了 DM 中每种方法的准确性。为此，种子集大小 k 从 10 变化到 80，并且在每种情况下都使用 SIR 计算了通过不同方法获得的种子集的影响范围。本实验结果如图4所示。

从图 4 中可以看出，MCIM 方法在 DM 中比在 UM 中比其他比较方法表现出更大的改进。在 GLA 和 AST 数据集上，对于较低的 k 值，DD 方法的影响范围比 MCIM 更高，但在其他数据集上的影响范围比 MCIM 低得多。图4的结果表明，在该模型中，IMSN方法在大多数数据集上获得的结果比其他方法更接近MCIM的结果，并且仅在GRQC数据集上该方法表现出非常低的影响扩散。随着数据集大小的增加，DCD 和 DCK 方法的影响范围也较小。

4.3. Experimentation over artificial datasets

在本实验中，研究了不同网络图参数对不同方法准确性的影响。为此，使用 LFR 生成了一系列具有不同结构特征的数据集。在生成人工数据集时，首先考虑参数 N = 10 00、<d> = 10、γ = 2 和 μ = 0.2。然后评估了每个特征的变化对不同方法的准确性的影响。本实验中再次使用了 UM，并且本节所有实验中 β 的值均假设为 0.05。

在第一个实验中，研究了平均图度<d>对方法性能的影响。为此，<d> = 5, 10, 15 的值发生变化，而其他参数保持不变，并生成了三个不同的数据集。对于每个数据集，使用不同的 k 值计算通过不同方法获得的种子集，然后使用 SIR 确定每个种子集的影响范围。图 5 显示了三个数据集的实验结果。

图5的结果表明，所提出的方法获得了与CELF接近的结果。平均图节点度的增加会导致 MCIM 和 IMSN 方法的准确性下降。这种增加使得 DCD 和 DCK 方法获得的结果更接近 MCIM 的结果，并逐渐表现出比 MCIM 更好的结果。

在下一个实验中研究了 γ 的变化对不同方法性能的影响。为此，生成了三个不同的数据集，其中 γ = 2、2.5、3 的值各不相同，并且如之前的实验一样，研究了每个数据集的不同方法的影响范围。实验结果如图 6 所示。

图 6 中的结果表明，随着 γ 值的增加，MCIM 改善了对其他模型的影响扩散，其中 MCIM 获得的结果尤其优于 CELF。下一个实验研究改变 μ 对不同方法性能的影响。与之前的两个实验一样，本实验使用 LFR 生成三个人工数据集，其值变化为 μ = 0.2、0.5、0.8。然后使用 SIR 计算不同方法对每个数据集的影响分布。图7显示了实验结果。

图7所示的结果也表明MCIM方法的结果是可以接受的。在μ=0.5的网络中，MCIM方法得到的结果与CELF非常接近。此外，随着μ值的增大，μ=0.8的网络中不同方法得到的结果也越来越接近。

4.4. Statistical tests

在这些实验中，使用统计检验验证了不同方法在 UM 和 DM 中影响结果传播的显着差异。在本节的所有实验中，置信水平均假设为 0.05。根据Friedman统计检验结果，有显着差异两个模型中不同 k 值的结果。因此，Holm-Bonferroni 测试被用作识别算法之间具体差异的事后程序。

表 2 显示了基于 Holm-Bonferroni 程序结果的 p 值，该结果是通过不同方法在不同 k 值下获得的影响值的平均分布。在该表中，_ 表示相应的方法具有最大的分布的影响，并已被视为控制算法，粗体值表示相应的假设已被拒绝。表 2 表明，基于 Holm-Bonferroni 程序的结果，MCIM 方法比其他方法表现更好。当k=10时，考虑DD方法作为控制算法，MCIM、DCD、DCK和HC方法获得与该方法接近的结果。在其他情况下，考虑到不同方法的影响范围，MCIM方法被认为是控制算法。表2中的结果表明，对于不同的k值，DCD方法获得的结果比其他方法更接近MCIM的结果。对于 k = 70 和 k = 80 的值，DD 方法的性能比 MCIM 差得多。表 2 中的结果还表明 KS、DCK 和 IMSN 方法的性能较差。

表 3 显示了 DM 中的实验结果。同样，DD 方法被认为是 k = 10 时的控制算法，MCIM 方法被认为是其他 k 值的控制算法。如表中的结果所示，MCIM 方法的性能优于其他方法，DD 和 IMSN 方法获得的结果比其他方法更接近 MCIM 的结果。对于 k = 70 和 k = 80 的值，IMSN 方法优于 DD，而对于较低的 k 值，DD 方法获得的结果最接近 MCIM 的结果。

4.5. Efficiency

在本实验中，MCIM 和其他比较方法在不同网络上进行了 30 次测试，以评估所提出方法的效率，每种方法在不同人工和真实数据集上的平均运行时间如图 8 和图 8 所示。 . 9 分别。 VC++ 2013 编程环境已用于实现所提出的算法和其他比较方法。拟议的该方法和其他比较方法已在具有 Core i7 2.3 GHz 处理器和 8 MB 内存的系统上运行。

图 8 中的结果表明 CELF 方法的运行时间较长，这使得在大型数据集上使用该方法具有挑战性。

根据图8和图9的结果，在小数据集上，DCD和DCK方法的时间复杂度低于MCIM，而随着网络规模的增加，这些方法的计算复杂度接近MCIM。 HC法考虑到图节点必须集群，它还需要比 MCIM 更高的运行时间。 DD、KS和IMSN方法的计算复杂度低于MCIM。

5. Discussion and conclusion

近年来，通过社交网络平台传播消息和广告引起了广泛关注。选择有影响力的用户集作为传播过程的初始核心对于消息在这些网络上传播的程度非常有效。因此，确定社交网络中有影响力的用户集引起了各种科学领域的广泛关注。在指定有影响力的用户集时应考虑两个目标：所选节点的影响力传播以及这些节点之间的重叠量和距离。本文提出了一种MCIM方法来选择初始扩展核心的用户集。在该方法中，考虑到上述两个目标，规定了直接和间接影响传播的规范的两个标准以及节点和种子集之间的直接和间接重叠的规范的两个标准。然后，利用TOPSIS方法选择一组有影响力的节点作为传播过程中的初始核心，使得该集合具有影响力传播最大和重叠最小的特点。在各种数据集上进行了一系列不同的实验，以调查和评估所提出方法的准确性和效率。使用 SIR 模型对所选集合对现实世界网络的影响传播进行的调查表明，MCIM 在集合选择方面比其他方法表现得更准确。使用人工数据集对不同图参数的影响进行的调查也证明了 MCIM 的适当性能，然而，在图平均度非常高的网络上，MCIM 的性能低于其他方法。还采用统计检验来验证不同方法的影响传播之间的显着差异。根据测试结果，与其他方法相比，MCIM 方法在 UM 和 DM 方面具有可接受的准确性。对比较方法效率的评估还表明，MCIM 方法具有可接受的时间成本，特别是在大型数据集上。在所提出的方法中，种子集大小 k 已被视为问题的输入，并且没有假设特定标准来指定其最佳值。然而，适当的 k 值可以在网络上的消息传播与传播成本和与用户直接通信的过载等约束之间提供权衡。未来工作中可以考虑的一个有趣问题是提出一种算法，以合理的成本获得最佳 k 值以实现更大的消息传播。在未来的工作中可以研究一种用于识别有向网络和加权网络中有影响力的用户集的方法以及 MCIM 在这些网络中的应用。