FastCover: An Unsupervised Learning Framework for Multi-HopInfluence Maximization in Social Network

最新推荐文章于 2024-09-06 19:46:13 发布

流浪的诗人，

最新推荐文章于 2024-09-06 19:46:13 发布

阅读量583

点赞数 24

分类专栏：读论文文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_59482564/article/details/137011409

版权

读论文专栏收录该内容

74 篇文章 6 订阅

订阅专栏

Abstract

在社交网络中寻找有影响力的用户是许多可能有用的应用程序的一个基本问题。将社交网络视为一个图，一组用户的影响力可以通过位于网络中给定数量的跳数内的邻居数量来衡量，其中每个跳数标志着影响力扩散的一步。在本文中，我们将 IM 问题简化为预算受限的 d-hop 支配集问题 (kdDSP)。我们提出了一个统一的机器学习（ML）框架 FastCover，通过以无监督的方式学习有效的贪婪策略来解决 k-dDSP。作为该框架的一个关键组成部分，我们设计了一种新颖的图神经网络（GNN）架构，即图反向注意力网络（GRAT），它可以捕获邻居之间的扩散过程。与大多数用于组合优化问题的启发式算法和并发 ML 框架不同，FastCover 仅通过一次 GNN 前向传播计算出的节点分数来确定整个种子集，并且时间复杂度与图大小呈准线性关系。对合成图和现实世界社交网络的实验表明，FastCover 可以找到由并发算法呈现的质量更好或相当的解决方案，同时实现超过 1000 倍的加速。我们模型的源代码可在 https://github.com/pqros/fastCover 获取。

1 Introduction

识别一组可以影响尽可能多的其他参与者的参与者，称为影响最大化（IM），是社交网络分析中广泛研究的问题，并已广泛应用于个性化推荐[15]、目标广告[16] ，以及有影响力的推特识别[11]等。例如，解决IM可以让我们在社交媒体上有效地找到潜在的品牌代言人，从而最大限度地传播信息。

具体来说，社交网络可以被视为一个图，其中代理为节点，代理间交互为边，影响力沿着边缘扩散到外围代理。因此，社交网络中的 IM 问题本质上是一个支配集问题（MDSP），在该问题中，我们寻找影响力通过其邻域覆盖最多代理的节点子集。社交网络中 IM 的传统解决方案通常将一跳覆盖视为直接邻居之间的确定性或概率扩散模型，例如独立级联 (IC) 和线性阈值 (LT) 模型。在实践中，我们观察到社交网络中的交互有时也采取多跳的形式。例如，当识别出有影响力的推特时，不仅关注者，而且关注者的朋友也会受到影响。

d 跳支配集问题（MdDSP）是 MDSP 的一个变体，直接考虑节点之间的多跳覆盖。对于图 G = (V, E)，MdDSP 的目标是找到 G 中的 d 支配集 S，使得每个节点要么属于 S，要么可以在 d 跳内从 S 中的节点到达。例如，在图 1 所示的玩具示例中，v5 是距 v4 的 1 跳，而 v2 是距 v4 的 2 跳。 S = {v4, v7} 不是 2 支配的，因为需要 3 个步骤才能从 S 覆盖 v13。

图 1：无向图中多跳覆盖的图示

获得 MdDSP 的精确解的成本很高，尤其是对于大规模图。贪婪算法是 MdDSP 的基准启发式算法，而计算多跳邻居会产生令人望而却步的复杂性。大多数基于机器学习 (ML) 的组合优化框架的研究也仅限于包含少于数万个节点的图。对于现实世界的社交网络，我们需要更有效的方法来高质量地解决MdDSP

在本文中，我们提出了一种无监督学习框架 FastCover，用于解决 k 预算约束的 MdDSP，即 k-dDSP。作为该框架的一部分，我们提出了一种称为图反向注意网络（GRAT）的新型图神经网络（GNN），它将邻域的影响纳入每个顶点的数值特征中。 FastCover 在具有多达 40 万个顶点的合成图和现实网络上进行评估。实证结果证明，与最先进的模型相比，该模型找到了可比较甚至更好的解决方案，同时实现了显着的加速。因此，FastCover 可以作为解决 k-dDSP 的有竞争力的候选者。

这项工作的贡献有三个：

我们提出了一种新颖的框架 FastCover，通过基于注意力的图神经网络以无监督的方法有效且高效地解决预算受限的 MdDSP。

为了更好地建模覆盖范围，我们设计了图反向注意网络（GART），这是一种新颖的图神经网络架构，它利用邻居之间扩散过程的内部特征。

我们对合成图和现实网络进行了广泛的实验，证明了我们的模型在推理速度和解决方案质量方面的优越性。

本文的其余部分按以下结构组织：第 2 节介绍背景信息和相关工作。在第 3 节中，我们给出了 d 支配集问题 (k-dDSP) 的 k 预算约束版本的公式的定义和符号。在第 4 节中，我们提出了可以有效解决该问题的模型 FastCover。在第 5 节中，我们通过对合成数据集和真实数据集的实验将我们的模型与并发解决方案进行比较。最后，第 6 节总结了工作。

2 Related Works

在社交网络中 IM 的研究中，许多假设 IC 或 LT 作为底层的扩散模型。戈亚尔等人。文献[5]采用蒙特卡洛模拟来估计节点的影响能力并贪婪地构造种子集。唐等人。 [17]引入鞅来研究传播的随机扩散，Nguyen 等人。 [12]进一步加速他们的采样算法。陈等人。 [2]提出了一个模型，联合模拟对链接和后期生成的影响效果。然而，两种扩散模型都忽略了多跳邻居上的直接扩散，这在面向服务的社交网络的实际场景中经常观察到。

最近基于支配集问题研究了具有多跳扩散的IM，其目的是找到覆盖整个图的顶点子集。传统算法如[3]虽然性能有保证，但通常比较耗时。特别是MdDSP的启发式算法通常采用贪婪策略设计。 Basuchowdhuri 和 Majumder [1] 提出了一种针对 MdDSP 的贪婪启发式算法，该算法在剩余节点中重复选择具有最大覆盖范围的节点。阮等人。 [13]预先计算每个节点的多跳覆盖，并添加预优化和后优化阶段，这在经验上提高了[1]的速度。然而，这种启发式算法牺牲了性能来换取时间，这促使我们寻求其他方法来解决 MdDSP。

据我们所知，尚未针对 MdDSP 提出基于 ML 的解决方案，但尝试应用神经网络 (NN) 来解决图上的其他组合优化问题。第一个演示是 Hopfield 网络 [20] 通过优化能量函数在旅行商问题 (TSP) 中的应用。 Karalias 和 Loukas [6] 将能量函数的思想扩展到基于 Erd ̃os 概率方法的更一般形式。

作为一种流行的替代方法，S2V-DQN 是 Khalil 等人提出的基于 RL 的通用图组合优化框架。 [8]。它使用 GNN 进行图嵌入，使用深度 Q 网络 (DQN) 进行节点选择策略来形成解决方案，并在后来的 ML 工作中广泛采用以进行组合优化。特别是在社会影响方面，米塔尔等人。 [10] 在求解顶点覆盖和 IM 时，在图简化的预处理阶段结合了几种启发式方法。王等人。 [19]利用图嵌入中的用户特征来解决社交网络中的 IM。尽管这些基于强化学习的解决方案可以针对各种组合优化问题生成接近最优的解决方案，但一个常见的瓶颈是神经网络重复评估的大量时间消耗，并且它们很难推广到更大的图，例如现实中的社交网络。

3 Problem Formulation

在有向/无向图 G = (V, E) 中，从顶点 u 到 v 的距离 dist(u, v) 定义为从 u 到 v 的最短路径的长度。当 U ⊆ V 时，我们定义 dist (U, v) , minu∈U dist(u, v)。

定义 1. (d-coverage) 由 N + d (u) 表示的顶点 u ∈ V 的 d-coverage (d ≥ 0) 是距离 u d 步内可到达的顶点集合，即

如果 v ∈ N + d (u) 那么我们说 v 被 u d 覆盖。特别是，我们有 N + 0 (u) = {u} 且 N + 1 (u) 与 u 的外邻居/后继者与其自身联合 N +(u) ∪ {u} 一致。对于 d > 1，N + d (u) 可以递归计算

同样，我们通过 N+ d (U ) = ⋃ u∈U N + d (u) 定义集合 U ⊆ V 的 d 覆盖。 G 的 d 支配集是子集 S ⊆ V ，其 d 覆盖率为 V ，并且[1]定义了最小 d 支配集问题（MdDSP）以找到具有最小基数的 d 支配集。这里我们定义 d 支配集问题 (k-dDSP) 的 k 预算约束版本如下。

定义 2. (k-dDSP) 给定 G = (V, E)、预算 k 和最大跳数 d，目标是找到基数最多为 k 的子集 S ⊆ V（即 |S| ≤ k ）使得 S 所覆盖的节点 d 的数量最大化。

这里，子集S也称为种子集，S中的节点就是种子。或者，k-dDSP 可以正式定义为优化问题 (3.1)：

正如[1]中所指出的，对于所有 d ≥ 1，MdDSP 都是 N P-hard。由于 k-dDSP 包含 MdDSP 作为一种特殊情况，因此它的 N P-hardness 也成立。

4 Proposed Model

在本节中，我们将介绍解决 k-dDSP 问题的框架 FastCover，如图 2 所示。

图 2：所提出的框架 FastCover 应用于八个节点的简单有向图的图示。

4.1 Motivation

贪婪启发式广泛应用于解决图优化和覆盖问题。 [1]提出了一种简单但竞争性的贪心算法，基于每个顶点 u ∈ V 的有效覆盖范围（即 N + d (u) 中未被已选择的种子 d 覆盖的节点数量）来求解 MdDSP。

尽管贪心算法在解决方案质量方面具有优势，但由于存在两个瓶颈，它在 d > 1 的大型图上的运行时间令人望而却步：（1）计算每个节点的 d 覆盖率； (2)更新种子集后更新各节点的有效覆盖范围。

为了克服这些限制，我们希望为每个节点分配一个不同于有效覆盖范围的分数，代表其对嵌入图的拓扑的“整体”影响。特别是，我们希望这样的分数使我们能够通过简单地选择具有top-k分数的节点作为具有预算k的种子集来获得高质量的解决方案，并且我们可以理想地绕过第二个瓶颈。此外，如果可以在相对于图的线性时间内计算所有节点的分数，那么总时间复杂度可以有效地降低到O(|E| + |V | log |V |)。

然而，明确定义分数并不容易。节点 u 的分数的一个合理定义是其 d-覆盖范围的基数 ∣ ∣N + d (u)∣ ∣。然而，由于相似点效应，这种启发式方法是有缺陷的。如果两个节点具有高度重叠的覆盖范围，则它们是相似的，并且将它们都包含在种子集中可能会浪费预算。两个节点 u 和 v 的相似度可以通过其 d 覆盖范围的 Jaccard 相似度来测量，定义为 Jd(u, v) , |N + d (u) ⋂ N + d (v)| |N + d (u) ⋃ N + d (v)| 。

图 3：玩具示例和真实图表中相似点效应的图示。

考虑图 3a 中的玩具示例，其中 d = 1 且 k = 2。节点 6 和 1 是邻居最多的节点，但它们的 Jaccard 相似度显着为 0.83。给定节点 6 已被选为种子，第二个种子的最佳选择应该是 7、8 或 9，而不是 1。在实际图中也存在类似的现象。在图3b所示的HepPh[14]中，节点328和297分别有486和482个邻居，在所有顶点中排名第二和第三。它们有 450 个共同邻居，J1(328, 297) = 86.9%。因此，我们必须找到一个更能反映彼此接近的节点之间关系的分数，例如不同节点覆盖范围之间的重叠效应。

特别是，GNN 是隐式学习理想分数的候选解决方案。

4.2 Top-level Framework Design

根据《Section》中的分析。 4.1，我们提出了 FastCover，一种无监督学习模型，结合了 GNN，可以计算节点的分数并有效地求解 k-dDSP。一般来说，GNN 捕获有向/无向图中邻居节点之间的局部交互，并找到每个节点的表示。典型的 GNN 结构，例如图卷积网络 (GCN) [9] 和图注意网络 (GAT) [18]，一次前向传播的时间复杂度为 O (C(|E| + |V |))，其中 C 是由 GNN 确定，独立于输入图。因此，GNN 可以有效地融合邻域信息并评估节点

图2所示的FastCover的主要组件描述如下：

预处理。图中所有边的方向都被反转，顶点作为数值向量嵌入并输入到 GNN 中。

分数。称为图反向注意网络 (GRAT) 的多层 GNN 将每个节点映射到其分数范围 [0, 1]。

损失函数。在训练阶段，GNN 中的参数通过节点分数的可微损失函数进行优化。

在评估阶段，我们只需通过一次前向传递训练过的 GNN 计算每个节点的分数，并通过 top-k 搜索构建种子集。

4.3 Differentiable Loss Function

受随机算法的启发，我们以概率方法解释分数。我们希望分数 p = (pv)v∈V 来表示每个节点 v 被选为种子集一部分的概率。由于我们没有先验地施加预算 k，因此我们只关注节点之间概率的相对幅度。图G中节点的分数p的损失函数定义如下：

其中 λ > 0，并且通过积分选择种子集的随机性来计算期望值。 p。 (4.2) 中的第一项惩罚未受影响顶点的预期数量。最小化此项相当于最大化 d 覆盖的顶点数量。第二项规范了种子集的预期大小，以便不太可能选取重要性较低的顶点。如果没有后一项，对于所有 v ∈ V ，(4.2) 的最优解显然是 pv = 1。 λ 平衡这两项的影响。

为了明确地表达（4.2），我们进一步假设节点独立地包含在种子集中。根据期望的线性，种子集的期望基数为 Σ v ∈ V pv 。未覆盖的顶点 u 相当于该顶点本身和其 d 覆盖范围内具有 u 的任何顶点都不包含在种子集中，即

• L(·,·) 仅在 GNN 的训练阶段进行评估。所以它的空间复杂度并不妨碍推理阶段的效率。

• (4.3) 中的乘积 ∏ v:u∈N + d (v)(1 − pv) 可以用反转图 Grev 的邻接矩阵完全矢量化。因此，L(·,·)及其梯度的计算可以通过GPU并行和加速

此外，我们观察到（4.3）有效缓解了相似点效应的问题。当 d = 1 时，出度排名第 2 和第 3 的 HepPh 节点 328 和 297 通过在 λ = 1 下最小化（4.3），得分分别排名第 2 和 494。

4.4 GNN 架构

直接针对 p 进行优化（4.3）非常耗时，尤其是在大图上。所以我们打算使用 GNN 来寻找近似解。

4.4.1 输入

在k-dDSP 中，输入是一个图G = (V, E)。我们首先通过翻转所有边的方向将 G 变换为其反转图 Grev。直觉上，节点的分数/重要性是由我们上下文中 G 中的后继者决定的，并将在 GRAT 部分中进一步解释。由于我们只利用网络拓扑，因此我们模型中的节点嵌入采用统一初始化。

4.4.2 GRAT Layer

为了结合k-dDSP的特点，我们设计了一种新颖的GNN架构图反向注意网络（GRAT），其中我们在源节点而不是传统GAT中的目标节点集成了注意机制[18]。

作为典型的 GNN，GRAT 层的输入是一组节点特征 ( h(l) v ) v∈V ，输出是 ( h(l+1) v ) v∈V 。在消息传递过程中，从 u 到 v 的边的特征表示为其事件顶点 u 和 v 的串联

对于 u ∈ V ，注意力系数在 N +(u) 上计算：

其中激活函数 ReLU(·) = max(·, 0)，a(l) 是可训练向量

最后，GRAT 层的输出由 (4.5) 给出

其中 N −(u) 表示 u 的前驱，W (l)、b(l) 是可训练参数。 σ(·) 是可选的激活函数。

图4：使用GRAT和GAT从v1、v2、v3上的h(1)更新v4、v5、v6的h(1+1)的图示。自循环被省略。在 (a) 中，节点源的注意力系数在 GAT 中标准化。在 (b) 中，GRAT 中的注意力系数将每个源节点的特征划分为其后继节点，并且目标节点接收到的总权重可以不为 1。

图 4 说明了 GRAT 和经典 GAT 之间的差异。对于节点 u，GAT 中的注意力系数相对于其前身 N −(u) 进行归一化，以便更新的特征在不同节点之间具有可比性 [18]。在k-dDSP中，我们的目标是轻松识别节点之间影响力的差异，而GAT中的这种归一化机制可能不是最合适的。相反，在 GRAT 中，每个源节点 u ∈ V 的注意力系数在其后继 N +(u) 上进行归一化。

GRAT 背后的动机如下。考虑最简单的情况，d = 1。一个节点被多个节点覆盖并不会增加奖励。因此，我们将 h(l)(u) 解释为覆盖 u 的奖励信号，并通过 GRAT 中的注意力系数将其分布在 N +(u) 上，即当 GRAT 应用于 Grev 时，G 中覆盖 u 的顶点。因此，覆盖范围更广的节点可能会收到更强的奖励信号，并可能获得更好的分数。此外，如果一个节点的覆盖范围与其他节点重叠，由于注意力机制，它收到的总奖励应该会下降，这可能会减轻类似的点效应。

特别是，对于三个隐藏层，每个隐藏层有 32 个隐藏单元，使用 GRAT 的 FastCover 分配 sig-与 HepPh 中相似的点 328 和 297 的分数有显着差异，而使用 GAT 无法有效区分它们。

4.5 Complexity Analysis

为了分析所提出模型的复杂性，我们首先计算 FastCover 中 GRAT 的参数数量。具有 ni 个输入特征且无输出特征的 GRAT 层在 a、W 和 b 中包含 (nino + 2ni + no) 个可训练参数。因此，一个r层GRAT网络包含Σr i=1 (nini+1 + 2ni + ni+1)个可训练参数，其中第i层(i ∈ [1, · · · , r])包含ni个隐藏单元，并且nr+1 = 1 是标量输出

至于时间复杂度，GRAT层中计算(4.4)和(4.5)的复杂度分别为O(ni|E|)和O(nino|V|+no|E|)。因此，评估 GRAT 的总时间复杂度与图大小呈线性关系，与 GAT 和 GCN 相当。最后，我们对输出进行top-k排序，因此总复杂度为O(|V | log |V | + |E|)，低于Greedy。

特别是，当ni恒定为n时，参数数量为rn2 +(3r -1)n−1，每层的时间复杂度为O(n2|V | + n|E|)。

5 Experimental Evaluation

在本节中，我们首先看看候选 GNN 架构在 FastCover 中的性能。然后，我们通过在合成网络和现实世界网络上进行实验，将优化配置的 FastCover 与并行启发式或基于 ML 的算法在求解 k-dDSP 时进行比较。我们的经验表明，我们的模型为问题提供了类似或更好的解决方案，同时速度明显更快。源代码位于 https://github.com/pqros/fastCover。

5.1 Experiment Setup

5.1.1 General Settings

所有实验均在运行 Intel(R) Core(TM) i310100F CPU @ 3.60GHz、八核和 Nvidia 2080 Ti GPU 的机器上进行。结果是通过五次重复实验获得的，并报告了指标的样本平均值。图网络和算法是在 Python 中通过 igraph 和 dgl 库以及 PyTorch 后端实现的，这与相关作品中的环境相匹配 [1,8,13]。

5.1.2 Data

我们使用合成数据集和真实数据集来评估我们的工作。训练和验证在随机 Erd ̈os-Renyi (ER) [4] 图上进行，测试在合成图和包含最多 4.0 × 105 个节点的真实社交网络上进行。

5.2 Baseline Methods

FastCover在解决k-dDSP问题时比较的并发方法描述如下，所有算法的时间复杂度总结在表1中，其中nd表示所有节点d-覆盖的平均基数。

表 1：求解 k-dDSP 算法的时间复杂度总结

• Greedy：在每次迭代中，Greedy [1]将具有最大有效d覆盖率的节点添加到种子集中，并使用广度优先搜索（BFS）更新有效覆盖率。

• CELF：我们从两个方面修改CELF[5]作为K-dDSP问题的Greedy的加速实现。首先，我们预先计算并存储 d > 1 的所有节点的 dcoverage，以避免重复运行 BFS。其次，我们使用优先级队列来存储有效的d-coverage，并在原始CELF中应用“惰性转发”机制以避免不必要的更新。因此，CELF 在很大程度上加速了 Greedy [1]。

• Greedy-1：无论d 的值如何，Greedy-1 都会迭代选择具有最大有效1 覆盖率的节点。我们还在CELF中应用了优先级和延迟转发。

• HEU：HEU [13] 是一种轻量级的三相算法，它集成了基于真实图观察到的特征的多种启发式算法。 • S2V-DQN：S2V-DQN [8] 是一个框架

• S2V-DQN：S2V-DQN [8]是一个通过强化学习解决图组合问题的框架，它使用多层GNN进行图和节点嵌入，并学习基于DQN的迭代节点选择的贪婪策略。

在这些算法中，FastCover 和 S2V-DQN 使用 GNN 进行节点嵌入，我们忽略了仅由其 GNN 架构决定的常数因子。 FastCover、S2V-DQN 和 Greedy-1 的最坏情况复杂度在 d 中是不变的，因为这些方法没有明确节点的 d 覆盖。相反，Greedy、HEU 和 CELF 涉及对节点的 d 覆盖范围，这显着增加了 d > 1 的复杂性。

至于解的质量，CELF（或贪婪）保证了（1−1/e）的近似比[7]，而其他方法没有提供理论上的保证。实际上，CELF 在解决 k 最大顶点覆盖问题时甚至提供了超过 99% 的经验逼近率 [10]。因此，CELF找到的解可以近似视为最优解。

最后，对于内存消耗，CELF 需要 O(|V |nd) 空间来存储 d > 1 时所有节点的 d 覆盖，而其他方法的空间复杂度均与图大小呈线性关系。实际上，|V |nd 通常显着大于 |E|由于真实社交网络的稀疏性。

5.3 Implementation Details of FastCover

在 FastCover 中，GNN 由 3 层组成，每层 32 个隐藏单元，使用 ReLU 作为除最后一层之外的所有隐藏单元的激活函数，其中应用 sigmoid 来标准化结果。训练集由 20 个有向 ER 图组成，n = 1000，p = 10/n，其中有 15 个训练实例和 5 个验证实例。根据验证集中的平均覆盖率，使用耐心 5 提前停止，对每个模型进行最多 20 个 epoch 的训练，每个 d = 1, 2, 3 具有固定的 k。我们将最大跳数设置为 3，因为 (1 ) 它匹配并发作品 [1, 13]； (2)真实社交网络的直径通常是有限的。损失(4.3)中的超参数λ简单地设置为1。

5.4 Results

5.4.1 Impact of GNN Architecture in FastCover

我们首先通过比较解决方案的质量来研究 GNN 架构对 FastCover 的影响。对于所有模型，训练时间都在 300 秒以内，有 6-8 个 epoch 触发提前停止。

图 5：在 ER-1000 上使用 GRAT、GCN 和 GAT 的 FastCover 覆盖率

在图 5 中，我们显示了训练阶段 10 个 ER-1000 图的平均覆盖率，除非另有说明，所有 GNN 均采用随机梯度下降（SGD）进行训练。我们发现 GRAT 在覆盖率方面始终优于 GCN 和 GAT，并且达到了与 CELF 相当的性能。

同样有趣的是，Adam 使用 GRAT 产生的 FastCover 覆盖率较低，这可能是由于优化器 SGD 与 Adam 相比具有更好的泛化能力 [21]。

对于 d = 2、3，FastCover with GCN 的平均覆盖率略低于 GRAT，但其性能明显优于 GAT，这表明 GAT 中的注意力机制在 k-dDSP 中受到限制。平均而言，k 范围为 1 到 128 时，GRAT 的覆盖率为 CELF 的 99.0%，而 GCN 和 GAT 的覆盖率分别为 92.3% 和 62.9%。

我们还注意到，当预算 k 有限时，带有 GRAT 的 FastCover 的性能非常接近 CELF。对于每个实例，GRAT 对前四个候选者做出与 CELF 相同的选择，而以下可能有很大不同。一种可能的解释是，损失函数（4.3）对影响力强的节点的得分更敏感，而重要性较低的节点之间的差异并不总是能够正确识别。

表2：测试集中的ER-1000、ER-2000、ER-4000、ER-8000上使用GRAT、GCN和GAT的FastCover的平均覆盖率。

我们还随机生成 10 个 ER 图，其中 n = 2000、4000 和 8000，p = 10/n，以检查 FastCover 的泛化性能。我们修复对于 d = 1、2、3，k = 64、16、4，并在表 2 中报告平均覆盖率。在所有情况下，使用 GRAT 的 FastCover 始终优于 GCN 和 GAT，与 CELF 相比，差距始终在 2% 以内，证明了FastCover和GRAT在求解k-dDSP方面的有效性。

5.4.2 Real Graphs

我们修复了在 ER 图上训练的 FastCover 中的 GRAT 参数，并针对 6 个真实社交网络图上的并发方法对其性能进行了基准测试，其顶点数量范围从 5.9 × 103 到 4.0 × 105

在表3中，我们报告了预算k固定为64的实际网络的覆盖率，以及顶点数n和边m的数量。我们的方法 FastCover 在 t = 900 秒内解决了 d = 1, 2, 3 的所有实例，并在除一种情况之外的所有实例中实现了最高的速率。当算法终止时，基准 CELF 具有稳定的性能，而在 d = 2、3 的情况下，它在 5 种情况下失败。

表 3：k-dDSP 在 k = 64 时在真实图表上实现的覆盖率。 FC和DQN分别是FastCover和S2V-DQN的缩写。 – 表示未能在时限 t = 900s 内终止。

与其他基于 GNN 的方法一样，由于 900 秒的时间限制，S2V-DQN 无法扩展到具有超过 105 个节点的两个最大图。 GREEDY-1 和 HEU 都是轻量级启发式算法，可以解决 k-dDSP 的所有实例。然而，在某些情况下，它们的性能可能大大低于 CELF。因此，我们得出的结论是，基于与 CELF 相当的覆盖范围，GRAT 可以很好地推广到更大的真实图。

现在我们研究不同算法的效率。作为一个说明性的例子，我们在图 6 中的 soc-anybeat 图上跟踪不同方法消耗的运行时间，该图具有适度的大小，以便所有算法在时间限制内终止

我们将 k-dDSP 问题与 d = 1 和 d = 2, 3 区分开来，因为它们具有不同的理论复杂度。当 d = 1 时，GREEDY-1（与 CELF 相同）和 HEU 效率最高，比 FastCover 快大约 2 到 3 倍。另一方面，S2V-DQN 具有最高的复杂度，运行时间在 k 中显着增加，因为每次迭代中通过 GNN 重新评估每辆车的重要性，而 FastCover 只进行一次前向传递。

图 6：不同 d 下 k-dDSP 在 soc-anybeat 上运行所消耗的时间

对于 d = 2, 3，我们首先凭经验验证 FastCover、DQN 和 GREEDY-1 的运行时间几乎不受 d 的影响，这与表 1 中的理论结果相符。另一方面，CELF 和 HEU 的运行时间要高得多。由于评估 d 邻域而导致 d 增加时的时间复杂度。我们发现，当 k 增加时，FastCover 的运行时间与 HEU 相当甚至更少，并且在 soc-anybeat 上比 CELF 快 900 倍以上。在其他图表上观察到类似的运行时间结果，这证明了我们的方法 FastCover 的效率。

6 Conclusion

在本文中，我们关注影响力最大化，这是一个重要问题，旨在选择社交网络中有影响力的用户，以有限的预算促进传播。我们首先将确定性多跳方法中的影响传播过程建模为 d-hop 覆盖问题。然后，我们提出了一种新颖的无监督框架 FastCover，它结合了图神经网络来解决预算受限的 d-hop 支配集问题 (k-dDSP)，该框架仅用 GNN 的一次前向传递来确定种子集，并以良好动机概率进行训练基于损失函数。我们还提出了一种新颖的图网络架构GRAT，在FastCover的具体优化中优于主流GNN。合成图和大型真实图上的实验结果证明，与实践中的基准非机器学习或机器学习方法（例如 CELF 和 S2V-DQN）相比，FastCover 计算出接近最佳的覆盖率，同时实现了显着的加速。