ABSTRACT
微观层面、社区层面和宏观层面的网络结构特性对节点传播影响力的贡献不同。挑战在于如何更好地利用不同的结构信息,同时保持传播影响力识别算法的效率。考虑微观层面、社区层面和宏观层面的结构信息,提出一种基于图卷积网络的改进算法,即多通道RCNN(M-RCNN)来识别传播影响节点。由于我们注重算法的效率和准确性,因此引入了三个计算复杂度较低的中心性:邻居度之和、节点所连接的社区数量以及k核值。为了构建 M-RCNN 的输入,我们首先使用广度优先算法为每个节点提取固定大小的邻域网络。然后利用三个矩阵对节点的输入进行编码,而不是简单地将不同级别的结构信息嵌入到同一矩阵中,这使得在训练过程中自动学习耦合三个结构属性的权重。在9个真实网络上进行的实验表明,与RCNN算法相比,M-RCNN获得的准确率平均高出9.25%。通过对9个Barabasi-Albert网络进行效率测试,结果表明M-RCNN的计算复杂度接近RCNN。这项工作有助于深入理解网络结构对图卷积网络性能的影响。
1. Introduction
传播影响节点识别的目的是根据节点和网络的属性,找到对网络结构和功能产生较大影响的节点以及能够大规模快速传播信息的节点,是关键之一。网络科学的学术问题,并且对于大量应用具有重要意义(Fan,Zeng,Sun,&Liu,2020;Kitsak等人,2010;Maji,Mandal和Sen,2020)。在交通网络中,定期维护作为枢纽的道路可以防止交通系统瘫痪(郭等,2019);在基因网络中,识别导致疾病发生的关键基因有助于加快治疗速度(Chakrapani、Chourasia、Gupta、Thirumal 和 Haldar,2021);在社交网络中,找到对特定公司的目标客户有强大影响力的博主可以帮助更有效地推广其新产品(Buyalskaya,Gallo,&Camerer,2021;Xiao&Hu,2018)。在过去的几十年里,传播影响节点的识别引起了相当多的研究工作,并且出现了许多基于网络的拓扑属性已经被提出(Liu,Ren,Guo,&Wang,2013;Lü et al.,2016),主要可分为基于微观结构(MSB)的方法(Dai et al.,2019; Liu et al.,2017;Ren,Shao,Liu,Guo,& Wang,2013),基于群落结构(CSB)的方法(Ghalmane,Elhassouni,Cherifi,&Cherifi,2019),基于宏观结构(MASB)的方法( Lin、Guo、Dong、Wang 和 Liu,2014;Namtirtha、Dutta、Dutta、Sundararajan 和 Simmhan,2021),以及基于机器学习 (MLB) 的方法 (Ivanov、Durasov 和 Burnaev,2018;Nargundkar 和 Rao) ,2016)。
MSB方法通过网络的微观结构信息识别传播影响节点,可以满足大规模网络高效识别的需求(Hu等,2018)。最简单的 MSB 算法是度中心性(DC,Freeman,1978),它将节点的一阶邻居的数量定义为其传播影响力。此外,局部中心性算法(Chen,Lü,Shang,Zhang,&Zhou,2012)通过聚合高阶邻居的度值提高了 DC 方法的性能。然而,对于大规模网络,使用结构信息高阶邻居导致高复杂性。 Liu、Tang、Zhou和Do(2016)同时考虑了精度和复杂度,比较了所提出的邻域中心性(NC)算法在使用不同阶邻居节点的结构信息时精度和计算复杂度的变化。尽管MSB方法为大规模网络上的传播影响节点识别提供了解决方案,但研究表明微观结构信息导致节点的位置被忽略(Kitsak et al., 2010; Namtirtha, Dutta, & Dutta, 2018)。因此,MSB方法可以使局部连接密集但实际上位于网络外围区域的节点获得较高的传播影响力得分。此外,Namtirtha 等人。 (2021) 发现 MSB 方法在稀疏网络上表现良好,但在密集连接的网络上可能表现不佳。
社区结构的特点是网络节点分为节点集,使得每组节点内部紧密连接(Pan,Li,Liu,&Liang,2010;Yang,Guo,&Liu,2018)。研究证明,节点的传播影响力与其所连接的社区的结构属性有关,而社区结构可以为理解传播过程提供见解(Qiu,Jia,Yu,Fan,&Gao,2019;Shang,周、李、刘、吴,2017;王、冲、宋、谢,2010)。通过使用节点所连接的社区数量的指数,Zhao、Wang、Zhang 和 Zhu (2014) 检测可能被中心性指数忽略的传播影响力节点。然而,当使用不同的社区检测方法时,网络的社区数量可能会发生变化,这使得该策略不稳定。因此,Zhao、Wang、Zhang和Zhu(2015)进一步考虑社区规模和邻居分布,提出了基于社区的中心性(CbC)方法。 Tulu、Hou和Younas(2018)着眼于属于不同社区的节点之间的关系,通过引入香农熵来衡量节点的传播影响力,提出了基于社区的调解器(CbM)方法。 Zhuo、Guo、Yu 和 Liu (2020a) 通过使用社区级别的结构信息提高了接近中心性的性能 (CC, Sabidussi, 1966)。请注意,CSB 方法依赖于社区检测算法,因为大多数现实世界网络的社区结构通常是未知的(Tang,Li,Lin,Guo,&Liu,2016),并且此类方法可能表现不佳正如预期的那样,当没有明确的模块化结构时(Ghalmane 等人,2019)。
由于计算复杂度较高,MASB方法从网络宏观结构的角度衡量节点的传播影响力,可以避免将处于网络外围区域的节点识别为传播影响力节点。传统的 MASB 中心性包括介数中心性 (BC, Freeman, 1977)、CC (Sabidussi, 1966)、特征向量中心性 (EC,Bonacich, 1972) 和 k 壳分解 (Kitsak et al., 2010)。具体来说,BC将充当两个不相连群体桥梁角色的节点定义为传播影响力节点。 CC将位于网络中心的节点定义为传播影响力节点。 EC 通过邻居的传播影响来衡量节点的传播影响。 k-shell 分解重点关注节点在网络中的位置。
虽然中心性指标在特定场景下可以表现良好,但中心性指标的普适性较低。 Bucur(2020)发现,使用两个互补的中心性来识别传播影响节点可以实现更高的泛化性。近年来,越来越多的科学家尝试将微观和宏观结构信息结合起来,设计具有更高通用性的方法(Maji,Namtirtha,Dutta和Malta,2020)。纳姆蒂尔萨等人。 (2021)提出了一种利用邻居度(ND)和k核值之和来识别传播影响节点的方法,该方法能够通过调整分配给节点微观权重来在不同类型的网络上获得稳定的性能。 -级别和宏观级别的结构信息。从结合微观和宏观结构信息的相同角度来看,Ullah 等人。 (2021)将目标节点与其邻居节点之间的相似度设置为微观结构属性,将k核值设置为宏观结构属性。然而,基于多个结构属性的MASB方法需要预定义权重来耦合不同级别的结构信息,这阻碍了它们在大规模网络上的应用,因为它需要在使用前进行大量测试。
处理多种结构属性的需求以及机器学习和网络科学之间日益增长的跨学科合作趋势催生了 MLB 方法(Keikha、Rahgozar、Asadpour 和 Abdollahi,2020;Yu、Wang、Fu、Chen 和 Xie, 2020)。与MASB方法不同,分配给不同属性的权重可以在机器学习模型的训练过程中学习。与仅考虑微观层次结构信息的MSB方法相比,MLB方法可以利用节点的多种结构属性获得更高的泛化性。对于CSB方法,MLB方法可以通过引入更多的节点结构信息来帮助减少对社区检测算法的依赖。具体来说,MLB方法又可以分为基于统计机器学习(SMLB)的算法和基于深度学习(DLB)的算法。与依赖耗时的特征选择过程的 SMLB 算法相比 (Hu, Xu, Zhuang, & Zhou, 2019),DLB 算法主要基于图卷积网络 (GCNs, Hamilton, Ying, & Leskovec, 2017) ; Kipf & Welling, 2016)是首选,因为它们可以自动过滤重要特征。然而,随着考虑更多的结构属性,一个新的挑战出现了,即在设计MLB算法时如何平衡效率和准确性。
最近,Yu 等人。 (2020) 提出了一种基于图卷积网络的高效算法,称为 RCNN 算法。具体来说,RCNN算法使用广度优先搜索(BFS)算法为每个节点提取固定大小的邻域网络,然后根据每个节点邻域网络的邻接矩阵生成卷积神经网络(CNN)的输入和学位值。尽管RCNN算法适用于大规模网络,但它在构造每个节点的输入时仅使用度值,这可能导致位于网络外围区域的节点被错误分类为传播影响节点。在本文中,我们提出了一种改进的算法,称为多通道RCNN(M-RCNN),该算法考虑了微观层面、社区层面和宏观层面的结构信息。我们没有使用单通道输入来保存三层结构信息,而是为每个节点构建三通道输入,这使得模型可以自动学习分配给不同结构属性的权重,这是M-RCNN算法的框架如图1所示。实验结果表明,M-RCNN算法在所有九个经验网络上都优于RCNN算法和中心性指数,而没有增加太多计算复杂度。
图 1 训练 M-RCNN 算法的框架: (a) 一个玩具网络包含 7 个节点和 8 个边,其中虚线绘制的同一圆圈内的节点属于同一社区,ks 表示 k-shell价值; (b) 基于 BFS 算法和每个节点的度值提取大小 L = 4 的邻域网络。具体来说,邻居节点加入邻域网络的顺序取决于其与目标节点的距离及其度值; (c) 根据邻域网络的节点加入网络的顺序对它们进行编码; (d) 各节点邻域网络的邻接矩阵; (e) 将邻接矩阵变换为三通道节点表示。具体地,包含微观层面信息的矩阵用ND描述,社区层面信息用节点所连接的社区数量(NCom)表示,宏观层面信息用k-core值表示; (f) 每个节点的三通道输入; (g) 训练一个 CNN 来预测节点的传播影响,其中标签由易感-感染-恢复(SIR)模型(Hethcote,2000)生成,损失函数是均方误差。
本文的结构如下。第 2 节介绍了基本定义和相关工作,包括 GCN 和基于 GCN 的算法。在第 3 节中,我们介绍了 M-RCNN 算法的详细信息。实验结果在第 4 节中介绍。最后,我们总结了这项工作的优点和缺点。
2. Related work
在本节中,我们对相关工作进行简要介绍。首先,介绍复杂网络的定义和传播影响节点的识别任务。其次,我们提出本工作中使用的假设。最后,我们总结了几种现有的基于图卷积网络的算法。
2.1. Basic definition
让我们 G(V , E) 是一个无权且无向的网络,由 |V | 组成。 = n 个节点和 |E| = m 条边,其中 V = {v1, v2, ... , vn} 和 E = {e12, e13, ... , en−1n} 分别表示节点集和边集。网络的拓扑可以用邻接矩阵 A = {aij }n×n 表示,其中如果节点 i 连接到节点 j,则 aij = 1,否则 aij = 0。传播影响力节点识别的任务可以进一步分为节点排序问题和影响力最大化问题(IM,Kempe,Kleinberg,&Tardos,2003)。具体来说,节点排序问题是指使用传播影响力节点识别方法,即f(∙)对节点集合V进行排序,然后找到最有影响力的节点或前k个最有影响力的节点。影响力最大化问题旨在找到一组大小为 k 的种子节点 S,其可以比任何大小为 k 的节点集传播更大的影响力,其给出为
其中 σ{S} 是查找 k 个种子节点的函数。在这项工作中,我们关注节点排名问题。
2.2. Assumptions
在本文中,我们使用以下假设: 假设 1. 网络是静态且无向的(Yu et al., 2020):我们假设网络是静态且无向的原因是讨论使用所提出的算法在所有不同类型的网络中都在一项工作中,并且基于静态和无向网络开发的算法可以进一步扩展到时态网络或有向网络。而且,静态无向网络简单,可以帮助读者更容易地理解所提出算法的主要思想。因此,我们在这项工作中将网络简化为静态无向网络。假设2.网络具有社区结构并且不同社区之间没有重叠(Blondel, Guillaume, Lambiotte, & Lefebvre,2008):由于我们在M-RCNN中使用的社区检测算法是Louvain (Blondel et al.,2008),它需要网络中清晰的社区结构,并且没有考虑重叠的社区结构。因此,我们假设训练网络和测试网络具有清晰的社区结构,并且不同社区之间不存在重叠。
2.3. Graph convolutional neural networks based algorithms
GCN 扩展了卷积神经网络 (CNN) 在图形式数据上的应用(Niepert、Ahmed 和 Kutzkov,2016;Wu 等人,2020),其目的是将节点嵌入到低维向量中,以保留其特征下游任务的高级属性,例如节点分类(Zhang et al.,2018)、链接预测(Zhang & Chen,2018)等。从节点嵌入的角度来看,GCN 可以分为基于转导学习和基于归纳学习。基于转导学习的模型学习给定网络的节点嵌入,一旦网络结构发生变化就必须重新训练。基于归纳学习的模型可以在训练步骤后学习未见过的节点的嵌入。尼珀特等人。 (2016) 提出了 PATCHY-SAN,一种基于转导学习的算法,将 CNN 的使用扩展到图。卷积图网络的矩阵作为参数来迭代聚合邻居的信息。与上述基于转导学习的方法不同,GraphSAGE(Hamilton et al., 2017)是一种基于归纳学习的方法,旨在学习一个可以聚合邻居节点结构信息的聚合器,从而生成节点看不见的网络的嵌入。对于传播影响节点识别,GCN 由于其简单性和有效性而成为广泛使用的模型。
具体来说,基于GCN的算法可以分为传播影响力节点分类算法和传播影响力预测算法。 Wang、She、Ohyama 和 Wu(2019)设计了一种基于 GCN 的分类算法,即影响力深度学习(IDL),该算法在评估社交网络用户的传播影响力时考虑社交网络用户的拓扑属性和操作日志。 IDL 首先根据每个节点的社交行为日志对固定大小的子网络进行采样,作为深度学习模型的输入。然后使用预训练的网络嵌入方法来获得每个节点的低维表示。此外,采用实例归一化技术,使算法关注节点的相对位置而不是其绝对位置。最后,低维向量将被输入GCN以确定哪些节点是传播影响节点。由于IDL需要用户的社交行为信息,因此仅适用于社交网络,很难扩展到流量网络、生物网络等其他网络。在这项工作中,我们提出了一种算法,除了网络结构属性之外,不需要任何特定领域的特征信息,这使得所提出的算法可以应用于不同的场景。通过在包含社交网络、研究协作网络、蛋白质网络和电网网络的数据集上进行实验,4.4节的结果表明,所提出的算法可以保证不同类型网络的高精度。赵,贾,周,张(2020b)也将传播影响节点识别问题视为分类问题,提出了InfGCN算法。 InfGCN使用BFS算法对每个节点的邻居网络进行采样。利用节点的DC、BC、CC以及聚类系数来构造GCN的输入。然后,GCN的输出作为全连接神经网络的输入来预测每个节点的标签。由于SIR模型生成的标签会受到不同感染率β的选择的影响,因此使用以下方程测试不同感染率下标签的区分能力
其中XH和XL分别代表强影响力和低影响力群体的影响力。 H和L表示最大影响力和最小影响力,p是高影响力群体的百分比。需要注意的是,BC、CC和聚类系数的计算复杂度较高,这使得该算法不适合大规模网络。具体来说,BFS的计算复杂度为O(n+m),DC为O(n),BC为O(n2),CC为O(n2),聚类系数为O(n3)。总体而言,InfGCN 输入构造的总计算复杂度为 O(n + m + n + n2 + n2 + n3) ≈ O(n3 + m)。为了避免高计算复杂度,所提出的算法仅考虑计算复杂度低的结构属性。 ND、社区和k-核心值的计算复杂度分别为O(n + m)、O(nlogn)和O(n)。该算法输入构造的总计算复杂度为 O(n + m + n + m + nlogn + n) ≈ O(m + nlogn)。通过比较本文算法和RCNN算法整个训练过程的计算复杂度,可以发现本文算法的计算复杂度与RCNN算法接近,这表明本文算法可以用于识别传播影响节点在大规模网络中。
用来识别大规模网络中的传播影响节点。 Yu 等人将传播影响节点的识别视为回归问题。 (2020) 提出了一种名为 RCNN 的高效基于 GCN 的算法,该算法在为每个节点生成输入时仅使用度值。尽管RCNN算法高效,但节点的传播影响力会同时受到其微观层面、社区层面和宏观层面的结构属性的影响。在大型稀疏网络中,节点的度等微观结构属性可以有效地反映节点的传播影响力。在具有清晰模块化结构的网络中,社区结构属性提供了对属于不同组的节点如何相互影响的深入理解。节点位置等宏观结构信息有助于纠正密集连接网络中 DC 的结果。仅限制节点结构信息的一方面可能会导致传播影响节点识别算法的泛化性较低。考虑到算法的效率和准确性,该算法综合利用每个节点的微观层面、社区层面和宏观层面的结构信息,而不是只关注一种结构属性。实验结果表明,在相似的计算成本下,我们提出的算法可以比 RCNN 算法获得更高的精度。为了清楚地比较所提出的算法和上述 GCN 算法,我们列出了类别、用于构造输入的特征、输入构造步骤的计算复杂度、平均 kendalls τ 系数和平均值表 1 中的九个现实网络中构建不同算法的输入所需的时间。请注意,表 1 中未包含 IDL,因为它仅适用于有向社交网络,而其他三种方法均适用于无向网络。由于InfGCN算法是一种分类算法,无法通过kendalls τ系数来评估,因此没有给出InfGCN的平均kendalls τ系数。我们提出的算法和实验的更多细节将在以下部分中介绍。
相关工作的比较,其中特征列代表用于构造每个算法的输入的结构属性,Avg-τ和Avg-input是平均kendalls的τ系数和构造每个算法的输入所需的平均时间在九个现实世界网络,包括 Facebook (McAuley & Leskovec, 2012)、LastFM (Rozemberczki & Sarkar,2020)、Sex (Rocha, Liljeros, & Holme, 2011)、Hamster (Kunegis,2016)、GrQC (Leskovec、Kleinberg, & Faloutsos) ,2007)、Hep(Leskovec 等人,2007)、Figeys(Ewing、Chu、Elisma 和 Figeys,2007)、Vidal(Rual 等人,2005)和 PowerGrid(Watts 和 Strogatz,1998)。 TC-input是每个算法的输入构造步骤的计算复杂度。
3. Proposed method
在本节中,提出了一种名为 M-RCNN 的改进的基于 GCN 的算法来改进 RCNN 算法。该算法不是简单地关注微观层面的结构信息,而是进一步考虑社区结构属性和宏观层面的结构信息。 M-RCNN 算法的详细信息将在以下小节中介绍。
3.1. Extract neighborhood networks
为了构建网络卷积层的输入,我们首先使用算法1提取每个节点大小为L的邻域网络。具体来说,我们继续使用RCNN算法中应用的相同策略,即使用基于度值。当目标节点找到L−1个邻居节点时,邻居网络中的所有节点将按照它们加入邻居网络的顺序进行编码。具体来说,邻居节点加入邻域网络的顺序由邻居节点的度值和与目标节点的距离决定,即距离目标节点较近且度值较高的节点优先加入邻域网络。当两个邻居节点到目标节点的距离相同且度值相同时,它们加入邻居网络的顺序将被随机决定。然后我们就可以得到邻域网络的邻接矩阵,即Aneighbor,它是节点表示的基础。需要注意的是,如果目标节点所有阶的邻居节点总数小于L−1,我们将使用零填充来获得具有预期大小的邻接矩阵。
3.2. Construction of three-channel node representation
为了保持算法的效率,我们选择了三个具有较低影响力的传播影响节点识别指标。变换 Aneighbor 的计算复杂度:ND、NCom 和 k 核心值。具体来说,为了描述节点的微观结构属性,由于ND具有更高的分辨率,而不是使用DC,因此选择ND,其给出为
其中 k(j) 表示节点 j 的度,而 Γ (i) 是节点 i 的邻居的集合。在社区层面,设置NCom作为节点的社区结构属性,定义为
其中 Com(Γ (i)) 表示节点 i 及其邻居所属的社区集合。值得注意的是,Louvain 算法(Blondel et al., 2008)因其高效性而被引入来检测网络的社区结构。对于宏观结构信息,采用能够反映节点位置的k核值。具体来说,k-core值是通过根据节点的度数递归删除节点将节点分成不同的层来获得的。
最后,根据ND、NCom和k-core值,通过以下规则生成由三个矩阵组成的节点表示,其中Bmicro、Bcommunity和Bmacro分别表示每个节点的微观层次、社区层次结构和宏观层次结构表示,L表示每个邻域网络的节点总数。
3.3. Generating labels
由于CNN需要使用监督学习策略进行训练,因此需要每个节点的标签。在本文中,我们将传播影响力节点识别的任务视为回归问题,因此标签是每个节点的传播影响力。然而,我们并不知道节点的真实传播影响力,否则,我们不需要识别节点的传播影响力。因此,引入SIR模型(Hethcote,2000)来生成每个节点的标签。
具体来说,SIR模型将每个节点设置为三种状态之一:易感状态S、感染状态I和恢复状态R。最初,目标节点将被设置为感染节点,其余节点将被感染节点。扩散过程开始后,易受影响的节点将以感染率 β 被其受感染的邻居节点感染,受感染的节点将以概率 γ 恢复。扩散过程停止,直至没有新感染的节点,稳态下感染节点和恢复节点的总数就是目标节点的整体影响力。由于每次模拟结果存在差异,我们采用1000次模拟结果的平均传播影响力作为每个节点的标签。
3.4. Training model
准备好每个节点的输入和标签后,我们训练一个由两个卷积层和一个全连接层组成的 CNN 来预测节点的传播影响。请注意,训练网络是一个人工 BA 网络,其大小为 n,平均度为 k。具体来说,卷积层1的参数为3个输入通道,16个输出通道,内核大小为5,步幅和填充分别为1和2。卷积层2的参数为16个输入通道,32个输出通道,内核大小为5,步幅和填充分别为1和2。全连接层的输入大小为 32×(L∕4)×(L∕4),输出大小为 1。所提出的算法中使用的激活函数是 ReLU 函数 (Krizhevsky, Sutskever, & Hinton, 2017)。在池化层中,我们对两个卷积层都使用内核大小为 2 的 maxpooling。训练epoch数为500,对于不同规模和平均度的BA网络,M-RCNN生成节点表示所需的时间以及从生成节点表示到完成训练M-所需的总时间RCNN 算法在第 4.8 节中报告,以显示所提出算法的效率。
3.5. RCNN algorithm
RCNN算法是一种高效的基于GCN的传播影响节点识别算法(Yu et al., 2020),因为它在为每个节点构建CNN模型的输入时仅考虑节点的度值。 RCNN算法的框架与M-RCNN算法类似。具体来说,RCNN算法构造的初始节点表示是一个包含目标节点邻居的度值的矩阵,其给出为
每个节点的标签也是通过模拟SIR模型1000次并取平均值生成的。而且,RCNN算法中使用的训练网络是BA网络。
4. Results
在本节中,我们介绍我们提出的算法的实验结果。首先,我们简要介绍了实验中的数据集、评估指标和实施细节。其次,我们比较了所提出的算法、RCNN算法和9个真实世界网络上的中心性的节点排序能力,证明微观级、社区级和宏观级结构信息的结合可以提高准确性节点倾斜。基于节点排序精度的结果,我们进一步探讨了邻域网络大小L对M-RCNN算法性能的影响。此外,我们还比较了基于微观层面和社区层面结构的 M-RCNN 与基于微观层面和宏观层面结构的 M-RCNN 的性能,以直观地展示哪种属性对传播影响节点识别贡献更大,以及是否属性的贡献根据网络结构的不同而不同。此外,我们通过测量排名相似度来测试所提出的算法和 RCNN 算法的区分能力。最后,我们通过测试生成节点表示所需的时间以及训练所提出的算法和RCNN算法所需的总时间来证明M-RCNN算法与RCNN算法相比不会牺牲太多效率。
4.1. Network datasets
为了更全面地评估所提出算法的性能,我们使用名为networkx的python库生成了9个不同大小和平均度的人工BA网络,并选择了9个真实世界网络,包括四个连接网络和五个断开网络,涵盖社交网络、科研合作网络、蛋白质网络、电网网络等类别。各网络简介如下:
• BA(n, k):具有 n 个节点和 k 平均度的 Barabasi-Albert 网络。
• Facebook(McAuley & Leskovec,2012):从 Facebook 获得的自我网络,其中节点包括自我节点本身及其每个朋友。
• LastFM(Rozemberczki & Sarkar,2020):LastFM 用户的社交网络,其中节点是来自亚洲国家的 LastFM 用户,边缘是他们之间相互的关注者关系。
• 性(Rocha et al., 2011):一个双向的性活动网络社区,其中节点是男性(性买家)和女性(性卖家),当男性撰写表明与女性发生性接触的帖子时,就会建立边缘。
• Hamster(Kunegis,2016):包含 hamsterster.com 网站用户之间友谊和家庭关系的网络。
• GrQC(Leskovec 等,2007):广义相对论和量子宇宙学领域作者的研究合作网络,其中节点是作者,边缘是在两位作者共同撰写论文时建立的。
• Hep(Leskovec 等,2007):高能物理领域作者的研究合作网络,其中节点是作者,边是在两位作者共同撰写论文时建立的。
• Figeys(Ewing 等人,2007):人类蛋白质之间的相互作用网络,来自首次使用基于质谱的方法对人类细胞中蛋白质相互作用进行的大规模研究。
• Vidal(Rual 等,2005):人类二元蛋白质-蛋白质相互作用的蛋白质组规模图的初始版本的网络。
• PowerGrid(Watts & Strogatz,1998):包含有关美利坚合众国西部各州电网信息的网络。
所用网络数据集的统计属性如表2所示。
人工网络和现实网络的统计属性,其中n和m分别是网络中节点和边的总数,〈k〉是网络的平均度,kmax是网络的最大度, c是网络的平均聚类系数,GCV%和GCE%分别表示网络最大组成部分中的节点和边占节点和边总数的比例,d是网络的密度。我们假设,如果一个网络的 GCV % ≈ 100 且 GCE % ≈ 100,则它是一个连通网络,否则,它是一个断开网络。
4.2. Evaluation metrics
在本小节中,我们介绍用于与所提出的算法和评估指标进行比较的方法,
• 度中心性:度中心性将节点的一阶邻居的数量定义为其传播影响力,其给出为 dc(i) = k(i) (n − 1) , (9) 其中 k(i) 表示节点i 的度数,n 是网络中节点的总数。
• K-core 值:k-core 值能够反映节点的位置。具体来说,k-core值是通过根据节点的度数递归删除节点将节点分成不同的层来获得的。
•介数中心性:介数中心性将充当两个不相连群体桥梁角色的节点定义为传播影响节点,其给出为
其中,σ(v,u)表示节点v到节点u之间的最短路径条数,σ(v,u|i)表示节点v到节点u之间经过节点i的最短路径条数。
• V 社区:V 社区(Vc)指数通过计算每个节点所连接的社区数量来衡量节点的传播影响力。一个节点连接的社区越多,该节点的传播影响力就越高。
• Kendalls' τ 系数:kendalls' τ 系数(Wang、Zhao、Xi 和 Du,2016)用于衡量两个排名列表的相似度,广泛用于测试传播影响节点识别算法的排名准确性。假设有两个排序列表A和B,每个列表包含n个元素。 (Ai, Bi) 表示 A 和 B 的第 i 个元素对。当 A 和 B 的任意两个元素对具有相同的排序时,例如 Ai > Aj 、 Bi > Bj 或 Ai < Aj 、 Bi < Bj ,这两个元素对元素对是一致的对,否则是不一致的。 kendalls τ 相关系数根据两个有序列表的一致对和不一致对的数量计算,定义为
其中 nc 和 nd 分别表示一致对和不一致对的数量,nall 是每个顺序列表中元素的总数。 kendall 的 τ 系数越接近 1,两个排名列表越相似。
4.3. Implement details
在本小节中,我们在 Github https://github.com/OuYangg/Multi-channel-RCNN 上提供了所提出的算法和实验的数据集和代码。具体来说,M-RCNN的损失函数是均方误差(MSE),M-RCNN中使用的激活函数是ReLU函数,M-RCNN算法中的所有参数均使用Adam(Kingma&Ba)进行训练,2014)学习率为 0.001 的优化器。批量大小和训练周期数分别为 32 和 500。邻域网络L的大小最初设置为28。 4.4到4.7节使用的训练网络是1000个节点、平均度为4的BA网络和4.8节中不同大小和平均度的9个BA网络,通过模拟感染率1.5下的SIR模型生成标签× βth,其中 βth = 〈k〉 〈k2〉−〈k〉 是网络的传播阈值。
4.4 Node ranking capability
为了证明微观层面、社区层面和宏观层面结构信息的结合可以帮助更准确地识别传播影响节点,我们通过 kendalls 比较了所提出的算法和其他方法在九个真实世界网络上的排名准确性' τ 系数。具体来说,MRCNN算法和RCNN算法的训练网络是一个1000个节点、平均度为4的BA网络。需要注意的是,这已经被Yu等人证明了。 (2020)认为当目标网络的平均度低于训练网络时,RCNN算法的性能将不稳定。
图2. 节点排序能力。将M-RCNN算法的排名分数、度中心性、k-core、ND、介数中心性、Vc指数和RCNN算法的排名分数与模拟SIR模型获得的排名分数进行比较得到的kendalls'τ系数在九个真实网络上的不同感染率β下,其中βth是传播阈值,M-RCNN算法和RCNN算法以L = 28进行训练。
如图2所示,M-RCNN算法在所有连接网络和大多数断开网络上的节点排名任务中优于其他方法。具体来说,在不同感染率β下,M-RCNN算法相对于RCNN算法的平均改进比例为:PowerGrid网络为28.71%,Figeys网络为23.84%,Facebook网络为9.65%,Sex网络为8.76%, LastFM 网络为 8.46%,Hep 网络为 2.90%,Vidal 网络为 2.33%,Hamster 网络为 2.10%,GrQC 网络为 -3.48%。 M-RCNN算法在PowerGrid网络和GrQC网络上的性能不如在其他网络上。探究其原因,从表2可以看出,PowerGrid网络的平均度低于训练网络,并且其密度是所有网络中最低的。对于GrQC网络来说,虽然其平均度高于训练网络,但GrQC网络最大组成部分的节点比例是所有网络中最低的,密度也相对较低。因此,我们推测这是由于邻域网络大小 L = 28 对于 PowerGrid 网络和 GrQC 网络来说太大,导致生成的节点表示相对稀疏。
4.5. Impact of the size of the neighborhood network
为了探讨邻域网络大小 L 对 M-RCNN 算法性能的影响,并为在具有不同结构特征的网络上使用所提出的算法时如何调整 L 提供指导,我们比较了通过比较计算出的平均 kendalls'τ 系数在感染率范围为 1 × βth 到 1.9 × βth 的情况下模拟 SIR 模型获得的排名分数以及使用连接网络上不同邻域网络大小 L(范围为 4 到 64)训练的 M-RCNN 算法预测的排名分数和断开的网络。从图3(a)可以看出,所提出的算法在除PowerGrid网络之外的连接网络上的性能仅受到邻域网络规模的轻微影响。对于PowerGrid网络,M-RCNN的精度随着L的增加而急剧下降。这是因为 PowerGrid 网络是一个非常稀疏的网络,因此使用大的 L 将导致节点表示稀疏。相比之下,图3(b)的结果表明,在断开网络上,平均kendalls τ系数倾向于随着L的增加而减小,这在GrQC网络中尤其明显。
图3.邻域网络的大小对M-RCNN算法性能的影响。 (a) 连接网络上的平均 kendalls’τ 系数。邻域大小 L 对 PowerGrid 网络以外的连接网络的影响很小。对于PowerGrid网络,这是因为PowerGrid网络相对稀疏,使得节点表示随着L的增加而变得越来越稀疏; (b) 断开网络上的平均 kendalls’τ 系数。平均 kendalls’τ 系数随着 L 的增加而减小,这在 GrQC 网络中尤其明显。
图 4. 中心性、RCNN 算法和 M-RCNN 算法的节点排序能力。 M-RCNN 在 GrQC 网络和 PoweGrid 网络上使用 L = 4 进行训练。 (a) 对于 GrQC 网络,L = 4 训练的 M-RCNN 算法相对于 L = 28 训练的 M-RCNN 算法的改进率为 6.26%; (b) 对于 PowerGrid 网络,L = 4 训练的 M-RCNN 算法相对于 L = 28 训练的 M-RCNN 算法的改进率为 23.54%。
更进一步,我们用 L = 4 训练 M-RCNN 算法,并将其与 GrQC 网络和 PowerGrid 网络上的其他算法进行性能比较,其中所提出的算法没有达到理想的性能。从图 4 可以看出,M-RCNN 算法的排序精度对于所有两个网络都有所提高。具体来说,GrQC 网络的改善率是 6.26%,PowerGrid 网络的改善率是 23.54%。综上,我们在使用M-RCNN算法时给出建议,即当处理断网时,L可以设置在4到16之间。
4.6. Two-channel M-RCNN
图 5. 双通道 M-RCNN 算法的性能。通过比较基于M-RCNN算法的微观层面和社区层面结构信息的RCNN算法的kendalls'τ系数与微观层面和宏观层面结构的kendalls'τ系数的改进比例分别在九个真实世界网络上基于信息的 M-RCNN 算法,其中两通道 M-RCNN 算法的训练方式为 GrQC 网络和 PowerGrid 网络的 L = 4,其他网络的 L = 28,以及 RCNN 算法所有网络均使用 L = 28 进行训练。
针对结构性质,以RCNN算法为基准算法,计算了两通道M-RCNN算法的kendalls τ系数的改进率。具体来说,双通道M-RCNN算法和RCNN算法对于所有网络都使用L = 28进行训练。从图5可以看出,基于微观和宏观的M-RCNN在所有连接网络中均优于RCNN,但在Hep网络、Vidal网络和Hamster网络上精度略低于RCNN约1% ,这是三个断开连接的网络。此外,基于微和社区的M-RCNN在除GrQc网络之外的所有网络中都实现了比RCNN更高的精度。基于微社区的M-RCNN算法的准确率低于GrQc网络中的RCNN的原因可能是GrQc网络是一个非常稀疏的网络,有335个连通分量,并且为这样的网络可能会导致许多节点的输入矩阵稀疏。实验结果表明,仅考虑两层结构信息的M-RCNN的性能很容易受到网络连通性的影响,并且当网络结构特征不同时,M-RCNN的性能不稳定。关于结果,我们在图卷积网络中引入了三个层次的结构信息。
4.7. Node ranking similarity and discrimination ability
为了测试所提出的算法和 RCNN 算法的区分能力,我们证明了 M-RCNN 算法和 RCNN 算法获得的排名分数的相关性。具体来说,M-RCNN 算法对于 GrQC 网络和 PowerGrid 网络使用 L = 4 进行训练,对于其他网络使用 L = 28 进行训练,而 RCNN 算法对于所有网络都使用 L = 28 进行训练。图6中,横轴和纵轴分别表示通过MRCNN算法和RCNN算法计算得到的网络中节点的归一化传播影响力,每个点的颜色由模拟得到的节点传播影响力决定当 β = βth 时的 SIR 模型。我们为图 6 的每个子图添加了一条对角线,以更好地展示所提出算法的辨别能力。对角线上方的点表示 RCNN 算法为相应节点分配比 M-RCNN 算法更高的传播影响力分数,否则分配较低的传播影响力分数。通过观察对角线上方和下方点的分布以及点的颜色,我们可以比较本文算法和RCNN算法的判别能力。
图 6. M-RCNN 算法和 RCNN 算法在 9 个真实网络上预测的归一化传播影响力分数之间的相关性。每个点的颜色是由模拟SIR模型在感染率β=βth时得到的传播影响力来确定的。对角线上方的点表示 RCNN 算法比 M-RCNN 算法为相应节点分配了更高的传播影响力分数,否则分配了较低的传播影响力分数。通过观察每个点的颜色和位置可以比较M-RCNN算法和RCNN算法的判别能力。在除 Hep 网络之外的几乎所有网络中,M-RCNN 算法都能够比 RCNN 算法识别更多的传播影响节点。
如图 6 所示,这两种算法的排名分数在所有九个现实网络上都呈正相关。请注意,在与Sex网络、Figeys网络和PowerGrid网络相比,M-RCNN能够识别RCNN算法可能忽略的传播影响节点,这意味着我们提出的算法比RCNN算法具有更强的传播影响节点判别能力。
4.8. Efficiency test
传播影响力节点识别算法的效率是决定其能否应用于大规模网络的关键。 Yu 等人的实验结果。 (2020) 表明 RCNN 算法是高效的,能够识别大规模网络上的传播影响节点。在本小节中,我们比较从生成节点表示到完成训练 M-RCNN 模型和 RCNN 模型所需的总时间,以及使用 M-RCNN 算法和 RCNN 生成节点表示所需的时间算法,如图所示。分别为7和8。具体来说,测试集由大小分别为1000、2000和3000的BA网络组成,其中每个大小有3个网络,平均度为4、10和20。通过模拟感染率1.5×βth下的SIR模型来生成标签。 M-RCNN算法和RCNN算法都用L在4到64的范围内进行训练。
图 7. 对于大小为 1000、2000 和 3000 的 BA 网络,生成节点表示以及训练 M-RCNN 算法和具有不同邻域网络大小 L 的 RCNN 算法所需的总时间(秒)以及平均值度数为 4、10 和 20。
我们首先报告了通过 M-RCNN 算法和 RCNN 算法为不同大小的 BA 网络生成不同大小的输入所需的时间的比较。
图 8. 对于大小为 1000、2000 和 3000、平均度为 4、10 和 20 的 BA 网络,通过 M-RCNN 算法和 RCNN 算法生成具有不同 L 的节点表示所需的时间(秒) 。
如图8所示,在生成节点表示时,所提出的算法比RCNN算法花费更多的时间。这是预料之中的,因为 M-RCNN 算法需要考虑更多节点的拓扑信息。进一步比较这两种算法的效率,从图 7 可以看出,从生成节点表示到完成训练 M-RCNN 模型所需的时间与训练 RCNN 算法几乎相同,这意味着需要考虑更多拓扑信息不会妨碍MRCNN算法在大规模网络上的应用。从分析上看,M-RCNN算法所选择的中心性是高效的:ND的计算复杂度为O(n + m),NCom的计算复杂度为O(n log n),k壳分解的计算复杂度为O( n).而且,BFS算法的计算复杂度为O(n+m)。因此,该算法的输入构造步骤的计算复杂度为 O(n+m+n log n+n+ n + m) ≈ O(m + n log n)。最坏情况下SIR模型的计算复杂度为O(T n),其中T表示扩展时间步长的数量。两个卷积层的计算复杂度为O(Σ2 l=1 M 2 l K2 l Cl−1Cl),其中Ml表示第l层特征图的大小,Kl表示第l层卷积层的内核大小,Cl为第 l 个卷积层的输出通道数。全连接网络的计算复杂度为 O(32 × L∕4 × L∕4 × n) ≈ O(L2n)。总体而言,整个训练流程的计算复杂度为 O(m + n log n + T n + Σ2 l=1 M 2 l K2 l Cl−1Cl + L2n)。请注意,实验结果表明,所提出的算法在小型网络(例如具有 1000 个节点的 BA 网络)上训练可以用于预测大型网络中节点的传播影响。因此,M-RCNN在预测阶段的计算复杂度为O(m + n log n + Σ2 l=1 M 2 l K2 l Cl−1Cl + L2n)。
5. Conclusion and discussions
基于节点的多种结构属性来识别传播影响节点,同时平衡准确性和效率一直是一个挑战。通过同时考虑微观层面、社区层面和宏观层面的结构信息,本文提出了一种基于 GCN 的算法 M-RCNN,该算法使用 ND、NCom 和 k 核值来识别传播影响节点。需要注意的是,我们不需要手动定义参数来耦合这三个结构属性,因为微观层面、社区层面和宏观层面的结构信息嵌入在三个矩阵中,这使得权重可以在模型训练过程中学习。实验结果表明,我们提出的算法在九个经验网络上优于基于 GCN 的算法 RCNN 和中心性方法。具体来说,M-RCNN算法的准确率比RCNN算法平均高出9.25%。对于断开和稀疏网络,该算法可以在较小的邻域网络规模下实现稳定的性能,这意味着计算复杂度可以进一步降低。在不同规模和平均度的 BA 网络上训练所提出的算法所需的时间与训练 RCNN 算法的时间大致相同,这意味着我们所提出的算法适用于大规模网络。然而,这项工作仍然存在以下局限性:
首先,所提出的工作重点是静态网络,它假设节点之间的连接不会随时间变化,实际上,复杂系统的结构总是动态变化的。该算法可以扩展到识别时间网络的传播影响力节点,结合长短期记忆(LSTM)方法,聚合每个节点在不同时间步长的传播影响力,从而预测节点的传播影响力。其次,节点的传播影响力还受到其非拓扑属性的影响。在社交网络中,具有相似个人偏好和文化背景的个体更有可能相互影响。个人的情绪在个人的社会影响力中也发挥着重要作用(Wei,Yang,Jiang,&Liu,2021)。此外,节点之间的高阶交互也可以帮助识别传播影响节点(Battiston et al., 2020; Milo et al., 2002)。在我们未来的工作中,我们将尝试开发一个更灵活的框架,允许添加将节点的非拓扑信息保留到输入中的矩阵。最后,我们使用 BA 网络作为我们的训练网络。在未来的工作中,我们将通过测试不同类型的训练网络,深入探讨训练网络结构对所提出算法性能的影响,为如何训练我们所提出的算法提供更具可解释性的指导。