从信息传播角度来看链路预测

标题 利用动态网络中的信息扩散过程来评估链路预测
文献 Vega-Oliveros, D. A., Zhao, L., & Berton, L. (2019). Evaluating link prediction by diffusion processes in dynamic networks. Scientific Reports, 9(1).

前言:这是一篇从信息扩散角度来研究如何评估链路预测效果的文章。网络结构规范了传播过程,而传播过程反过来也可能影响网络结构。网络中新边的出现会不会提升信息的传播效果?如果网络演化的方向是按照信息传播效果增强的方向发展的话,那么就可以通过检验新边的出现是否改善了信息传播效果来判断链路预测方法的优劣。
( 以下为本人的解读,不代表论文作者观点。)


内容提要

核心思想

链路预测最主要是预测网络中会出现哪些新的连边,而最适合用于评估链路预测效果的就是真实的动态网络,通过比较算法预测出的新边和真实网络中出现的新边就知道算法的预测效果了。

这篇文章并没有采用这种直接的方法,而是用了一种间接的手段。

文章考虑到信息扩散与网络结构之间存在密切联系,比如新边的出现有可能就是为了提高信息的扩散效果,体现在实际中就是社交网络上的大V需要更多的粉丝来赚取流量,为了缓解交通拥堵大城市一直在建设新的道路和地铁线路(相当于提升车流量或者人流量)。于是,作者在“新边的出现可以提高信息扩散效果”这一假设前提下,提出了一种评估链路预测效果的方法。他们先根据某种链路预测算法预测出网络中最有可能出现的若干条边,然后将这些边添加到网络中,通过测量网络添加新边前后的信息扩散效果,就知道增加的新边在多大程度上提升了网络中信息的传播效果,反过来也就相当于知道了该算法的预测效果,利用这一方式就可以评估不同算法的优劣了。

关键技术

  1. 利用链路预测算法来构建动态网络:节点不会发生变化,只有新边的出现,不会有旧边的消失。
  2. 利用传播能力来衡量信息传播效果:每个模型中,每次选择一个节点作为初始传播者,然后对所有节点的传播能力取均值。
  3. 利用曲线变化角度来衡量网络结构变化趋势:计算出每条曲线的变化角度,通过角度均值的高低和箱体位置来判断不同算法对结构的影响,进而分析传播效果与结构之间的关系。


研究介绍

方案

文章中给出了完整的研究路线图,如下所示。
在这里插入图片描述

整个研究思路很清晰:

  1. 选择8个不同的网络
  2. 采用7种不同的链路预测算法来增加新边
  3. 利用3种不同的扩散模型在网络上进行信息传播实验
  4. 分析扩散效果
  5. 分析网络结构

网络

文章同时考虑模型网络和真实网络。

  1. 模型网络:BA网络(即无标度网络)和ER网络(即随机网络);
  2. 真实网络:Email, Hamsterster, Facebook, Advogato, Astrophysics, Google+.

文章最后简单介绍了这些网络,并给了下载链接。(亲测有效)


链路预测算法

文章一共考虑了6种具有代表性的链路预测算法,前3种是局部相似性算法,后3种是全局相似性算法,最后一个是随机预测。

  1. Common Neighbors (CN);
  2. Jaccard Coefficient (JC);
  3. Adamic Adar (AA);
  4. Rooted Pagerank (RP);
  5. SimRank (SR);
  6. Graph Distance (GD);
  7. Random selection (RN).

这6种经典算法在下面两篇代表性论文中有介绍,感兴趣的自己查看。

  1. Liben-Nowell, D. & Kleinberg, J. The link-prediction problem for social networks. JASIST 58, 1019–1031, https://doi.org/10.1002/ asi.20591 (2007).
  2. Lü, L. & Zhou, T. Link prediction in complex networks: A survey. Phys. A 390, 1150–1170, https://doi.org/10.1016/j. physa.2010.11.027 (2011).

扩散模型

文章选择了三种经典的传播过程:疾病传播,信息传播以及谣言传播,每种传播过程都选择了一种代表性的模型。

  1. 疾病传播: Susceptible-Infected-Recovered (SIR) 模型
  2. 信息传播:Independent Cascade (IC) 模型
  3. 谣言传播:Maki-Thompson (MT) 模型

关于模型的具体介绍大家可以去看原文,这里简单说一下这三个模型的异同。

在这三个模型中都有三类个体:传播者,未被传播者,失去传播能力的传播者。具体来说,在疾病模型中,它们分别是感染者(已经患病的个体)、易感者(容易被感染的健康个体)、康复者(获得了免疫力,不再会被感染因此也不会感染别人)。在谣言模型中,它们分别是扩散者(传播谣言的人)、不知者(还不知道谣言但有可能相信并扩散谣言的人)、终结者(已经知道谣言但没有信息扩散的人)。在信息模型中,它们分别是活跃者(积极传播信息的人)、不活跃者(还没接收到信息的人)、失活者(传播完信息的人)。

在这三个模型中,传播者以一定的概率将自己的信息(疾病或者谣言)传递给邻居,邻居中的未被传播者有可能变成传播者,而传播者本身则有可能失去传播能力。


传播能力分析

文章就用了一个指标来衡量这些模型的扩散效果,即传播能力(spreading capacity),其定义为

在这里插入图片描述

φ i \varphi^i φi 的含义是节点 i i i做传播者时,它最终所能传播到的节点占全网络节点的比值(这样看传播能力称之为传播率可能更合适); φ V \varphi^V φV 的含义就是取均值,即网络所有节点的平均传播率, φ V \varphi^V φV 越大就说明模型的传播能力越强。

文章通过测量网络演化前后各模型的传播能力来评估链路预测算法的效果。具体操作为:

  1. 在8个原始网络上跑一下上述三个传播模型,分别测出对应的 φ V \varphi^V φV
  2. 用7种不同的链路预测算法在8个网络上分别预测最有可能出现的1/5/10/20条边,这样每个原始网络都有28种不同的演化结果(即增加了新边后的网络);
  3. 再在这些增加了新边后的网络中跑一下上述三个传播模型,分别测出对应的 φ V \varphi^V φV

比较前后两次 φ V \varphi^V φV的差距,就可以看出哪种链路预测算法预测出的新边具有更好的传播效果。(注意原文中每种模型都有个参数 λ \lambda λ,它可以简单理解为每个节点遇到传播者时被传播的概率, λ \lambda λ有三个取值,文章中每个模型都在不同参数下做了实验。)

实验结果截图如下:

在这里插入图片描述

在这里插入图片描述

结果分析就不讲了,感兴趣的去看看原文吧。

比较有意思的是从图中可以看出随机增加新边(RN算法)都有很好的效果,特别是在真实网络中RN的效果几乎是排在第一的,不过作者并没有特别强调这一点。

在这里插入图片描述


网络结构分析

从传播能力分析上已经可以看出不同算法的预测效果了,为什么还要进行网络结构分析呢?

根据文中的说法是,新边的增加会导致网络结构发生变化,一方面要看看传播能力的提升到底是新边的作用还是网络结构变化的结果(实际上这是很难区分的,因为二者高度耦合),另一方面看看什么样的结构变化有助于提升信息的传播能力,也就是网络结构和信息扩散之间的关系,这是文章的重点。

文章考虑了多种刻画网络结构的统计指标:最大度 m a x ( k ) max(k) max(k),复杂度 C C C,熵 H ~ \tilde{H} H~,二阶度分布 ⟨ k 2 ⟩ \left \langle {k^2} \right \rangle k2,同配系数 ρ \rho ρ,模块度 Q Q Q,聚类系数 C C CC CC,介数中心性 B B B,K核 K C KC KC,结构洞 S H SH SH,最短路径长度 ⟨ ℓ ⟩ \left \langle \ell \right \rangle ,网络半径 m a x ( ℓ ) max(\ell) max()等。这些指标的计算方式文章没有给出来,但是给了参考文献。前面选用的8个网络的一些统计特性见下表:

在这里插入图片描述

文章用了两种方式来呈现网络结构的变化。

第一种是曲线图,刻画了网络结构随着边数逐渐增多的变化趋势。

在这里插入图片描述

第二种是箱形图,实际上是对第一种图进行了加工,也就是用曲线上升或者下降的角度来描述变化趋势。

在这里插入图片描述

从图中可以看出,有些结构指标不会受到网络增加新边的影响,有些则影响较大。作者通过分析这些受到影响的指标,来发现一些规律,主要是找到与改善信息传播能力有关的一些结构指标。最后他们分析得出,具有较低的最短路径长度和较少结构洞洞的网络具有更好的信息传播能力。具体的结果分析请看原文。



总结

这篇文章的思路很有意思,通过增加新边观察网络的信息传播效果是否有所改善来评估链路预测算法的优劣,让我想到了另一种颇为相似的研究,即关键节点挖掘(也称为节点重要性排名)。在分析节点作用的时候,学者们提出了很多指标,比如度中心性(degree centrality)、介数中心性(betweenness centrality)、接近中心性(closeness centrality)、特征向量中心性(eigenvector centrality)等等,那么哪些指标更好呢?研究者们提出了两种评估方案,一种是看连通程度,另一种也是看信息扩散效果。这两种方案的具体操作很相似,就是根据某种指标给出的分数将所有节点从高到低排列,然后依次从网络中删除分数最高的节点,观察网络连通程度的变化或者信息扩散效果的变化,如果网络连通度下降厉害或者信息扩散效果下降明显就说明该指标作用很大,通过这样一种手段就可以比较不同节点中心性指标的优劣了。

不知道这篇文章的作者是否受到节点重要性研究的启发,将通过减少节点来判断节点作用的操作反转为通过增加连边来判断边的作用,进而实现对链路预测算法的评估,巧妙的是都利用了信息扩散这个壳


关于节点重要性的研究和介绍:
Towards the cycle structures in complex network: A new perspective
图或网络中的中心性:点度中心性、中介中心性、接近中心性、特征向量中心性、PageRank

  • 3
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值