个性化推荐引擎:生长网络中的流行度与相似度

优先链接是增长网络标度涌现的一个重要机制——新节点倾向于跟大度节点或者叫更流行的节点连接,就会使演化网络产生无标度特性。在此,本文指出不仅仅是流行度,相似度也可以作为塑造网络结构和动力学的强有力量。本文引入几何图形学提出了一种网络演化模型,能更优地权衡流行性和相似性因素,并能得到无标度网络。

众所周知,仅基于优先链接机制得到的模型网络与真实网络之间有巨大的差异,其中很明显的一个就是聚集系数,而且也不是对很多网络都使用。而这个模型则能够同时描述大规模的科技网络(Internet)、社交网络、生物网络的演化,同时能更准确地预测新边的产生。

如何平衡流行性与相似性呢?最简单的方法就是最优化流行度与相似度的乘积。本文的模型基于以下两个条件:(a)流行度最简单的刻画方法就是根据节点出现的时间,出现的越早就越流行,假设每一时间步t出现一个新节点,那么节点的id就和时间步t=1,2,…一致;(b)将新节点随机洒落在圆圈上并基于此刻画节点的相似性。换句话说,就是基于以下步骤:(1)初始化一个空网络;(2)在时刻t≥1,新节点t出现在对应于圆圈角度数为θt位置上;(3)新节点连向s个老节点,其中s<t,且s个节点是由m个拥有最小流行度和相似度乘积st的点组成,其中m是控制网络平均度的因素,平均度等于2mθst是节点st之间的角距离。当tm时,节点t连向所有老节点。这个方案可简单描述为下图1(a)(b)

将此模型扩展,将时间因素考扩展到节点的半径坐标上,表示为rt=lnt,那么新点的产生就不再是一个圆圈的线上,而是在一个平面上,新节点的坐标就表示为(rtθt)。此时如果用欧式距离,那么新节点必然连向最近的节点,所以需改用双曲距离,其定义如下:要计算点st之间的双曲距离,其坐标分别为(rsθs)和(rtθt),那么双曲距离可近似为xst= rs + rt + ln(θst /2) = ln(stθst/2)。所以,最小化xst与最小化st是一致的,于是问题就简化了,仅有两个因素决定基于半径的流行性和夹角的相似性。简单的例子可以见图3。

这个策略虽然与优先链接策略看起来完全无关,但度为k的节点其吸引新节点连向他的能力确是基本一致的,如图2所示。并且本文也画了篇幅证明本模型得到的度分布也能与优先链接模型得到的分布一致。

不过这个策略与优先链接仍有不同。优先链接策略是对每个度为k的点,都有∏(k)的概率连向它,而本文提出的模型则是仅仅考虑与新节点的双曲距离最近的m个点。于是当前的模型总是将距离近的点都连在一起,而距离远的点却不会相连。这个特性使得他们在“聚类系数”方面差异非常大。

图3:t=20并且m=3。新节点的半径越来越大。新边分别指向2、7和8。红色区域标记的是与新节点的双曲距离小于rt的点的集合。

为了解决聚集系数的问题,本文扩展了这个模型,使得可以调节模型网络的聚集系数和幂率指数,以最佳模拟真实的网络。从图3可以看出,节点离中心越近,其流行度也就越大——也就是说这样的节点吸引力更强,度也更大。为了使得流行度衰退,本文让所有的节点都向边缘漂移,从而可以使得节点s(任意老节点)的半径坐标在时间步t增加

rs(t) = βrs+ (1-β)rt

其中,β取值为[0,1]。基于此改进,幂率指数γ= 1 + 1/ β ≥2。如果β=1,节点没有漂移,幂指数为2;如果β=0,所有的节点都漂移到了最外层,从而变成一个在圆环上生长的随机几何图形。另一方面,强聚集效应是由于总是连向最近的节点,所以模型还需要允许连向远程节点。

连向最近的m个节点几乎等同于连向距离在Rt~rt内的点(Rt的值略小于rt,被定义为以节点t为中心的双曲圆盘的半径为Rt)。如果新节点t与老节点s建立连边的可能性为

 其中,T≥0是网络的温度,xst则是节点st之间的双曲距离,网络的聚类效应随着温度的增加而减小。也就是说这里的温度就是用来控制网络聚类效应的参数。当T=0时,双曲距离xst是否大于Rt决定连接的概率是0或者是1,所以此时聚类效应是最强的;聚类效应随着T的增加而降低;当T=1时,聚集系数将为0并且当T≥1时仍保持为0。(本文对于T趋近于正无穷时,也有数学上的证明和讨论)。

至此,模型扩展完成。为了验证本文的论点,本文找到了一些网络,并设法将网络投影到他们的相似度空间中。通过比对证明,连边产生的可能性与流行度乘以相似度的双曲距离模型得到的预测非常接近。

所以本文一方面证明了相似性在网络演化中的重要作用,还提出了一种能自由调控幂率指数和聚类效应的模型,并可应用于链路预测问题。

 ========================================================

题目:Popularity versus similarity in growing networks

生长网络中的流行度与相似度

作者:F. Papadopoulos, M. Kitsak, M. A. Serrano, M. Boguna, D. Krioukov

期刊:arXiv: 1106.0286v2.

下载:http://arxiv.org/pdf/1106.0286.pdf

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值