#Paper Reading# The Link Prediction Problem for Social Networks

论文题目:The Link Prediction Problem for Social Networks
论文地址:http://www.cs.cornell.edu/home/kleinber/link-pred.pdf

论文主要内容:
本文根据一个时间点t0的社交网络(social network),使用多种方法对社交网络的用户联系发展进行分析,探寻预测在未来的时间点t1这个社交网络用户之间联系的增加情况,以实现在大型社交网络中更有效地预测用户的关联关系。

1、作者抓取arXiv网站上面的论文合作者,并构造成一个论文合作者网络(co-authorship networks),用于实验。论文方向包括5个方面:astrophysics, condensed matter, general relativity and quantum 
cosmology,  high energy physics—phenomenology, high energy physics theory。

2、使用4个时间点共两个时间段进行实验。[t0, t1, t2, t3],其中[t0, t1]作为训练集数据,[t2, t3]作为测试集数据。因为写论文发论文耗的时间比较长,所以作者使用[1994, 1996, 1997, 1999]这四个时间点。也就是说,1994年到1996年的论文合作者网络作为训练集,1997年到1999年的论文合作者网络作为测试集。

3、我们正常的思维是,什么样的人才会合作写一篇论文呢?答案是同一个实验室的科研人员,有同样科研方向的等。所以也就是预测关系比较近(close)的科研人员(这个跟我们微博等推荐用户有点像)。但是也有一些不可预测的情况,比如一个科研人员突然搬去了另一个实验室,然后就跟另一个实验室的教授发了一篇论文。这些是不可预测因素。

4、下面介绍下作者使用的方法:
(1)、基于距离的方法:x和y两者,距离越近(在联合发paper的网络E中),以后合作发paper的概率越高。
(2)、基于公共邻居数量的方法:x和y两个作者,他们的公共邻居(分别与x和y都发过paper的人)越多,那么他们会在一起发paper的概率就越高。
(3)、Jaccard’s coefficient:一种相似度对比的方法。
(4)、Adamic/Adar:两位作者personal home page的相关度。
(5)、Preferential attachment:作者x的边(合作关系)增加的概率与x原有的边的数量成正相关(一个原来paper数量寥寥可数的人,接下来几年的paper数量正常来说也不见得会怎么飙升)。
(6)、Katz:作者未来合作的概率与两者之间的路径按长短权重叠加的方式计算。
(7)、Hitting time:x到y的random walk所需要的期望步数。
(8)、SimRank:有点像pagerank的计算方法,不断递归相邻结点来求出结果

5、实验结果:通过上面的各种方法得出结果,可以发现Katz(平均是基准的35倍)跟Adamic/Adar(平均是基准的37倍)的表现比较好(但都不是那么好),详细表现请看论文原文。

6、文章后面提到“The small world problem”,小世界效应说明很多长度为2的结点对之间没有发生合作关系(x与y均分别与z发过文章,但之后x与y一起发文章的概率会比较低,约为3%~5%),而作者发现了有许多路径长度大于2的结点对之间发生了合作关系。作者尝试了一下只考虑结点对长度大于等于3的情况,发现Kazt的表现是基准的30倍左右。

7、考虑了一下,链接的预测需要分情况来说,比如QQ好友或者朋友圈这些,推荐的人(预测的链接)一般距离都不会超过三,就像有以前QQ会推荐可能认识的人是与你有10个共同好友的,所以朋友社交类链接预测主要看结点间的距离。而如果是微博类只要应该考虑兴趣,这方面的研究会继续关注。

8、发现这一篇博文分析得不错,详见 http://blog.163.com/redhumor@126/blog/static/1955478420117259544173/

以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值