用六度空间理论探索 - 维基百科的中心在哪里?

用六度空间理论探索 - 维基百科的中心在哪里?

 

ugmbbc发布于 2008-05-29 10:12:01| <script src="/counter.php?sid=56702" type="text/javascript"></script> 3914 次阅读 字体: 打印预览

<script language="javascript" type="text/javascript">var ReTitle = '回复:用六度空间理论探索 - 维基百科的中心在哪里?';</script>
WikiPedia 维基百科 新闻主题

感谢MooN的投递
你听说过六度空间理论吗?所谓六度空间理论,是指你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。美国演员Kevin Bacon当年由于此理论当选为“好莱坞人士中心”(以Bacon为出发点,可以将好莱坞所有人士在6度之内连接起来)。我们知道,世界上最大的知识库维基百科里面的所有文章之间都以链接形式而相互关联,那么以哪篇文章为起点,就可以最少的点击数而遍历整个知识库呢?

最近一位名叫Stephen Dolan的都柏林大学圣三一学院学生证明了,维基百科的中心就是一篇名为“2007”的文章,以这篇文章为起点,平均只需要3.45次点击,就可以到达维基百科中其余的2111479篇文章。按前面所述的方法进行排列,路径最短的前10名是:2007Deaths in 200420062004List of accidents and incidents on commercial aircraftStar Alliance destinations1990sList of town tramway systems in North America2005 和 1967

如果除去那些仅仅是对事件和年代进行罗列的文章,那么真正的维基百科中心是名为“United Kindom”的文章,通过它,平均只需要3.67次点击,就可以遍历整个数据库。紧随其后的两篇文章分别是:“Billie Jean King”(3.68次点击)和“United States”(3.69次点击)。事实上,以维基百科中的任意文章为起点,通过4.573次的点击就能到达你想去的任何一个地方。你可在这里下载到所有的路径数据(110M,UTF-8编码)。该名学生甚至放了一个数据查询入口在他的网页上,你可以通过它来找到两篇文章的最短路径。例如:从“Ancient”到“Modern”的距离是3(Ancient history - Archaeology - Bureaucracy - Modern),从“Home”到“Mars”的距离也是3(Home - Cooking - Water - Mars),从“Boy”到“Girl”的距离只有1(Boy - Girl)。(如果遇到无法连接数据库的错误,应该是访问人数过多的原因所致,多试几遍就行了。)

这个学生是怎么做到的呢?我们知道,维基百科每隔几个月就会将数据库放到网上供大家下载, 而这个可下载的数据库里面有个叫做“pages-articles.xml.bz2”的文件容量高达3.5G,它就是维基里面所有文章的囊括(不包含历史 编辑以及讨论页面)。Stephen Dolan将它解压后,通过一定的处理只保留了里面的文章标题和链接信息,为每篇文章分配一个整数,用牵涉到排序和图论的算法,使用学校计算机系里面的计 算机进行6天时间的分布式计算后,得到了最后的结论。(事实上,他只是借用了实验室里的一部分计算机CPU空闲处理来进行分析,所有工作其实能够在36小 时内完成。)

原文链接:http://www.moonshinefly.com/2008/05/29/the-center-of-wikipedia/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值