维基百科(http://wikipedia.org)众所周知的在线百科全书,它的内容可以被用户编辑和维护。到2010年5月它的报导,仅仅用英语写的文章超过了3.2M。估计Freebase Wikipedia Extraction项目(http://download.freebase.com/wex/)的大小,仅仅英语文章超过4.2GB。作为web站点,维基百科的文章可以使用和被连接到另外的文章里面。有这么一篇文章,它里面有很多形同兴趣的文章连接。我们将认为这些文章为“users”,和文章的引用作为“items”,文章的来源为“likes”
幸运的,我们不在需要下载freebase百科的目录摘要和列出所有的连接。研究员亨利.哈塞格洛芙已经提前出所以文章和出版信息,位于http://users.on.net/~henry/home/wikipedia.htm.这将有利于过滤出连接的附件资源,例如文章的讨论页,图片,等等。这些数据集合也可以根据数字id描述出文章,取代标题。这些更有帮助,针对Mahout研究所有的users和items使用数字id。
在继续之前,下载和提取links-simple-sorted.zip
[size=large]6.1.1分析数据集合[/size]
幸运的,我们不在需要下载freebase百科的目录摘要和列出所有的连接。研究员亨利.哈塞格洛芙已经提前出所以文章和出版信息,位于http://users.on.net/~henry/home/wikipedia.htm.这将有利于过滤出连接的附件资源,例如文章的讨论页,图片,等等。这些数据集合也可以根据数字id描述出文章,取代标题。这些更有帮助,针对Mahout研究所有的users和items使用数字id。
在继续之前,下载和提取links-simple-sorted.zip
[size=large]6.1.1分析数据集合[/size]