【译】mahout in action 6.1从维基百科统计分析大量的数据

最新推荐文章于 2024-07-06 17:19:31 发布

iteye_14058

最新推荐文章于 2024-07-06 17:19:31 发布

阅读量81

点赞数

分类专栏： Mahout in action 文章标签：出版 Web .net

Mahout in action 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

维基百科(http://wikipedia.org)众所周知的在线百科全书，它的内容可以被用户编辑和维护。到2010年5月它的报导，仅仅用英语写的文章超过了3.2M。估计Freebase Wikipedia Extraction项目(http://download.freebase.com/wex/)的大小，仅仅英语文章超过4.2GB。作为web站点，维基百科的文章可以使用和被连接到另外的文章里面。有这么一篇文章，它里面有很多形同兴趣的文章连接。我们将认为这些文章为“users”，和文章的引用作为“items”，文章的来源为“likes”

幸运的，我们不在需要下载freebase百科的目录摘要和列出所有的连接。研究员亨利.哈塞格洛芙已经提前出所以文章和出版信息，位于http://users.on.net/~henry/home/wikipedia.htm.这将有利于过滤出连接的附件资源，例如文章的讨论页，图片，等等。这些数据集合也可以根据数字id描述出文章，取代标题。这些更有帮助，针对Mahout研究所有的users和items使用数字id。

在继续之前，下载和提取links-simple-sorted.zip

[size=large]6.1.1分析数据集合[/size]

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【译】mahout in action 6.1从维基百科统计分析大量的数据

维基百科(http://wikipedia.org)众所周知的在线百科全书，它的内容可以被用户编辑和维护。到2010年5月它的报导，仅仅用英语写的文章超过了3.2M。估计Freebase Wikipedia Extraction项目(http://download.freebase.com/wex/)的大小，仅仅英语文章超过4.2GB。作为web站点，维基百科的文章可以使用和被连接到另外的文章里面...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。