文本挖掘
beneo
这个作者很懒,什么都没留下…
展开
-
一个基于Mahout与hadoop的聚类搭建
mahout是基于hadoop的数据挖掘工具,因为有了hadoop,所以进行海量数据的挖掘工作显得更为简单。但是因为算法需要支持M/R,所以不是所有常用的数据挖掘算法都会支持。这篇文章会告诉你,如何使用hadoop + mahout搭出一个简易的聚类工具。 [color=blue][size=large]第一步:搭建hadoop平台。[/size][/color]我使...2011-09-23 22:37:50 · 204 阅读 · 0 评论 -
最最最简单的URL聚类
我们要发现一个富文本中的http链接,发现一些群体行为,获取URL[color=blue][size=large]第一步:提取http链接[/size][/color]使用 Jsoup 来做[code="java"] Document doc = Jsoup.parse(stream.getText()) Elements links = d...2011-09-23 22:57:36 · 859 阅读 · 0 评论 -
mahout vector 的产生方式
根据[url=https://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Text]wiki[/url] [size=medium]mahout 产生 vector 的方式有2种:[/size][color=blue][size=large]#1 from lucene index to vect...原创 2011-09-27 08:28:37 · 148 阅读 · 0 评论