mahout
文章平均质量分 66
hellocdw
这个作者很懒,什么都没留下…
展开
-
mahout测试naive Bayes算法
根据mahout in action中的14.6章节做的测试,记录如下:1:将20news-bydate-train和20news-bydata-test中的每个目录中的数据转换为以目录名称开始的包含所有单词的简单文本文件,使用的mahout命令如下:mahout prepare20newsgroups -p 20news-bydate-train/ -o 20news-train/原创 2013-06-19 10:37:47 · 1386 阅读 · 0 评论 -
Mahout文本聚类实例
1:下载路透社数据 数据集下载地址:http://www.daviddlewis.com/resources/testcollections/reuters21578/2:提取文本内容 下载的文件数据格式是SGML格式,这种格式和XML格式很类似。我们需要将这种格式的数据转化为SequenceFile格式,首先就要提取出txt格式。使用的是Mahout中自带的工具类:org.ap原创 2013-08-02 19:58:31 · 3533 阅读 · 2 评论 -
Canopy算法原理
Canopy聚类算法是一个将对象分组到类的简单、快速、精确地方法。每个对象用多维特征空间里的一个点来表示。这个算法使用一个快速近似距离度量和两个距离阈值 T1>T2来处理。基本的算法是:从一个点集合开始并且随机删除一个,创建一个包含这个点的Canopy,并在剩余的点集合上迭代。对于每个点,如果它与这个Canopy的距离小于T1,那么就将这个点就加入这个Canopy中。除此之外,如果这个距离原创 2013-09-17 10:53:56 · 1225 阅读 · 0 评论 -
个性化智能推荐技术研究总结
文章转载自:http://blog.csdn.net/zolalad/article/details/16344183个性化智能推荐技术研究总结 随着网络与信息技术的飞速发展,互联网为用户提供越来越多的信息和服务,用户在得到便利的同时也不得不面临大量的垃圾信息和无意义数据,即所谓的信息超载问题。面对海量的网络资源,个性化推荐系统是一种极具潜力的解决信息超载的服务技术,它利转载 2013-12-30 12:42:58 · 2581 阅读 · 0 评论 -
协同过滤算法的问题及解决方案
文章转载:http://blog.csdn.net/cserchen/article/details/58383331 协同过滤在应用中存在的问题 尽管协同过滤在电子商务推荐系统中的应用获得了较大的成功,但随着站点结构、内容复杂度和用户人数的不断增加,基于协同过滤的推荐系统的发展面临着两个主要挑战: 1) 提高协同过滤算法的可扩展性 协同过滤算法能够容易地转载 2013-12-30 13:10:30 · 5817 阅读 · 0 评论