mahout
西二旗小码农
爱搜索,爱互联网,愿意为之抛头颅洒热血,搜索推荐工程师一枚。
展开
-
Mahout中分布式bayes实现(转)
Mahout中的bayes实现分为三部分, 1. 样本构建; 通过org.apache.mahout.classifier.BayesFileFormatter来实现,它将一组文件转换成label\t term1 term2 term3 …这样的格式,供后面分类器构造和分类时使用; 代码分析在前几篇博文中提供了; 2. 训练; 通过org.apache.mahout.classifie转载 2012-01-31 11:00:01 · 896 阅读 · 0 评论 -
mahout中k-means例子的运行
首先简单说明下,mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile。SequenceFile是hadoop中的一个类,允许我们向文件中写入二进制的键值对,具体介绍请看eyjian写的http://www.hadoopor.com/viewthread.php?tid=144&highlight=sequencefile转载 2012-01-31 10:58:17 · 2715 阅读 · 0 评论 -
使用mahout实现内容分类(转)
Mahout 目前支持两种根据贝氏统计来实现内容分类的方法。第一种方法是使用简单的支持 Map-Reduce 的 Naive Bayes 分类器。Naive Bayes 分类器为速度快和准确性高而著称,但其关于数据的简单(通常也是不正确的)假设是完全独立的。当各类的训练示例的大小不平衡,或者数据的独立性不符合要求 时,Naive Bayes 分类器会出现故障。第二种方法是 Complementar转载 2012-01-31 11:01:53 · 893 阅读 · 0 评论 -
mahout贝叶斯分类例子运行及测试异常处理
运行贝叶斯20news分类例子 测试抛出异常,已经解决,希望各位指教! 同样参照https://cwiki.apache.org/confluence/display/MAHOUT/Twenty+Newsgroups的步骤,其中关于hadoop与mahout的配置启动之类的以前的文章都记录过,此处直接在mahout-0.4上运行例子过程(当然也在mahot-0.3上进行了测试,一切正常)。转载 2012-01-31 11:16:30 · 931 阅读 · 0 评论 -
mahout中bayes分类分析—1
实现包括三部分:The Trainer(训练器)、The Model(模型)、The Classifier(分类器) 1、训练 首先,要对输入数据进行预处理,转化成Bayes M/R job读入数据要求的格式,即训练器输入的数据是KeyValueTextInputFormat格式,第一个字符是类标签,剩余的是特征属性(即单词)。以20个新闻的例子来说,从官网上下载的原始数据是一个分类目录,下面转载 2012-01-31 11:17:19 · 675 阅读 · 0 评论