安装Mahout,并运行20newsgroup的测试样例

1:安装配置 mahout
mahout安装目录如下:
DATA.png 
环境变量配置:
path.png 
测试mahout安装是否成功:运行 mahout 出现如下结果证明安装成功。
mahout-setup.png 
2:数据准备:将下载的20news数据放到本地如下目录中:
data1.png 

3:建立训练集
运行如下命令:
mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups \
-p /home/lihui/hadoop/data20news-bydata-train \
-o /home/lihui/hadoop/bayes-train-input \
-a org.apache.mahout.vectorizer.DefaultAnalyzer \
-c UTF-8

执行结果:
xunlian.png 



4:建立测试集
运行如下命令:
mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups \
-p /home/lihui/hadoop/data20news-bydata-test \
-o /home/lihui/hadoop/bayes-test-input \
-a org.apache.mahout.vectorizer.DefaultAnalyzer \
-c UTF-8
执行结果如下:
test.png 

5:将训练集和测试集上传到hdfs:
如下:
up2hdfs.png 

6:训练贝叶斯分类器:
执行如下命令:
mahout trainclassifier \
-i  /user/lihui/20news/bayes-train-input \
-o /user/lihui/20news/newsmodel \
-type cbayes -ng 2 \
-source hdfs
执行结果如下:
xunlianbayes.png 

生成的模型如下:
creatednewsmodel.png 
creatednewsmodel-2.png 

7:测试贝叶斯分类器:
执行如下命令:
mahout testclassifier \
-m  /user/lihui/20news/newsmodel \
-d  /user/lihui/20news/bayes-test-input \
-type cbayes -ng 2 \
-source hdfs \
-method mapreduce

执行结果出现异常:
如下
error.png 
error2.png 
出现内存不足问题:
解决步骤:
  a:修改hadoop集群中的 mapred-site.xml 在其中增加属性如下:
   mapred.child.java.opts
MEM.png 

b:重新启动hadoop集群
c:再次执行 上述测试命令:
执行如下:
testbayes.png 

执行完毕后 输出如下结果:
result.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值