mahout环境搭建

环境:
操作系统:ubuntu12.04
JDK:1.6
maven:3.2.5
mahout:0.7
eclipse:4.2.2
1、因为mahout是基于maven搭建的,所以第一步需要安装maven
参考这篇文章http://www.cnblogs.com/dyllove98/archive/2013/07/08/3177900.html
下载地址是http://maven.apache.org/download.cgi
因为我的jdk是1.6,所以我下载的是apache-maven-3.2.5-bin.tar.gz
大家可以通过mvn –version查看是否配置正确
这里写图片描述
2、下载mahout源码
http://mahout.apache.org/
我下载的是mahout-distribution-0.7-src.tar.bz2

tar -jxvf mahout-distribution-0.7-src.tar.bz2
cd mahout-distribution-0.7
mvn eclipse:eclipse

导入到eclipse中即可
其实对于mahout源码的编译有两种方式,具体可以参考这篇文章:http://blog.sina.com.cn/s/blog_6a67b5c50100wp6x.html

另外,如果想在eclipse中安装m2e插件的话,如果http://download.eclipse.org/technology/m2e/milestones不行的话,是因为eclipse版本和maven版本不匹配,可以尝试http://download.eclipse.org/technology/m2e/milestones/1.4这个地址

其实源码编译不编译通过,都不影响你在mahout上做开发,大家可以参考这个网址http://my.oschina.net/xinyuan6009/blog/220564写一个简单的mahout程序

如果仅仅搭建二进制环境的话,可以参考下面的链接http://www.cnblogs.com/linjiqin/archive/2013/03/15/2961649.html
1、下载mahout二进制文件
mahout-distribution-0.7.tar.gz
2、配置环境变量
3、启动hadoop
4、mahout –help
这里写图片描述
5、通过k-means算法检查mahout是否配置正确
大家可以运行这个命令
参考链接http://zhidao.baidu.com/question/579933914.html
mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job –numClusters 3 –t1 0.5 –t2 10 –maxIter 10 -i ./testdata/synthetic_control.data -o output -ow
可以通过这个对命令行参数进行解释:
mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job –help
这里写图片描述
对于输出结果的解释:
大家可以参考这个连接http://www.linuxidc.com/Linux/2014-01/94575.htmhttp://blog.sina.com.cn/s/blog_518dac4c0101gekm.html
命令为:

mahout seqdumper -i output/clusteredPoints/part-r-00000 -o /home/hadoop/part-1
cat part-1 | more

其实最后对于mahout整个流程的安装,还有一篇文章,参考http://www.fx114.net/qa-145-115880.aspx

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值