刚刚安装在Linux下安装配置成功了Apache Mahout,决定和大家分享下,因为我花了六七个小时才完成这样一个工作,我希望你——这篇文章的阅读者能在一个小时内愉快的安装成功。我觉得分享才是王道,也希望你解决了什么问题之后能够分享给大家,谢谢!
首先,请到百度文库中下载这篇文章:(Mahout安装图文版)
http://wenku.baidu.com/view/dbd15bd276a20029bd642d55.html
按照上面的步骤一步一步的做下去。如果你在使用命令bin/mahout –help时系统并没有列出算法,那是因为其在你的配置的环境变量HADOOP_HOME和HADOOP_CONF_DIR上面运行的,如果删除这两个环境变量的话再运行这个命令式可以得到想要的结果的。
然后你需要做的是测试下你安装的怎么样,下面将告诉你怎么样使用一个聚集算法:
在https://cwiki.apache.org/confluence/display/MAHOUT/Clustering+of+synthetic+control+data中,你可以看到详细的步骤,但是有些步骤我测试的时候并没有很好的运行。
下面将告诉你我成功运行的方法:
1:你到上面这个网页上,你将看到下面的部分:
Pre-Prep
Make sure you have the following covered before you work out the example.
- Input data set. Download it here .
在此处点击here下载数据集synthetic_control.data。将数据集synthetic_control.data放到MAHOUT_HOME目录下面,(注意:这里一定要放到此目录下,否则会异常报错)
2:启动Hadoop:$HADOOP_HOME/bin/start-all.sh
3:创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)$HADOOP_HOME/bin/hadoop fs -mkdir testdata
$HADOOP_HOME/bin/hadoop fs -put <PATH TO synthetic_control.data> testdata
4:使用kmeans算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/mahout-examples-0.3.job org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
这里会运行几分钟,耐心等待。
5.:查看运行结果。依次运行下列命令:
$HADOOP_HOME/bin/hadoop fs -lsr output
$HADOOP_HOME/bin/hadoop fs -get output $MAHOUT_HOME/examples
转入output目录下,
$cd MAHOUT_HOME/examples/output
$ls
如果看到以下结果,那么算法运行成功,你的安装也就成功了:
canopies clusters-1 clusters-3 clusters-5 clusters-7 points
clusters-0 clusters-2 clusters-4 clusters-6 data
希望这个对大家有用。
参考文档:
https://cwiki.apache.org/confluence/display/MAHOUT/Clustering+of+synthetic+control+data