--------------------------------------------1.下载安装mahout-distribution-0.9.tar.gz--------------------------------------------
下载地址:http://mirrors.cnnic.cn/apache/mahout/0.9/
我是直接把mahout-distribution-0.9.tar.gz放在了/home/hadoop下面,然后解压。
tar zxvf mahout-distribution-0.9.tar.gz
--------------------------------------------2.配置环境变量--------------------------------------------
vim /etv/profile
全部环境变量如下:
--------------------------------------------3.检查配置--------------------------------------------
输入:
mahout --help
不用管Unknown program '--help' chosen.这里面有bug
--------------------------------------------4.测试数据--------------------------------------------
(1)下载数据:http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data
把这个文件放在$MAHOUT_HOME下
然后启动hadoop
[hadoop@master hadoop-2.6.0]$ sbin/start-all.sh
(2)创建testdata文件夹【一定要命名为testdata,这是源代码里规定的文件夹】
[hadoop@master bin]$ hadoop fs -mkdir testdata
[hadoop@master bin]$ hadoop fs -ls
Found 1 items
drwxr-xr-x - hadoop supergroup 0 2015-01-27 07:25 testdata
(3)上传synthetic_control.data文件到testdata里面
[hadoop@master bin]$ hadoop fs -put $MAHOUT_HOME/synthetic_control.data testdata/
[hadoop@master bin]$ hadoop fs -ls
Found 1 items
drwxr-xr-x - hadoop supergroup 0 2015-01-27 07:30 testdata
[hadoop@master bin]$ hadoop fs -ls testdata
Found 1 items
-rw-r--r-- 3 hadoop supergroup 288972 2015-01-27 07:30 testdata/synthetic_control.data
(4)用kmeans算法
[hadoop@master bin]$ hadoop jar $MAHOUT_HOME/mahout-examples-0.9-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
运行时间看具体电脑配置怎么样咯~
(5)查看结果
到这里,说明你的mahout已经安装配置成功啦!