一、安装配置
1、安装、配置JDK,Hadoop(略)
2、下载Mahout, http://mahout.apache.org/ ,非源码下载解压即可用(src为源码包,需要用maven编译)。
3、添加环境变量
二、运行示例
1、启动 Hadoop (hadoop namenode -format;start-all.sh)
2、下载测试输入 数据
3、把数据导入HDFS中
如:Kmeans聚类算法
clusteredPoints/ clusters-2/ clusters-6/ data/
clusters-0/ clusters-3/ clusters-7/
clusters-1/ clusters-4/ clusters-8/
clusters-10-final/ clusters-5/ clusters-9/
1、安装、配置JDK,Hadoop(略)
2、下载Mahout, http://mahout.apache.org/ ,非源码下载解压即可用(src为源码包,需要用maven编译)。
3、添加环境变量
修改/etc/profile ,添加
通过$MAHOUT_HOME/bin/mahout 命令检测是否安装成功。##根据实际情况修改
export JAVA_HOME=/usr/lib/jvm/java-1.6.0-openjdk
export HADOOP_HOME=/home/rongry/up实习/hadoop-1.0.2 export HADOOP_CONF_DIR=/home/rongry/up实习/hadoop-1.0.2/conf export MAHOUT_HOME=/home/rongry/up实习/mahout-distribution-0.6 ##export HADOOP_HOME_WARN_SUPPRESS=1
二、运行示例
1、启动 Hadoop (hadoop namenode -format;start-all.sh)
2、下载测试输入 数据
3、把数据导入HDFS中
4、运行示例$bin/hadoop fs mkdir testdata
$bin/hadoop fs -put synthetic_control.data testdata
如:Kmeans聚类算法
$bin/hadoop jar $MAHOUT_HOME/mahout-examples-0.6-job.jar org.apache.mahout.clustering. syntheticcontrol.kmeans.Job他会启动多个job,输出output/大致如:
clusteredPoints/ clusters-2/ clusters-6/ data/
clusters-0/ clusters-3/ clusters-7/
clusters-1/ clusters-4/ clusters-8/
clusters-10-final/ clusters-5/ clusters-9/