一:下载二进制解压安装。
下载在hadoop1.1.2和mahout0.8
hadoop-common-release-1.1.2.tar.gz
http://download.csdn.net/detail/solar155/7988265
解压:
tar -zxvf mahout-distribution-0.8.tar.gz
tar -zxvf hadoop-common-release-1.1.2.tar.gz
放于目录/opt/hadoop/
二:配置环境变量:在/etc/profile,/home/hadoop/.bashrc中添加如下红色信息
#set java environment
MAHOUT_HOME=/opt/hadoop/mahout-distribution-0.8
PIG_HOME=/opt/hadoop/pig-0.9.2
HBASE_HOME=/opt/hadoop/hbase-0.94.3
HIVE_HOME=/opt/hadoop/hive-0.9.0
HADOOP_HOME=/opt/hadoop/hadoop-1.1.2
JAVA_HOME=/opt/hadoop/jdk1.7.0
PATH=$JAVA_HOME/bin:$PIG_HOME/bin:$MAHOUT_HOME/bin:$HBASE_HOME/bin:$HIVE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/conf:$PATH
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$HBASE_HOME/lib:$MAHOUT_HOME/lib:$PIG_HOME/lib:$HIVE_HOME/lib:$JAVA_HOME/lib/tools.jar
export MAHOUT_HOME
export PIG_HOME
export HBASE_HOME
export HADOOP_HOME
export JAVA_HOME
export HIVE_HOME
export PATH
export CLASSPATH
三:启动hadoop,也可以用伪分布式来测试
四:mahout --help #检查Mahout是否安装完好,看是否列出了一些算法
五:mahout使用准备
a.下载一个文件synthetic_control.data,下载地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data,并把这个文件放在$MAHOUT_HOME目录下。
b.启动 $HADOOP_HOME/bin/start-all.sh
c.创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)
创建testdata: hadoop fs -mkdir testdata
复制数据到testdata: hadoop fs -put /opt/hadoop/mahout-distribution-0.8/synthetic_control.data testdata
d.使用kmeans算法
hadoop jar /opt/hadoop/mahout-distribution-0.8/mahout-examples-0.8-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
e.查看结果 hadoop fs -lsr output
输出在:/opt/hadoop/hadoop-1.2.1/output
六:以上过程中出现的问题:
1、错误:localhost: Error: JAVA_HOME is not set.
编辑 conf/hadoop-env.sh
把 JAVA_HOME 设置为 java 安装的根路径
2、
Hadoop启动时提示的:$HADOOP_HOME is deprecated.
不影响功能但是你要是和我一样有洁癖就看着不舒服
解决办法:在安装目录下conf下找到hadoop-env.sh然后再里面添加
export HADOOP_HOME_WARN_SUPPRESS=”TRUE”从新启动就可以了
转载:http://www.cnblogs.com/linjiqin/archive/2013/03/15/2961649.html