mahout是基于Hadoop的数据挖掘工具,因为有了hadoop,所以进行海量数据的挖掘工作显得更为简单。但是因为算法需要支持M/R,所以不是所有常用的数据挖掘算法都会支持。这篇文章会告诉你,如何使用hadoop + mahout搭出一个简易的聚类工具。
第一步:搭建hadoop平台。
我使用的是ubuntu 11.04,如果没有ubuntu的开发环境,就参考我的帖子《Ubuntu 10.10 java 开发环境》
#1 在ubuntu下面建立一个用户组与用户
beneo@ubuntu:~$ sudo addgroup hadoop
beneo@ubuntu:~$ sudo adduser --ingroup hadoop hduserbeneo@ubuntu:~$ sudo addgroup hadoop
beneo@ubuntu:~$ sudo adduser --ingroup hadoop hduser
#2 安装ssh-server
Java代码
beneo@ubuntu:~$ sudo apt-get install ssh
beneo@ubuntu:~$ su - hduser
hduser@ubuntu:~$ ssh-keygen -t rsa -P""
hduser@ubuntu:~$ cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keysbeneo@ubuntu:~$ sudo apt-get install ssh
beneo@ubuntu:~$ su - hduser
hduser@ubuntu:~$ ssh-keygen -t rsa -P ""
hduser@ubuntu:~$ cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
#3 验证ssh通信
Java代码
hduser@ubuntu:ssh localhosthduser@ubuntu:ssh localhost
ssh localhost 后,选择 yes,如果没有问题,就可以安装hadoop了
#4 添加java_home
修改conf/hadoop-env.sh文件,让JAVA_HOME指向正确的地址
#5 修改下面的配置
conf/core-site.xml:
Java代码
fs.default.name
hdfs://localhost:9000
fs.default.name
hdfs://localhost:9000
conf/hdfs-site.xml:
Java代码
dfs.replication
1
dfs.replication
1
conf/mapred-site.xml:
Java代码
mapred.job.tracker
localhost:9001
mapred.job.tracker
localhost:90