mahout在hadoop下安装与测试过程

本文介绍如何在Hadoop环境下安装配置Mahout 0.5版本,并通过具体步骤演示如何运行KMeans算法进行数据聚类。从下载安装到配置环境变量,再到执行算法,提供了详细的指南。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.下载mahout-0.5 网址:http://mirror.bjtu.edu.cn/apache/mahout/0.5/
2.将压缩文件解压到/home/hadoop/tools/
3.在/etc/profile和~/.bashrc中添加:
  export HADOOP_HOME=/home/hadoop/hadoop-1.0.1 export HADOOP_CONF_DIR=/home/hadoop/hadoop-1.0.1/conf以及export MAHOUT_HOME=/home/hadoop/tools/mahout-0.5
source /etc/profile
source ~/.bashrc使之生效
4.安装maven2:sudo apt-get instal maven2
5.在/mahout-0.5下执行命令:mvn  install
6.在/mahout-0.5/bin下执行:./mahout --help 查看可以执行的算法
测试kmeans算法
7.开启hadoop
8.下载数据集synthetic_control.data(http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data)。将数据集synthetic_control.data放到MAHOUT_HOME目录下面,(注意:这里一定要放到此目录下,否则会异常报错)
9.创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)$HADOOP_HOME/bin/hadoop fs -mkdir testdata
$HADOOP_HOME/bin/hadoop fs -put <PATH TO synthetic_control.data> testdata
10.使用kmeans算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值