mahout在hadoop下安装与测试过程_hadoop组件mahout测试-CSDN博客

本文链接：https://blog.csdn.net/bai071006201/article/details/7912680

本文介绍如何在Hadoop环境下安装配置Mahout 0.5版本，并通过具体步骤演示如何运行KMeans算法进行数据聚类。从下载安装到配置环境变量，再到执行算法，提供了详细的指南。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.下载mahout-0.5 网址：http://mirror.bjtu.edu.cn/apache/mahout/0.5/
2.将压缩文件解压到/home/hadoop/tools/
3.在/etc/profile和～/.bashrc中添加：
  export HADOOP_HOME=/home/hadoop/hadoop-1.0.1 export HADOOP_CONF_DIR=/home/hadoop/hadoop-1.0.1/conf以及export MAHOUT_HOME=/home/hadoop/tools/mahout-0.5
source /etc/profile
source ~/.bashrc使之生效
4.安装maven2:sudo apt-get instal maven2
5.在/mahout-0.5下执行命令：mvn  install
6.在/mahout-0.5/bin下执行：./mahout --help 查看可以执行的算法
测试kmeans算法
7.开启hadoop
8.下载数据集synthetic_control.data（http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data）。将数据集synthetic_control.data放到MAHOUT_HOME目录下面，（注意：这里一定要放到此目录下，否则会异常报错）
9.创建测试目录testdata，并把数据导入到这个tastdata目录中（这里的目录的名字只能是testdata）$HADOOP_HOME/bin/hadoop fs -mkdir testdata
$HADOOP_HOME/bin/hadoop fs -put <PATH TO synthetic_control.data> testdata
10.使用kmeans算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job