Mahout安装

Mahout安装

目录

简介

Mahout 是基于hadoop/spark的机器学习框架,具体分为推荐引擎(recommender engines),聚类分析(clustering),分类(classifaction)

下载0.9版本

wget http://mirrors.cnnic.cn/apache/mahout/0.9/mahout-distribution-0.9.tar.gz
版本地址

解压

tar zxvf mahout-distribution-0.9.tar.gz

配置文件

查看 $MAHOUT_HOME/bin/mahout,可以看到需要配置几个环境变量

环境变量描述
MAHOUT_JAVA_HOME默认同 JAVA_HOME.
MAHOUT_HEAPSIZE使用的最大heap size,单位MB,默认1000
HADOOP_CONF_DIRhadoop 配置文件目录
MAHOUT_OPTSExtra Java runtime options.
MAHOUT_CONF_DIRThe location of the program short-name to class name mappings ,默认为”$MAHOUT_HOME/src/conf”
MAHOUT_LOCAL设置不为空,则mahout 会在local运行,即使HADOOP_CONF_DIR和HADOOP_HOME都设置了。
MAHOUT_CORE设置不为空,则mahout在开发者模式下运行,相当于设为为命令行下mahout -core,此时mahout在local运行,从target/classes加载类,而不是从jar包中读取。

所以确保如下环境变量设置,可以设置在~/.bashrc,也可以设置在bin/mahout中
$JAVA_HOME
$MAHOUT_HOME
$HADOOP_CONF_DIR
生效设置
source ~/.bashrc
验证是否安装完成
mahout

测试

下载数据集
wget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data
上传hdfs
su hdfs
因为要使用org.apache.mahout.clustering.syntheticcontrol.kmeans.Job,源码中默认读取的目录在/user/$runtimeUser/testdata
所以将文件上传至
hdfs dfs -put synthetic_control.data /user/hdfs/testdata
运行
mahout -core org.apache.mahout.clustering.syntheticcontrol.kmeans.Job


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值