Mahout的安装与配置

 

Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。 Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。

 

下载Mahout,我下载的版本是Mahout0.9:mahout-distribution-0.9.tar.gz

 

解压:

 

重命名:

 

配置环境变量:

 

使用命令 source/profile 使环境变量立即生效:

 

验证Mahout是否安装成功:输入myhout,若列出一些算法,则成功

 

运行一个Mahout实例,从网站下载测试数据,另存为 synthetic_control.data.txt 格式

启动Hadoop,在HDFS上创建文件夹testdata(必须命名为testdata)

然后将 synthetic_control.data.txt 上传至 testdata

 

运行k-means算法,该算法会启动10个MapReduce Job任务

 

下面是运行生成的结果:

 

查看output目录:

 

转载于:https://www.cnblogs.com/Murcielago/p/4375842.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值