Mahout算法源码(0):搭建环境及Canopy获得输入数据

本文介绍了如何在VMware上的redhat环境中搭建伪分布式Hadoop集群,以及利用Mahout 0.7进行Canopy算法的环境配置。首先,通过配置Hadoop集群并验证其运行状态,然后将Mahout源码导入Eclipse工程,并执行简单的WordCount测试。接着,针对Reuters数据集,使用ExtractReuters工具进行数据转换,生成序列文件。最后,通过SparseVectorsFromSequenceFiles将序列文件转换为向量,但在运行过程中遇到错误,需要对Configuration进行调整。
摘要由CSDN通过智能技术生成

使用软件:VMware6.5 、redhat、hadoop-1.0.4、eclipse、mahout-0.7(主机 为win7);

1.首先使用虚拟机搭建一个伪分布式hadoop集群,在主机的浏览器中输入: 虚拟机名:50030  ,查看集群状态(可以参考配置hosts文件);

2. 下载两个版本的mahout(以1.7为例),如下图所示:


其中mahout-distribution-0.7-src.zip 是等下要拷贝到eclipse工程下面的,mahout-distribution-0.7.zip中的mahout-* .jar要拷贝到集群的hadoop_home/lib下面的;

其中拷贝到eclipse工程下面的文件包括:E:\software\mahout-distribution-0.7-src\mahout-distribution-0.7\core\src\main\java 、E:\software\mahout-distribution-0.7-src\mahout-distribution-0.7\examples\src\main\java、E:\software\mahout-distribution-0.7-src\mahout-distribution-0.7\integration\src\main\java、E:\software\mahout-distribution-0.7-src\mahout-distribution-0.7\math\src\main\java;

3. 在eclipse的java工程中编写一个wordcount的简单测试程序,看是否可以调用虚拟机的hadoop集群,若可以即说明环境基本搭建ok。


由于本来是想分析KMeansDriver这个程序的,但是之前先分析CannopyDriver会好点,所以就先看这个类,最开始的想法是直接下载数据,然后跑出来结果,再根据结果来 分析源码;但是第一次没有跑通,原因是数据不对,数据要经过转换才行;

我使用的数据是 Reuters dataset,根据mahout官网上面的 说明,需要经过下面的转换:


ExtractReuters这个类直接去网上下载即可,放入工程中相应的位置,然后编写一个简单的程序把刚才下载的数据转换,即第二步:

评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值