Mahout算法源码（0）：搭建环境及Canopy获得输入数据

最新推荐文章于 2021-03-26 02:29:16 发布

fansy1990

最新推荐文章于 2021-03-26 02:29:16 发布

阅读量6.7k

点赞数

分类专栏： mahout 环境搭建源码分析文章标签： canopy 环境搭建源码分析

本文链接：https://blog.csdn.net/fansy1990/article/details/9393691

版权

本文介绍了如何在VMware上的redhat环境中搭建伪分布式Hadoop集群，以及利用Mahout 0.7进行Canopy算法的环境配置。首先，通过配置Hadoop集群并验证其运行状态，然后将Mahout源码导入Eclipse工程，并执行简单的WordCount测试。接着，针对Reuters数据集，使用ExtractReuters工具进行数据转换，生成序列文件。最后，通过SparseVectorsFromSequenceFiles将序列文件转换为向量，但在运行过程中遇到错误，需要对Configuration进行调整。

摘要由CSDN通过智能技术生成

使用软件：VMware6.5 、redhat、hadoop-1.0.4、eclipse、mahout-0.7（主机为win7）；

1.首先使用虚拟机搭建一个伪分布式hadoop集群，在主机的浏览器中输入：虚拟机名:50030 ，查看集群状态（可以参考配置hosts文件）；

2. 下载两个版本的mahout（以1.7为例），如下图所示：

其中mahout-distribution-0.7-src.zip 是等下要拷贝到eclipse工程下面的，mahout-distribution-0.7.zip中的mahout-* .jar要拷贝到集群的hadoop_home/lib下面的；

其中拷贝到eclipse工程下面的文件包括：E:\software\mahout-distribution-0.7-src\mahout-distribution-0.7\core\src\main\java 、E:\software\mahout-distribution-0.7-src\mahout-distribution-0.7\examples\src\main\java、E:\software\mahout-distribution-0.7-src\mahout-distribution-0.7\integration\src\main\java、E:\software\mahout-distribution-0.7-src\mahout-distribution-0.7\math\src\main\java；

3. 在eclipse的java工程中编写一个wordcount的简单测试程序，看是否可以调用虚拟机的hadoop集群，若可以即说明环境基本搭建ok。

由于本来是想分析KMeansDriver这个程序的，但是之前先分析CannopyDriver会好点，所以就先看这个类，最开始的想法是直接下载数据，然后跑出来结果，再根据结果来分析源码；但是第一次没有跑通，原因是数据不对，数据要经过转换才行；

我使用的数据是 Reuters dataset，根据mahout官网上面的说明，需要经过下面的转换：