Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,也是apache的重点项目。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。
对机器学习算法的分布式实现比较感兴趣,后续准备深入学习下Mahout这个项目。今天主要是把基本的环境给搭建起来了,然后跑了一个demo
主要是参照 http://itindex.net/detail/49323-mahout-%E5%AD%A6%E4%B9%A0-mahout。来搭建环境
接下来就是结合《Mahout实战》来学习Mahout的使用以及相关算法的Map-Reduce实现。在Eclipe环境下跑了一个Mahout里面推荐系统的实例,程序如下:
import org.apache.mahout.cf.taste.impl.model.file.*;
import org