一、Mahout概述
1.1 Mahout是什么?
Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。
Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。
1.2 Mahout能干嘛?
Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。
Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。
目前比较成熟和活跃的主要包括:
1、频繁模式挖掘
2、聚类算法
3、分类器
4、推荐算法
5、频繁子项挖掘
二、安装与简单使用
2.1 Mahout安装特别简单,只需要解压到指定目录即可。(可以修改一下环境变量)
2.2 测试是否能正常使用,显示如下页面即为成功!
三、Kmeans均值聚类算法案例
因为本章的maho