MAHOUT之关联规则挖掘算法

Running_you

于 2015-09-06 22:42:51 发布

阅读量2.6k

点赞数 1

分类专栏：算法 mahout 文章标签：算法

本文链接：https://blog.csdn.net/sinat_29508201/article/details/48252681

版权

本文介绍了使用Mahout的FPGrowth算法在大数据环境下进行关联规则挖掘的过程。首先，阐述了需求背景，即单机算法在大数据分析中的局限性。接着，详细列出了挖掘前的准备工作，包括安装Hadoop、Hive和Mahout 0.9版本。然后，解释了如何从Hive获取数据并使用Mahout命令执行挖掘任务。最后，解析了挖掘结果的文件结构，并提到了如何转换序列文件以便查看最终的关联规则结果。

摘要由CSDN通过智能技术生成

需求说明

目前正在对hive表中的数据做分析，期望从已有的数据中挖掘出类似购物篮的关联规则，但是单机环境下的关联规则算法实在是无法胜任大数据环境下的数据挖掘工作，无奈寻求大数据环境下的分布式挖掘算法，目前可供选用的关联规则挖掘算法有Apriori和fp-tree两种，前者较后者来说，当挖掘过万的记录时，效率上更是百倍的差距，所以选择mahout中提供的fpgrowth算法来实现关联规则挖掘。

准备工作

为了配合hive中的数据表完成挖掘工作，这里需要安装的工具主要有：
1）hadoop平台，若想深入了解mapreduce的开发原理，可以参考Helloworld案例；
2）hive工具，建议使用textfile格式来存储数据，方便mahout直接在hdfs下调用数据；
3）mahout 0.9版本及之前（注，之后的版本不提供关联规则的挖掘算法，但是0.9版会与hadoop2.2及以上版本存在不兼容的现象），有关FP-TREE算法的原理可以参考该博文；
可观察mahout的jar包中是否提供了FPGrowthDriver类，若有，则是可以直接使用的。