需求说明
目前正在对hive表中的数据做分析,期望从已有的数据中挖掘出类似购物篮的关联规则,但是单机环境下的关联规则算法实在是无法胜任大数据环境下的数据挖掘工作,无奈寻求大数据环境下的分布式挖掘算法,目前可供选用的关联规则挖掘算法有Apriori和fp-tree两种,前者较后者来说,当挖掘过万的记录时,效率上更是百倍的差距,所以选择mahout中提供的fpgrowth算法来实现关联规则挖掘。
准备工作
为了配合hive中的数据表完成挖掘工作,这里需要安装的工具主要有:
1)hadoop平台,若想深入了解mapreduce的开发原理,可以参考Helloworld案例;
2)hive工具,建议使用textfile格式来存储数据,方便mahout直接在hdfs下调用数据;
3)mahout 0.9版本及之前(注,之后的版本不提供关联规则的挖掘算法,但是0.9版会与hadoop2.2及以上版本存在不兼容的现象),有关FP-TREE算法的原理可以参考该博文;
可观察mahout的jar包中是否提供了FPGrowthDriver类,若有,则是可以直接使用的。
关联规则使用
1)从hive中获取数据,进行数据ET