Mahout关联规则源码分析（1）

最新推荐文章于 2017-02-17 10:54:00 发布

fansy1990

最新推荐文章于 2017-02-17 10:54:00 发布

阅读量8.2k

点赞数

本文链接：https://blog.csdn.net/fansy1990/article/details/8137942

版权

本文主要探讨了Apache Mahout中关联规则的实现，重点在于并行程序的分析。首先介绍了如何通过命令行运行关联规则算法，然后通过一张流程图展示了Mahout实现关联规则的思想。在分析源码的过程中，提到了数据处理的步骤，包括读取事务、去除某些项目并排序，以及基于最小支持度生成交易A。在MapReduce过程中，通过Reduce阶段统计item出现次数，当次数超过最小置信度时，输出规则。文章分享了第一个MapReduce任务的驱动程序和Reducer代码，以及获取总表的代码，并指出整个过程可以分为四个部分，包括总表的获取。

摘要由CSDN通过智能技术生成

最近看了关联规则的相关算法，着重看了mahout的具体实现，mahout官网上面给出了好多算法，具体网址如下：https://cwiki.apache.org/confluence/display/MAHOUT/Parallel+Frequent+Pattern+Mining 。

先说下命令行运行关联规则，关联规则的算法在mahout-core-0,7.jar包下面，命令行运行如下：

fansy@fansypc:~/hadoop-1.0.2$ bin/hadoop jar ../mahout-pure-0.7/core/target/mahout-core-0.7.jar
 org.apache.mahout.fpm.pfpgrowth.FPGrowthDriver -i input/retail.dat -o date1101/fpgrowthdriver00 -s 2 -method mapreduce -regex '[\ ]'
12/11/01 16:31:39 INFO common.AbstractJob:
 Command line arguments: {--encoding=[UTF-8], --endPhase=[2147483647], 
--input=[input/retail.dat], --maxHeapSize=[50], --method=[mapreduce], --minSupport=[2], --numGroups=[1000], 
--numTreeCacheEntries=[5], --output=[date1101/fpgrowthdriver00], --splitterPattern=[[\ ]], --startPhase=[0], --tempDir=[temp]}

最后的 -regex '[\ ]' 一定是需要的对于输入数据 retail.dat来说，因为mahout默认的item的分隔符是没有空格的；

而且这里只讨论并行的程序，所以使用 -method mapreduce

下面分析源码：

在分析源码之前，先看一张图：

这张图很好的说明了mahout实现关联规则思想，或者说是流程；

首先，读入数据，比如上图的5个transactions(事务),接着根据一张总表（这张总表是每个item的次数从大到小的一个排列，同时这张表还去除了出现次数小于min_support的item）把这些transactions 去除一些项目并按照总表的顺序排序，得到另外的一个transaction A，接着map的输出就是根据transaction A输出规则，从出现次数最小的item开始输出直到出现次数第二大的item。

Reduce收集map输出相同的key值，把他们的value值放一个集合set 中，然后在统计这些集合中item出现的次数，如果次数大于min_confidence(本例中为3),那么就输出key和此item的规则；

命令行运行时可以看到三个MR，即可以把关联规则的算法分为三部分，但是个人觉得可以分为四个部分，其中的一部分就是总表的获得；鉴于目前本人只看了一个MR和总表的获得部分的源码，今天就只分享这两个部分；

贴代码先，基本都是源码来的，只是稍微改了下：

第一个MR的驱动程序：PFGrowth_Paral