运行环境
JDK1.7
hadoop-1.2.1
mahout0.9
运行命令:
hadoop jar mahout-examples-0.9-job.jar org.apache.mahout.fpm.pfpgrowth.FPGrowthDriver -i /user/hadoop/testdata/fptree/fptree.txt -o /home/hadoop/fpdir/output1 -k 4 -method mapreduce -regex '[\ ]' -s 40
解释:-i 输入路径 -o 输出路径 -k 4表示找出和某个item相关的前十个频繁项 -method 表示使用mapreduce来运行这个作业,-regex '[\ ]'表示每行数据是用空白来间隔item的,-s 40表示只统计最少出现40次的项。
结果页列表:
frequentpatterns中记录的包含每个item的频繁项的序列文件
频繁项查看命令:
mahout seqdumper -i /home/hadoop/fpdir/output1/frequentpatterns/part-r-00000
提示:路径为hdfs上的路径