hadoop上运行mahout的fpgrouth算法

运行环境

JDK1.7

hadoop-1.2.1

mahout0.9


运行命令:

hadoop jar mahout-examples-0.9-job.jar org.apache.mahout.fpm.pfpgrowth.FPGrowthDriver -i /user/hadoop/testdata/fptree/fptree.txt  -o /home/hadoop/fpdir/output1 -k 4 -method mapreduce -regex '[\ ]' -s 40  


解释:-i 输入路径   -o 输出路径  -k 4表示找出和某个item相关的前十个频繁项 -method 表示使用mapreduce来运行这个作业,-regex '[\ ]'表示每行数据是用空白来间隔item的,-s 40表示只统计最少出现40次的项。

结果页列表:


frequentpatterns中记录的包含每个item的频繁项的序列文件




频繁项查看命令:

mahout seqdumper -i /home/hadoop/fpdir/output1/frequentpatterns/part-r-00000

提示:路径为hdfs上的路径


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值