频繁模式挖掘-FP-Growth

FP-Growth是一种用于频繁模式挖掘的算法,由韩家炜等在2000年提出,能减少数据扫描次数。文章介绍了算法逻辑,包括数据统计、构建频繁树及头表,以及如何搜索频繁项集。并通过一个案例详细展示了FP-Tree的构建过程。此外,还提供了在Spark中使用Java实现FP-Growth的例子。
摘要由CSDN通过智能技术生成

目录

算法简介

算法逻辑

案例

Spark程序实现例子(Java语言)


 

算法简介

FP-Growth是频繁模式挖掘的一种算法,由韩家炜等在2000年提出,算法通过建立一棵频繁项集树来实现频繁项集的搜索,同时能实现事务的压缩,相比Apriori能减少数据的扫描次数。

算法逻辑

1、扫描数据,统计项目(item)在数据集中出现的频数,例如苹果出现(被购买)了4次、牛奶出现(被购买)了5次等

2、再次扫描数据,构建频繁树(FP-Tree),并生成头表。将每条事物中的项目按照步骤1中的频数由高到底排列后,依次放到树中,并用头表记录每个项目在树中的位置

3、依据头表和支持度,在频繁树种搜索频繁项集

案例

数据:

交易ID(TID) item(项)
1 苹果,牛奶,香蕉
2 苹果,烤串
3 牛奶,香蕉,啤酒
4 牛奶,啤酒
5 香蕉,啤酒,尿布
6 香蕉
7 苹果,牛奶,香蕉,啤酒,尿布,烤串
8 香蕉
9 牛奶
10 啤酒
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值