目录
算法简介
FP-Growth是频繁模式挖掘的一种算法,由韩家炜等在2000年提出,算法通过建立一棵频繁项集树来实现频繁项集的搜索,同时能实现事务的压缩,相比Apriori能减少数据的扫描次数。
算法逻辑
1、扫描数据,统计项目(item)在数据集中出现的频数,例如苹果出现(被购买)了4次、牛奶出现(被购买)了5次等
2、再次扫描数据,构建频繁树(FP-Tree),并生成头表。将每条事物中的项目按照步骤1中的频数由高到底排列后,依次放到树中,并用头表记录每个项目在树中的位置
3、依据头表和支持度,在频繁树种搜索频繁项集
案例
数据:
交易ID(TID) | item(项) |
1 | 苹果,牛奶,香蕉 |
2 | 苹果,烤串 |
3 | 牛奶,香蕉,啤酒 |
4 | 牛奶,啤酒 |
5 | 香蕉,啤酒,尿布 |
6 | 香蕉 |
7 | 苹果,牛奶,香蕉,啤酒,尿布,烤串 |
8 | 香蕉 |
9 | 牛奶 |
10 | 啤酒 |