学习笔记之数据挖掘 FP-tree 算法
FP-tree 算法和 Apriori 算法都被用作关联规则挖掘。
FP-tree 算法只进行 2 次数据库扫描。相比于 Apriori 算法,她没有候选集,直接压缩数据库成一个频繁模式树,通过这棵树生成关联规则。两个主要步骤:
1. 利用事务数据库中的数据构造 FP-tree;
2. 从 FP-tree 中挖掘频繁模式。
步骤一: 构建 FP-tree 树
- 扫描数据库一次,得到频繁 1-项集;
把项按支持度递减排序;
真实项目中,支持度一般设置的都不会太低。如定义 minsup = 20%, 即最小支持度为 2;
再一次扫描数据库,建立 FP-tree;
FP-tree 结构的好处
步骤二:频繁模式的挖掘
- 根据事务数据库 D 和最小支持度 min_sup,调用建树过程,建立 FP-tree;
- if FP-tree 为简单路径:
将路径上支持度计数大于 min_sup 的节点任意组合,得到所需的频繁模式
else
初始化最大频繁模式集合为空 - 按照支持频率升序,以每个 1-频繁项为后缀,调用为挖掘算法挖掘最大频繁模式集;
- 根据最大频繁模式集合中最大频繁模式,输出全部的频繁模式。
例子
数据
构造 FP-tree
FP-growth
FP-tree 算法的优缺点
优点
- FP-tree 算法只需对事务数据库进行二次扫描;
- 避免产生大量候选集;
缺点
- 要递归生成条件数据库和条件 FP-tree,所以内存开销大;
- 只能用于挖掘单维的布尔关联规则;