FP Growth算法
Preface
- Frequent Pattern 算法降低了Aproir挖掘算法的代价,不需要生成候选项目队列和不断扫描整个数据库。
过程
构架一棵初始FP树T;构建头表
FP树的挖掘
原则&步骤- 确定最小频繁阈值,全局适用(如阈值为3)
- 从头表最后一项向前推进(如N)
- 每一项步骤
- 找到N的条件模式基,得到子树T1
- 派生频繁项目集S1,与直接频繁集就是最后的结果
- 得到N的条件模式基后,需要删除小于阈值的节点
- 这些条件模式基当中有多节点的路径,对其进行递归或者排列组合
- 最后在统计表中显示的结果类似{(f: 3,c: 3)}|m,主要表示节点-节点之间的一对一关系
关于大数据库的处理方法
- 如果内存足够可以放在内存中
- 如果内存不足,将大数据库处理成为若干小数据库,分别处理
- 这种小数据库称为投射数据库,对节点N来说就是N-投射数据库
笔记总结于
其他相关资料
- 相关java实现代码:Aprior算法简化算法——FP-Tree思想与实现