FP-growth算法

最新推荐文章于 2024-08-16 21:42:05 发布

好多鱼哦

最新推荐文章于 2024-08-16 21:42:05 发布

阅读量804

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/shuke1991/article/details/52234651

版权

33 篇文章 1 订阅

订阅专栏

当搜索引擎输入一个单词的时候，会自动补全查询词项。用的就是FP-growth算法，一种用来高效发现频繁集的方法。比Apriori算法更快。

应用：用于识别经常出现的元素相，制定决策、推荐元素或进行预测等。

任务：将数据集存储在一个特定的称作FP树的结构之后发现频繁项对，即常在一块出现的元素项的集合FP树。执行速度比Apriori性能要好两个数量级以上。

每次增加频繁项集的大小，Apriori算法都会重新扫描整个数据集，而FP-growth算法只需要对数据库进行两次扫描。

过程：

（1）构建FP树

事务数据集（最小支持度为3）

从空集开始，将过滤和重排序后的频繁项集一次添加到树中。如果树中已存在现有元素，则增加现有元素的值；如果现有元素不存在，则向树添加一个分支。

实现带头指针的FP树

（2）从FP树中挖掘（抽取）频繁项集

从FP树中抽取频繁项集的三个基本步骤如下：

从头指针表中的每个频繁元素项开始，对每个元素项，获得其对应的条件模式基。条件模式基是以所查找元素项为结尾的路径集合（前缀路径）。

前缀路径用于构建条件FP树，递归发现频繁项、发现条件模式基及条件树。

以频繁项t为例：

元素项s以及rs和r不满足最小支持度的条件，它们并不属于条件FP树。

递归查找频繁项集：

输入：我们有当前数据集的FP树（inTree，headerTable）
1. 初始化一个空列表preFix表示前缀
2. 初始化一个空列表freqItemList接收生成的频繁项集（作为输出）
3. 对headerTable中的每个元素basePat（按计数值由小到大），递归：

以频繁项t为例：

图中红色加粗的部分即实际添加到freqItemList中的频繁项集。

关注

专栏目录