【算法篇】关联性分析 FP-Growth算法

最新推荐文章于 2024-08-30 22:47:07 发布

数据门徒

最新推荐文章于 2024-08-30 22:47:07 发布

阅读量1.8k

点赞数 40

分类专栏：数据挖掘文章标签：算法数据挖掘

本文链接：https://blog.csdn.net/data_disciple/article/details/140903103

版权

7 篇文章 0 订阅

订阅专栏

FP-Growth（Frequent Pattern Growth，频繁模式增长）算法是一种高效的数据挖掘算法，主要用于解决频繁项集挖掘和关联规则发现的问题。

与传统的Apriori算法相比，FP-Growth算法通过构建一种称为FP-Tree（频繁模式树）的数据结构，极大地减少了搜索空间，提高了挖掘效率。

FP-Growth算法不仅适用于处理大规模数据集，还能有效应对数据稀疏性问题，因此在电子商务、社交网络分析、金融风控等多个领域有着广泛的应用。

	FP-Growth算法	Apriori算法
提出时间	2000年	1993年
基本思想	基于频繁模式树（FP-Tree）挖掘频繁项集	基于候选集生成和向下封闭检测挖掘频繁项集
数据结构	FP-Tree（频繁模式树）	无特定数据结构，使用集合和列表
扫描数据库次数	两次	多次（随频繁项集长度的增加而增加）
效率	较高，特别是对于大规模数据集	较低，特别是对于长频繁项集
内存使用	较低，因为FP-Tree是紧凑的数据结构	较高，因为需要存储大量候选集
算法复杂度	较低，构建FP-Tree和挖掘频繁项集过程相对简单	较高，尤其是候选集生成和剪枝过程
适应场景	适用于大规模数据集和稀疏数据集	适用于小规模数据集或特定场景
发现关联规则	需要额外步骤从频繁项集中生成关联规则	可以直接从频繁项集中生成关联规则
优点	1. 只需扫描数据库两次，效率高。2. 占用内存少。3. 适用于大规模数据集。	1. 算法简单明了，易于实现。2. 广泛应用于各个领域。
缺点	不能直接用于发现关联规则，需要额外步骤	1. 扫描数据库次数多，效率低。 2. 产生大量候选集，占用内存大。 3. 对于长频繁项集挖掘性能低下。

假设你的超市有以下几笔交易记录（即顾客购买的商品列表）：

构建FP树：
- 创建一个根节点（通常标记为“null”或“root”）
- 对于每笔过滤后的交易，按照排序后的顺序插入到FP树中。如果树中已存在某个节点，则增加其计数；如果不存在，则创建新节点（构造FP树时，会排查非频繁项）。

在FP树构建完成后，数据库频繁模式的挖掘问题就转换成挖掘 FP树的问题。算法会递归地从树中挖掘频繁项集。

通过创建条件(子)模式基挖据 FP树