数据分析系列之FP-growth算法介绍

最新推荐文章于 2024-07-30 13:57:56 发布

琅晓琳

最新推荐文章于 2024-07-30 13:57:56 发布

阅读量1.7k

点赞数

分类专栏：数据分析文章标签：算法数据库 python 大数据

原文链接：https://blog.csdn.net/qq_36783816/article/details/112574207

版权

数据分析专栏收录该内容

26 篇文章

订阅专栏

1 基本概念：
FP-growth，即 Frequent Pattern Growth，它通过构建 FP 树(即 Frequent Pattern Tree)这样的数据结构，巧妙得将数据存储在 FP 树中，只需要在构建 FP 树时扫描数据库两次，后续处理就不需要再访问数据库了。这种特性使得 FP-growth 算法比 Apriori 算法速度快。FP 树是一种前缀树，由频繁项的前缀构成。

2 两个名词：
支持度 Support
支持度指某频繁项集在整个数据集中的比例。假设数据集有 10 条记录，包含{‘鸡蛋’, ‘面包’}的有 5 条记录，那么{‘鸡蛋’, ‘面包’}的支持度就是 5/10 = 0.5。
置信度 Confidence
置信度是针对某个关联规则定义的。有关联规则如{‘鸡蛋’, ‘面包’} -> {‘牛奶’}，它的置信度计算公式为{‘鸡蛋’, ‘面包’, ‘牛奶’}的支持度/{‘鸡蛋’, ‘面包’}的支持度。假设{‘鸡蛋’, ‘面包’, ‘牛奶’}的支持度为 0.45，{‘鸡蛋’, ‘面包’}的支持度为 0.5，则{‘鸡蛋’, ‘面包’} -> {‘牛奶’}的置信度为 0.45 / 0.5 = 0.9。

3 关联规则：
关联规则用于发现 if -> then 这样的规则，并可以给出这条规则的可信度（即置信度）。现实场景中可以用来发现很多规律，下面举个例子。在信息安全领域，需要根据已有流量数据制定规则，来判断是否触发安全报警。如规则{‘数据包大’，’多个 ip 地址同时发送数据’} -> {‘异常’}，该规则的置信度为 0.85。这条规则表示，当流量数据包大，并有多个 ip 地址同时向目标 ip 发送数据时，则有 85%的概率存在异常，需要触发报警。

4 基本步骤：
构建 FP 树—>挖掘频繁项集—>关联规则挖掘
4.1 统计数据集中各个元素出现的频数，将频数小于最小支持度的元素删除；
4.2 获得频繁项的前缀路径，然后将前缀路径作为新的数据集，以此构建前缀路径的条件 FP 树；
4.3 对上文得到的频繁项集构建所有可能的规则，然后对每条规则逐个计算置信度，输出置信度大于最小置信度的所有规则。

参考资料：
https://blog.csdn.net/qq_36783816/article/details/112574207 FP-growth