Python基础原理：FP-growth算法的构建

最新推荐文章于 2022-12-04 21:45:28 发布

计算所培训中心

最新推荐文章于 2022-12-04 21:45:28 发布

阅读量569

点赞数

分类专栏：技术知识文章标签：数据库函数算法搜索引擎数据结构

本文链接：https://blog.csdn.net/tcict/article/details/78769814

版权

技术知识专栏收录该内容

156 篇文章 4 订阅

订阅专栏

和Apriori算法相比，FP-growth算法只需要对数据库进行两次遍历，从而高效发现频繁项集。对于搜索引擎公司而言，他们需要通过查看互联网上的用词，来找出经常在一块出现的词。因此就需要能够高效的发现频繁项集的方法，FP-growth算法就可以完成此重任。

FP-growth算法是基于Apriori原理的，通过将数据集存储在FP（Frequent Pattern)树上发现频繁项集。
FP-growth算法只需要对数据库进行两次扫描，而Apriori算法在求每个潜在的频繁项集时都需要扫描一次数据集，所以说FP-growth算法是高效的。

FP算法发现频繁项集的过程是：
(1)构建FP树；
(2)从FP树中挖掘频繁项集
FP表示的是频繁模式，其通过链接来连接相似元素，被连起来的元素可看成是一个链表
将事务数据表中的各个事务对应的数据项，按照支持度排序后，把每个事务中的数据项按降序依次插入到一棵以 NULL为根节点的树中，同时在每个结点处记录该结点出现的支持度。

假设存在的一个事务数据样例为,构建FP树的步骤如下：