FP Tree算法原理总结

最新推荐文章于 2023-10-09 15:01:52 发布

iqmae68024

最新推荐文章于 2023-10-09 15:01:52 发布

阅读量839

点赞数 1

本文链接：https://blog.csdn.net/iqmae68024/article/details/54667802

版权

本文深入探讨FP Tree算法，一种高效挖掘频繁项集的方法。文章详细解释了FP Tree的数据结构，包括项头表、FP Tree及节点链表的建立过程，并通过实例展示了如何从FP Tree中挖掘频繁项集。此外，还总结了FP Tree算法的流程和其在实际应用中的价值。

摘要由CSDN通过智能技术生成

　　　　在Apriori算法原理总结中，我们对Apriori算法的原理做了总结。作为一个挖掘频繁项集的算法，Apriori算法需要多次扫描数据，I/O是很大的瓶颈。为了解决这个问题，FP Tree算法（也称FP Growth算法）采用了一些技巧，无论多少数据，只需要扫描两次数据集，因此提高了算法运行的效率。下面我们就对FP Tree算法做一个总结。

1. FP Tree数据结构

　　　　为了减少I/O次数，FP Tree算法引入了一些数据结构来临时存储数据。这个数据结构包括三部分，如下图所示：

　　　　第一部分是一个项头表。里面记录了所有的1项频繁集出现的次数，按照次数降序排列。比如上图中B在所有10组数据中出现了8次，因此排在第一位，这部分好理解。第二部分是FP Tree，它将我们的原始数据集映射到了内存中的一颗FP树，这个FP树比较难理解，它是怎么建立的呢？这个我们后面再讲。第三部分是节点链表。所有项头表里的1项频繁集都是一个节点链表的头，它依次指向FP树中该1项频繁集出现的位置。这样做主要是方便项头表和FP Tree之间的联系查找和更新，也好理解。

　　　　下面我们讲项头表和FP树的建立过程。

2. 项头表的建立

　　　　FP树的建立需要首先依赖项头表的建立。首先我们看看怎么建立项头表。

　　　　我们第一次扫描数据，得到所有频繁一项集的的计数。然后删除支持度低于阈值的项，将1项频繁集放入项头表，并按照支持度降序排列。接着第二次也是最后一次扫描数据，将读到的原始数据剔除非频繁1项集，并按照支持度降序排列。

　　　　上面这段话很抽象，我们用下面这个例子来具体讲解。我们有10条数据，首先第一次扫描数据并对1项集计数，我们发现F，O，I，L，J，P，M, N都只出现一次，支持度低于20%的阈值，因此他们不会出现在下面的项头表中。剩下的A,C,E,G,B,D,F按照支持度的大小降序排列，组成了我们的项头表。

　　　　接着我们第二次扫描数据，对于每条数据剔除非频繁1项集，并按照支持度降序排列。比如数据项ABCEFO，里面O是非频繁1项集，因此被剔除，只剩下了ABCEF。按照支持度的顺序排序，它变成了ACEBF。其他的数据项以此类推。为什么要将原始数据集里的频繁1项数据项进行排序呢？这是为了我们后面的FP树的建立时，可以尽可能的共用祖先节点。

　　　　通过两次扫描，项头表已经建立，排序后的数据集也已经得到了&#x

最低0.47元/天解锁文章

iqmae68024

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
FP Tree算法原理总结

在Apriori算法原理总结中，我们对Apriori算法的原理做了总结。作为一个挖掘频繁项集的算法，Apriori算法需要多次扫描数据，I/O是很大的瓶颈。为了解决这个问题，FP Tree算法（也称FP Growth算法）采用了一些技巧，无论多少数据，只需要扫描两次数据集，因此提高了算法运行的效率。下面我们就对FP Tree算法做一个总结。1. FP Tree数据结构　　　　为了减少I/O
复制链接

扫一扫