python实现fp_growth调包_FP-growth 算法与Python实现

最新推荐文章于 2024-08-16 19:02:32 发布

weixin_39935903

最新推荐文章于 2024-08-16 19:02:32 发布

阅读量937

点赞数

文章标签： python实现fp_growth调包

本文链接：https://blog.csdn.net/weixin_39935903/article/details/111434741

版权

本文介绍了FP-growth算法，一种用于挖掘频繁项集的高效方法。与Apriori不同，FP-growth只需遍历数据集两次，构建FP树并从中提取频繁项集。文章详细解释了FP树的结构，如何构建FP树，以及如何从FP树中挖掘频繁项集。通过示例数据和Python代码，展示了FP-growth算法的具体实现。

摘要由CSDN通过智能技术生成

介绍

打开你的搜索引擎，输入一个单词或一部分，例如“我”，搜索引擎可能会去统计和“我”一块出现得多的词，然后返回给你。其实就是去找频繁项集，而且需要相当地高效，像Apriori那样的速度肯定是不行的了。

本文要介绍的是FP-growth算法，它被用于挖掘频繁项集，它把数据集存储为一个叫FP树的数据结构里，这样可以更高效地发现频繁项集或频繁项对。相比于Apriori对每个潜在的频繁项集都扫描数据集判定是否满足支持度，FP-growth算法只需要遍历两次数据库，因此它在大数据集上的速度显著优于Apriori。

本文的内容和代码主要来源于《机器学习实战》，加入一些自己的理解和测试，有兴趣可以去看看原书。

FP树

FP即Frequent Pattern，FP树看上去就是一棵前缀树，根节点是空集，结点上是单个元素，保存了它在数据集中的出现次数，出现次数越多的元素越接近根。此外，结点之间通过链接(link)相连，只有相似元素会被连起来，连起来的元素又可以看成链表。同一个元素可以在FP树中多次出现，根据位置不同，对应着不同的频繁项集。可以为FP树设置最小支持度，过滤掉出现次数太少的元素。

下面这个数据集构造FP树如下图所示。instance idelements0r, z, h, j, p

1z, y, x, w, v, u, t, s

3r, x, n, o, s

4y, r, x, z, q, t, p

5y, z, x, e, q, s, t, m

这棵树每个结点上都是一个单独的元素，及其在路径中的出现次数，例如"z:5"表示集合{z}出现了5次，而"x:3"表示集合{z,x}出现了3次，这是路径相关的。

FP树结点

树结点定义如下，name存放结点名字，count用于计数，nodeLink用于连接相似结点(即图中箭头)，parent用于存放父节点，用于回溯，children存放儿子结点(即图中实线)。disp仅用于输出调试。class treeNode:

def __init__(self, nameValue, numOccur, parentNode):

self.name = nameValue

self.count = numOccur

self.nodeLink = None

self.parent = parentNode

self.children = {} def inc(self, numOccur):

self.count += numOccur def disp(self, ind=1):

print ' '*ind, self.name, ' ', self.count for child in self.children.values():

child.disp(ind+1)

构建FP树

为了能方便地访问FP树种每一个不同的元素，需要为每种元素(的链表)设置一个头(header)，这个header除了指向指定元素的第一个结点外，还可以保存该元素在数据集中的总出现次数。

首先，遍历一次数据集，统计每个元素出现的次数，然后把出现次数较小的滤掉(例如选取最小支持度3，将出现次数小于3的元素滤除)，然后对每个样本按照元素出现次数重排序。上面给出的数据集样例中，出现次数不小于3的元素有：z、r、x、y、s、t，滤除并重排后的样本如下所示。instance idelementsfiltered & sorted elements0r, z, h, j, pr, z

1z, y, x, w, v, u, t, sz, x, y, s, t

2zz

3r, x, n, o, sx, s, r

4y, r, x, z, q, t, pz, x, y, r, t

5y, z, x, e, q, s, t, mz, x, y, s, t

最低0.47元/天解锁文章

weixin_39935903

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫