FP-growth算法原理及python实现（详细代码解释）

最新推荐文章于 2024-09-11 22:27:16 发布

原创

最新推荐文章于 2024-09-11 22:27:16 发布 · 2w 阅读

208 ·

CC 4.0 BY-SA版权

文章标签：

#python #fpGrowth #算法 #代码 #实现

算法简介

构建FP树

挖掘频繁项集

算法简介

FP-growth算法的应用我们经常接触到。比如，你在百度的搜索框内输入某个字或词，搜索引擎会自动补全查询词项，而这些词项都是和搜索词经常一起出现的。

FP-growth算法被用来挖掘频繁项集，也就是说从已给的多条数据记录中挖掘出哪些项是频繁一起出现的。该算法适用于标称型数据，即离散型数据。它比Apriori算法更高效，因为该算法只需要对数据库进行两次扫描，而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁。

注：最后有python代码汇总。

举个例子说明什么是项，项集，频繁项集，以及支持度。

有下面这样一份数据记录。

事务ID	事务中的元素项
001	r,z,h,j,p
002	z,y,x,w,v,u,t,s
003	z
004	r,x,n,o,s
005	y,r,x,z,q,t,p
006	y,z,x,e,q,s,t,m

这份数据一共有6条记录，每条记录中的元素就是项，第1条记录中有5个项，分别为：r，z，h，j，p。项的集合就是项集，比如，[r]是一个项集，[r，z]是一个项集，[r，z，h，j，p]也是一个项集，项集是指项的任意组合。而频繁项集是指，那些在记录中经常一起出现的项组合成的集合。那么，“经常”是怎么衡量的呢？这里就涉及到支持度的概念。支持度是说出现的次数，它可以针对单个项，也可以针对项的组合，在这6条数据记录中，r 一共出现了3次，所以 r 的支持度是3，项集（r，x）出现了2次，所以（r，x）的支持度是2。

FP-growth算法挖掘频繁项集的基本过程如下：

（1）构建FP树。

（2）从FP树中挖掘频繁项集。

构建FP树

FP代表频繁模式（Frequent Pattern）。

我们先看看FP树长什么样子。以下这棵FP树是根据上面那份数据记录建立的。

可以看出，一棵FP树看上去与计算机科学中的其他树结构类似，但是它包含着连接相似节点的链接（图中的红色虚线部分）。相似节点是指前缀路径不同的项，如在上面的FP树中 r 的前缀路径有3个，分别为（z），（z，x，y），（x，s），于是，这些 r 们就叫做相似节点。后面用python构建FP树时会创建一个字典结构存储这些相似元素。

FP树是怎么构建的呢？

在构建之前，我们要先定义一个类，用来保存树的每一个节点。

class treeNode:
    def __init__(self,nameValue,numOccur,parentNode):
        self.name=nameValue #节点名称
        self.count=numOccur #节点出现的次数
        self.nodeLink=None #链接指向的下一个节点
        self.parent=parentNode #父节点
        self.children={} #子节点
    def inc(self,numOccur): #该函数用来增加节点出现的次数
        self.count+=numOccur
    def disp(self,ind=1):
        print ' '*ind,self.name,' ',self.count #展示节点名称和出现的次数
        for child in self.children.values():
            child.disp(ind+1) #打印时，子节点的缩进比父节点更深一级

运行下面这段代码：

rootNode=treeNode('pyramid',9,None) #创建节点
rootNode.children['eye']=treeNode('eye',13,None) #增加子节点
rootNode.children['phoenix']=treeNode('phoenix',3,None) #增加另一个子节点
rootNode.disp() #展示树

运行结果：

由于“eye”和“phoenix”都是”pyramid“，所以在展示树的结构时，“eye”和“phoenix”的缩进深度相同，都比”pyramid“的缩进深度更深一级。

除此之外，我们还需要把原始事务数据集处理成字典的形式，方面后面的函数调用。

定义两个函数，如下：

from collections import OrderedDict
def loadSimpDat():
    simpDat=[['r','z','h','j','p'],
             ['z','y','x','w','v','u','t','s'],
             ['z'],
             ['r','x','n','o','s'],
             ['y','r','x','z','q','t','p'],
             ['y','z','x','e','q','s','t','m']]
    return simpDat
def createInitSet(dataSet):
    retDict=OrderedDict()
    for trans in dataSet:
        retDict[frozenset(trans)]=1
    return retDict

函数loadSimpDat()把多条数据记录存储成列表的形式，函数createInitSet(dataSet)把每条数据记录冻结（frozenset函数）后作为字典的键，而每个键对应的值都是1。

最低0.47元/天解锁文章

13 条评论

LF2018131 2022.05.26
谢谢，思路结构很清晰，有帮助，谢谢

不说话上代码 2021.08.09
freqItemSet是createTree里的变量，可以用下面代码尝试运行 myFPtree, myHeaderTab = creatTree(data_new, 3) myFPtree.disp() headerTable = {} for trans in data_new: for item in trans: headerTable[item] = headerTable.get(item, 0) + data_new[trans] for k in list(headerTable.keys()): # 删除不满足最小支持度的元素 if headerTable[k] < 3: del (headerTable[k]) freqItemSet = set(headerTable.keys())

weixin_48100406 2021.06.03
主函数该怎么写呀
- weixin_41732308回复weixin_48100406 2022.05.31
  作者写了吧，在结果上面一行

weixin_48100406 2021.06.03
主函数该怎么写呀

Mr.wu` 2020.10.18
[code=python] Null Set 1 z 5 r 1 x 3 s 2 t 2 y 2 r 1 t 1 y 1 x 1 s 1 r 1 [/code] 不应该是这样的吗？
- Mr.wu`回复Mr.wu` 2020.10.18
  我好像懂了，在排序的时候，s ,t,y都是3，这三个谁前谁后都可以，但构成的fp-growth就不一样了

浪子画 2020.05.05
很棒！

Weneraa 2019.12.21
最后生成的那个有缩进级别的树是什么意思呢，就是得出了一种什么样的结论呢？

qq_43309033 2019.12.21
谢谢谢谢谢谢谢谢谢谢！！！！！！！

chairmannmg001 2019.09.27
真良心啊，不错不错，受教了，谢谢博主。

吃面不要辣 2019.03.27
[code=python] for item in freqItemSet: condPats=findPrefixPath(item,myHeaderTab[item][1]) print item print condPats [/code] 请问freqItemSet是哪里定义的？
- 火锅入酒回复吃面不要辣 2020.06.14
  [reply]gezhuanxian2298[/reply]我也想问翻了好久只有前面有