学习FP-Grouth花了不少时间,但是觉得理解还是有一些偏差,这里分享一些好的资源吧!!!
首先我个人认为学习FP-Grouth理论的比较好的网站是下面的
FP-Grouth理论学习传送门
然后就是找到了一个python实现的FP-Grouth算法,代码用到了类,对于我这种水平的菜逼还是费了不少功夫的。。。下面将代码分享出来,具体的请见代码来源~
代码来源
资料库
http://blog.csdn.net/bone_ace/article/details/46746727
http://blog.csdn.net/javastart/article/details/50521453
http://www.2cto.com/kf/201604/501816.html
http://blog.csdn.net/javastart/article/details/50521453
http://wenku.baidu.com/link?url=lVuuWcxpa534YaAhdmNwWMnKBtZu9DjXznhdY6AcSW5_Be14xrIspegrCTce--DYXUSaubeuxyvW490JHf31jPzXaA_KOZAEN0kE4tDGtjO
http://blog.csdn.net/lulin60/article/details/52255242
#__init__.py
# -*- coding:utf-8 -*-
import tree_builder
import tree_miner
routines = [
['A','B','E'],
['A','C','D'],
['A','D','C','E'],
['C','D']
] #数据来源
min_sup=2 #最小支持度
headerTable={} #头节点表,用来存放各个项的索引
treeBuilder= tree_builder.Tree_builder(routines=routines,min_sup=min_sup,headerTable=headerTable) #建造FP_growth,注意headerTable放进去了实际上在函数内对其进行了赋值!!!
tree_miner.Tree_miner(Tree=treeBuilder.tree, min_sup=min_sup, headerTable=headerTable) #对FP_Tree进行频繁项集的挖掘
#tree_builder.py 建FP树
# -*- coding:utf-8 -*-
import tree_building
class Tree_builder(object):
"""tree_builder类。 作用:根据事务数据集进行数据准备及构造树."""
def __init__(self,routines,min_sup=-1,counts=[],headerTable={}):
self.routines=routines #数据集
self.counts=counts #不知道是啥
self.min_sup=min_sup #最小支持度
self.items = self.getItems(self.routines) #统计每一项及其出现频率
self.sortedItems = self.getSortedItems(self.items) #统计出现在最小度以上的项到一个队列中
self.itemTable = self.initItemsTable(headerTable) #创造头节点 ,注意在调用的时候 headerTable也跟着变化了
#注意这个地方有个坑,return事实上是返回地址,浅复制,所以headerTable和self.itemTable被绑