FpGrouth挖掘频繁项集

最新推荐文章于 2021-06-13 21:16:41 发布

hsc_1

最新推荐文章于 2021-06-13 21:16:41 发布

阅读量528

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/hsc_1/article/details/80452211

版权

本文详细介绍了FP-Growth算法，这是一种用于挖掘大规模数据集中的频繁项集的有效方法。首先，文章阐述了算法的基本原理，包括前缀树（FP树）的构建以及如何通过FP树来发现频繁项集。接着，讨论了FP-Growth如何优化存储和计算效率，以应对大数据场景。此外，还探讨了该算法在市场篮子分析、推荐系统等领域的实际应用案例，展示了其在挖掘隐藏关联规则方面的强大能力。

摘要由CSDN通过智能技术生成

class treeNode:
    #名字，次数，父节点
    def __init__(self, nameValue, numOccur, parentNode):
        self.name = nameValue #当前节点的名称
        self.count = numOccur #当前节点在此模式下的出现次数
        self.nodeLink = None  #用来指向跟当前节点name相同的，别的支上的节点
        self.parent = parentNode      #needs to be updated    #用来指向当前节点，在此支上的父节点
        self.children = {}     #当前节点的孩子节点
    
    def inc(self, numOccur):#由于事务是含有次数的，所以，当前节点出现的频次可能是多余1的，所以加上numOccur
        self.count += numOccur
        
    def disp(self, ind=1):#这个应该是通过“作图”(就是打印)来描述数，那么这个是如何打印的呢？拥有一个父节点的孩子，在同一层
        print('  '*ind, self.name, ' ', self.count)
        for child in self.children.values():
            child.disp(ind+1)
#创建Fpgrouth-Tree
#传入的dataSet是一个字典，键是事务，值是事务出现的次数
def createTree(dataSet, minSup=1): #create FP-tree from dataset but don't mine
    # 需要注意的是这个headerTable是个字典

    # 首先，用来存储所有项目及其频次，然后对频次小于minSup的进行删除

    # 然后进行修改，键是频繁项，值变成一个含有两项的列表，
    # 第一项用来存储之前存储的当前频繁项的频次，
    # 第二项用来当指针，用来指向构建的树种，与该节点的nameValue相同的节点
    headerTable = {}
    #go over dataSet twice 遍历两遍数据库
    for trans in dataSet:#first pass counts frequency of occurance
        for item in trans:
            headerTable[item] = headerTable.get(item, 0) + dataSet[trans]  #这个dataSet[trans] 有点让人摸不着头脑   传入的dataset是不是经过处理的。

    #字典不能边遍历，边删除吗？对的，字典是不能遍历的同事进行删除的

    # for k in headerTable.keys():  #remove items not meeting minSup #我觉得出现错误的原因是，headerTable是中的值是可变的，这个headerTable.keys()
    #     if headerTable[k] < minSup:
    #         del(headerTable