FpGrouth挖掘频繁项集


class treeNode:
    #名字,次数,父节点
    def __init__(self, nameValue, numOccur, parentNode):
        self.name = nameValue #当前节点的名称
        self.count = numOccur #当前节点在此模式下的出现次数
        self.nodeLink = None  #用来指向跟当前节点name相同的,别的支上的节点
        self.parent = parentNode      #needs to be updated    #用来指向当前节点,在此支上的父节点
        self.children = {}     #当前节点的孩子节点
    
    def inc(self, numOccur):#由于事务是含有次数的,所以,当前节点出现的频次可能是多余1的,所以加上numOccur
        self.count += numOccur
        
    def disp(self, ind=1):#这个应该是通过“作图”(就是打印)来描述数,那么这个是如何打印的呢?拥有一个父节点的孩子,在同一层
        print('  '*ind, self.name, ' ', self.count)
        for child in self.children.values():
            child.disp(ind+1)
#创建Fpgrouth-Tree
#传入的dataSet是一个字典,键是事务,值是事务出现的次数
def createTree(dataSet, minSup=1): #create FP-tree from dataset but don't mine
    # 需要注意的是这个headerTable是个字典

    # 首先,用来存储所有项目及其频次,然后对频次小于minSup的进行删除

    # 然后进行修改,键是频繁项,值变成一个含有两项的列表,
    # 第一项用来存储之前存储的当前频繁项的频次,
    # 第二项用来当指针,用来指向构建的树种,与该节点的nameValue相同的节点
    headerTable = {}
    #go over dataSet twice 遍历两遍数据库
    for trans in dataSet:#first pass counts frequency of occurance
        for item in trans:
            headerTable[item] = headerTable.get(item, 0) + dataSet[trans]  #这个dataSet[trans] 有点让人摸不着头脑   传入的dataset是不是经过处理的。

    #字典不能边遍历,边删除吗?对的,字典是不能遍历的同事进行删除的

    # for k in headerTable.keys():  #remove items not meeting minSup #我觉得出现错误的原因是,headerTable是中的值是可变的,这个headerTable.keys()
    #     if headerTable[k] < minSup:
    #         del(headerTable
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值