FP-Growth的python实现


前言

原文不知道是哪里的,但是确实不是自己写的。

一、环境配置

务必使用python=2.7的环境,因为在代码中,除了print的书写语法使用的是python=2.7的以外,最重要的是代码有部分内容是在循环处理dict(字典)时对字典本身进行了增删,这在pyhton=2.7是允许的,但是在python=3.7是绝对不允许的,如果使用的是python=3.7会报错!!!!!

二、读入文件

1.数据集格式

要求每个事务单独一行,项与项之间有一空格,文件格式为txt格式:

A B D E
B C E
A B D E
A B C E
A B C D E
B C D

2.读入数据

代码如下(示例):

def ReadDataset(filename):
    #读入数据,dataset = [[项集1],[项集2],……,[项集n]]
    file = open(filename)
    line = ""
    line_list = []
    dataset = []
    while 1:
        line = file.readline()
        if not line:
            break
        else:
            line_list = line.split()
            dataset.append(line_list)
    # for i in dataset:
    #     print(i)
    return dataset

三、FP-Growth

class treeNode:
    # FP树中节点的类定义,用于构建FP树
    def __init__(self, nameValue, numOccur, parentNode):
        self.name = nameValue       # 节点名字
        self.count = numOccur       # 计数值
        self.nodeLink = None        # 链接相似的元素项
        self.parent = parentNode    # 指向当前节点的父节点
        self.children = {}          # 存放节点的子节点

    def inc(self, numOccur):
        # 对count变量增加给定值
        self.count += numOccur

    def disp(self, ind=1):
        # 用于将树以文本形式显示
        print '  '*ind, self.name, ' ', self.count
        for child in self.children.values():
            child.disp(ind+1)



def createInitSet(dataSet):
    # 对数据集进行格式化处理
    retDict = {}
    for trans in dataSet:
        retDict[frozenset(trans)] = 1
    return retDict

def createTree(dataSet, minSup=1):
    # 该函数用于创建FP树
    # 该函数接收两个参数,分别是格式化后的数据集和需满足的最小支持度计数
    headerTable = {}                                # 存储头指针
    for trans in dataSet:
        # 循环每一个事务
        for item in trans:
            # 循环事务中的每一个元素,存储各元素的支持度计数
            headerTable[item] = headerTable.get(item, 0) + dataSet[trans]
    # 移除不满足最小支持度计数的元素项
    for k in headerTable.keys():
        if headerTable[k] < minSup:
            del(headerTable[k])
    freqItemSet = set(headerTable.keys())           # 存储删除后的元素项,即频繁项
    if len(freqItemSet) == 0: return None, None     # 如果没有元素项满足要求,则退出
    # 对头指针表扩展,以便可以保存计数值及指向每种类型第一个元素项的指针
    for k in headerTable:
        headerTable[k] = [headerTable[k], None]
    retTree = treeNode('Null Set', 1, None)         # 创建只包含空集合的根节点
    for tranSet, count in dataSet.items():          # 第二次遍历数据集,tranSet为各事务,count为初始化的计数值
        localD = {}
        for item in tranSet:
            if item in freqItemSet:                 # 如果该元素项为频繁项,则可继续操作
                localD[item] = headerTable[item][0] # 将第一次遍历得到的支持度计数赋值給相应元素
        if len(localD) > 0:
            orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: p[1], reverse=True)] # 获取元素项,并按支持度计数高到低排序
            updateTree(orderedItems, retTree, headerTable, count)
    return retTree, headerTable

def updateTree(items, inTree, headerTable, count):
    # 该函数接收4个参数,分别为已排序好的元素项、FP树、头指针表、对应计数值
    if items[0] in inTree.children:
        # 如果该元素是作为子节点存在,则更新该元素的计数
        inTree.children[items[0]].inc(count)
    else:
        # 否则,创建一个新的treeNode并将其作为一个字节点添加到树中
        inTree.children[items[0]] = treeNode(items[0], count, inTree)
        if headerTable[items[0]][1] == None:
            # 若头指针为空,更新头指针为树的子节点
            headerTable[items[0]][1] = inTree.children[items[0]]
        else:
            # 若头指针有值,更新头指针的nodeLink
            updateHeader(headerTable[items[0]][1], inTree.children[items[0]])
    if len(items) > 1:
        # 对剩下的元素进行迭代调用自身
        updateTree(items[1::], inTree.children[items[0]], headerTable, count)

def updateHeader(nodeToTest, targetNode):
    # 该函数用于更新头指针
    # 该函数接收2个参数,分别是待更新的位置和需更新的值
    while (nodeToTest.nodeLink != None):
        nodeToTest = nodeToTest.nodeLink           # 循环至链表尾端为None
    nodeToTest.nodeLink = targetNode

def ascendTree(leafNode, prefixPath):
    # 该函数用于递归上溯整颗树
    if leafNode.parent != None:
        prefixPath.append(leafNode.name)
        ascendTree(leafNode.parent, prefixPath)

def findPrefixPath(basePat, treeNode):
    # 该函数用于为给定元素项生成一个前缀路径
    # 该函数接收2个参数,分别是给定元素项和头指针表纪录的该元素的相似项路径
    condPats = {}
    while treeNode != None:
        prefixPath = []
        ascendTree(treeNode, prefixPath)
        if len(prefixPath) > 1:
            condPats[frozenset(prefixPath[1:])] = treeNode.count
        treeNode = treeNode.nodeLink
    return condPats

def mineTree(inTree, headerTable, minSup, preFix, freqItemList):
    # 该函数用于将前缀路径转化为条件FP树
    # 该函数接收5个参数,分别是FP树、头指针表、需满足最小支持度计数、前缀路径、频繁项集
    bigL = [v[0] for v in sorted(headerTable.items(), key=lambda p: p[1])]  # 将频繁1-项集的元素按支持度计数低到高排序
    for basePat in bigL:
        newFreqSet = preFix.copy()
        newFreqSet.add(basePat)
        freqItemList.append(newFreqSet)
        condPattBases = findPrefixPath(basePat, headerTable[basePat][1])    # 获取basePat的前缀路径
        myCondTree, myHead = createTree(condPattBases, minSup)              # 根据给定的前缀路径构建FP树
        if myHead != None:
            # 递归直到该元素的前缀路径为空
            print 'conditonal tree for:', newFreqSet
            myCondTree.disp(1)
            mineTree(myCondTree, myHead, minSup, newFreqSet, freqItemList)

def ReadDataset(filename="chainstoreFIM.txt"):
    #读入数据,dataset = [[项集1],[项集2],……,[项集n]]
    file = open(filename)
    line = ""
    line_list = []
    dataset = []
    while 1:
        line = file.readline()
        if not line:
            break
        else:
            line_list = line.split()
            dataset.append(line_list)
    # for i in dataset:
    #     print(i)
    return dataset

minsup = 0.001
simpDat = ReadDataset("chainstoreFIM.txt")
initSet = createInitSet(simpDat)
minsup = minsup*len(simpDat)
myFPtree, myHeaderTab = createTree(initSet, minsup)
print("create successfully")
myFPtree.disp()
print("display successfully")
freqItems = []
mineTree(myFPtree,myHeaderTab,minsup,set([]),freqItems)
print("mine successfully")

这一部分就是全部的代码,在复制粘贴的时候,不要复制本文的第二部分,不然会重复。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值