FP-Growth的python实现

最新推荐文章于 2024-08-16 19:02:32 发布

HitStuHan

最新推荐文章于 2024-08-16 19:02:32 发布

阅读量629

点赞数

分类专栏：数据挖掘项集挖掘 FP-Growth 文章标签：数据挖掘

本文链接：https://blog.csdn.net/HitStuHan/article/details/117962171

版权

数据挖掘同时被 3 个专栏收录

2 篇文章 0 订阅

订阅专栏

项集挖掘

2 篇文章 0 订阅

订阅专栏

FP-Growth

1 篇文章 0 订阅

订阅专栏

文章目录

前言
一、环境配置
二、读入文件
- 1.数据集格式
- 2.读入数据
三、FP-Growth

前言

原文不知道是哪里的，但是确实不是自己写的。

一、环境配置

务必使用python=2.7的环境，因为在代码中，除了print的书写语法使用的是python=2.7的以外，最重要的是代码有部分内容是在循环处理dict（字典）时对字典本身进行了增删，这在pyhton=2.7是允许的，但是在python=3.7是绝对不允许的，如果使用的是python=3.7会报错！！！！！

二、读入文件

1.数据集格式

要求每个事务单独一行，项与项之间有一空格，文件格式为txt格式：

A B D E
B C E
A B D E
A B C E
A B C D E
B C D

2.读入数据

代码如下（示例）：

def ReadDataset(filename):
    #读入数据，dataset = [[项集1],[项集2],……，[项集n]]
    file = open(filename)
    line = ""
    line_list = []
    dataset = []
    while 1:
        line = file.readline()
        if not line:
            break
        else:
            line_list = line.split()
            dataset.append(line_list)
    # for i in dataset:
    #     print(i)
    return dataset

三、FP-Growth

class treeNode:
    # FP树中节点的类定义，用于构建FP树
    def __init__(self, nameValue, numOccur, parentNode):
        self.name = nameValue       # 节点名字
        self.count = numOccur       # 计数值
        self.nodeLink = None        # 链接相似的元素项
        self.parent = parentNode    # 指向当前节点的父节点
        self.children = {}          # 存放节点的子节点

    def inc(self, numOccur):
        # 对count变量增加给定值
        self.count += numOccur

    def disp(self, ind=1):
        # 用于将树以文本形式显示
        print '  '*ind, self.name, ' ', self.count
        for child in self.children.values():
            child.disp(ind+1)



def createInitSet(dataSet):
    # 对数据集进行格式化处理
    retDict = {}
    for trans in dataSet:
        retDict[frozenset(trans)] = 1
    return retDict

def createTree(dataSet, minSup=1):
    # 该函数用于创建FP树
    # 该函数接收两个参数，分别是格式化后的数据集和需满足的最小支持度计数
    headerTable = {}                                # 存储头指针
    for trans in dataSet:
        # 循环每一个事务
        for item in trans:
            # 循环事务中的每一个元素，存储各元素的支持度计数
            headerTable[item] = headerTable.get(item, 0) + dataSet[trans]
    # 移除不满足最小支持度计数的元素项
    for k in headerTable.keys():
        if headerTable[k] < minSup:
            del(headerTable[k])
    freqItemSet = set(headerTable.keys())           # 存储删除后的元素项，即频繁项
    if len(freqItemSet) == 0: return None, None     # 如果没有元素项满足要求，则退出
    # 对头指针表扩展，以便可以保存计数值及指向每种类型第一个元素项的指针
    for k in headerTable:
        headerTable[k] = [headerTable[k], None]
    retTree = treeNode('Null Set', 1, None)         # 创建只包含空集合的根节点
    for tranSet, count in dataSet.items():          # 第二次遍历数据集，tranSet为各事务，count为初始化的计数值
        localD = {}
        for item in tranSet:
            if item in freqItemSet:                 # 如果该元素项为频繁项，则可继续操作
                localD[item] = headerTable[item][0] # 将第一次遍历得到的支持度计数赋值給相应元素
        if len(localD) > 0:
            orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: p[1], reverse=True)] # 获取元素项，并按支持度计数高到低排序
            updateTree(orderedItems, retTree, headerTable, count)
    return retTree, headerTable

def updateTree(items, inTree, headerTable, count):
    # 该函数接收4个参数，分别为已排序好的元素项、FP树、头指针表、对应计数值
    if items[0] in inTree.children:
        # 如果该元素是作为子节点存在，则更新该元素的计数
        inTree.children[items[0]].inc(count)
    else:
        # 否则，创建一个新的treeNode并将其作为一个字节点添加到树中
        inTree.children[items[0]] = treeNode(items[0], count, inTree)
        if headerTable[items[0]][1] == None:
            # 若头指针为空，更新头指针为树的子节点
            headerTable[items[0]][1] = inTree.children[items[0]]
        else:
            # 若头指针有值，更新头指针的nodeLink
            updateHeader(headerTable[items[0]][1], inTree.children[items[0]])
    if len(items) > 1:
        # 对剩下的元素进行迭代调用自身
        updateTree(items[1::], inTree.children[items[0]], headerTable, count)

def updateHeader(nodeToTest, targetNode):
    # 该函数用于更新头指针
    # 该函数接收2个参数，分别是待更新的位置和需更新的值
    while (nodeToTest.nodeLink != None):
        nodeToTest = nodeToTest.nodeLink           # 循环至链表尾端为None
    nodeToTest.nodeLink = targetNode

def ascendTree(leafNode, prefixPath):
    # 该函数用于递归上溯整颗树
    if leafNode.parent != None:
        prefixPath.append(leafNode.name)
        ascendTree(leafNode.parent, prefixPath)

def findPrefixPath(basePat, treeNode):
    # 该函数用于为给定元素项生成一个前缀路径
    # 该函数接收2个参数，分别是给定元素项和头指针表纪录的该元素的相似项路径
    condPats = {}
    while treeNode != None:
        prefixPath = []
        ascendTree(treeNode, prefixPath)
        if len(prefixPath) > 1:
            condPats[frozenset(prefixPath[1:])] = treeNode.count
        treeNode = treeNode.nodeLink
    return condPats

def mineTree(inTree, headerTable, minSup, preFix, freqItemList):
    # 该函数用于将前缀路径转化为条件FP树
    # 该函数接收5个参数，分别是FP树、头指针表、需满足最小支持度计数、前缀路径、频繁项集
    bigL = [v[0] for v in sorted(headerTable.items(), key=lambda p: p[1])]  # 将频繁1-项集的元素按支持度计数低到高排序
    for basePat in bigL:
        newFreqSet = preFix.copy()
        newFreqSet.add(basePat)
        freqItemList.append(newFreqSet)
        condPattBases = findPrefixPath(basePat, headerTable[basePat][1])    # 获取basePat的前缀路径
        myCondTree, myHead = createTree(condPattBases, minSup)              # 根据给定的前缀路径构建FP树
        if myHead != None:
            # 递归直到该元素的前缀路径为空
            print 'conditonal tree for:', newFreqSet
            myCondTree.disp(1)
            mineTree(myCondTree, myHead, minSup, newFreqSet, freqItemList)

def ReadDataset(filename="chainstoreFIM.txt"):
    #读入数据，dataset = [[项集1],[项集2],……，[项集n]]
    file = open(filename)
    line = ""
    line_list = []
    dataset = []
    while 1:
        line = file.readline()
        if not line:
            break
        else:
            line_list = line.split()
            dataset.append(line_list)
    # for i in dataset:
    #     print(i)
    return dataset

minsup = 0.001
simpDat = ReadDataset("chainstoreFIM.txt")
initSet = createInitSet(simpDat)
minsup = minsup*len(simpDat)
myFPtree, myHeaderTab = createTree(initSet, minsup)
print("create successfully")
myFPtree.disp()
print("display successfully")
freqItems = []
mineTree(myFPtree,myHeaderTab,minsup,set([]),freqItems)
print("mine successfully")