FP-Growth的python实现


前言

原文不知道是哪里的,但是确实不是自己写的。

一、环境配置

务必使用python=2.7的环境,因为在代码中,除了print的书写语法使用的是python=2.7的以外,最重要的是代码有部分内容是在循环处理dict(字典)时对字典本身进行了增删,这在pyhton=2.7是允许的,但是在python=3.7是绝对不允许的,如果使用的是python=3.7会报错!!!!!

二、读入文件

1.数据集格式

要求每个事务单独一行,项与项之间有一空格,文件格式为txt格式:

A B D E
B C E
A B D E
A B C E
A B C D E
B C D

2.读入数据

代码如下(示例):

def ReadDataset(filename):
    #读入数据,dataset = [[项集1],[项集2],……,[项集n]]
    file = open(filename)
    line = ""
    line_list = []
    dataset = []
    while 1:
        line = file.readline()
        if not line:
            break
        else:
            line_list = line.split()
            dataset.append(line_list)
    # for i in dataset:
    #     print(i)
    return dataset

三、FP-Growth

class treeNode:
    # FP树中节点的类定义,用于构建FP树
    def __init__(self, nameValue, numOccur, parentNode):
        self.name = nameValue       # 节点名字
        self.count = numOccur       # 计数值
        self.nodeLink = None        # 链接相似的元素项
        self.parent = parentNode    # 指向当前节点的父节点
        self.children = {}          # 存放节点的子节点

    def inc(self, numOccur):
        # 对count变量增加给定值
        self.count += numOccur

    def disp(self, ind=1):
        # 用于将树以文本形式显示
        print '  '*ind, self.name, ' ', self.count
        for child in self.children.values():
            child.disp(ind+1)



def createInitSet(dataSet):
    # 对数据集进行格式化处理
    retDict = {}
    for trans in dataSet:
        retDict[frozenset(trans)] = 1
    return retDict

def createTree(dataSet, minSup=1):
    # 该函数用于创建FP树
    # 该函数接收两个参数,分别是格式化后的数据集和需满足的最小支持度计数
    headerTable = {}                                # 存储头指针
    for trans in dataSet:
        # 循环每一个事务
        for item in trans:
            # 循环事务中的每一个元素,存储各元素的支持度计数
            headerTable[item] = headerTable.get(item, 0) + dataSet[trans]
    # 移除不满足最小支持度计数的元素项
    for k in headerTable.keys():
        if headerTable[k] < minSup:
            del(headerTable[k])
    freqItemSet = set(headerTable.keys())           # 存储删除后的元素项,即频繁项
    if len(freqItemSet) == 0: return None, None     # 如果没有元素项满足要求,则退出
    # 对头指针表扩展,以便可以保存计数值及指向每种类型第一个元素项的指针
    for k in headerTable:
        headerTable[k] = [headerTable[k], None]
    retTree = treeNode('Null Set', 1, None)         # 创建只包含空集合的根节点
    for tranSet, count in dataSet.items():          # 第二次遍历数据集,tranSet为各事务,count为初始化的计数值
        localD = {}
        for item in tranSet:
            if item in freqItemSet:                 # 如果该元素项为频繁项,则可继续操作
                localD[item] = headerTable[item][0] # 将第一次遍历得到的支持度计数赋值給相应元素
        if len(localD) > 0:
            orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: p[1], reverse=True)] # 获取元素项,并按支持度计数高到低排序
            updateTree(orderedItems, retTree, headerTable, count)
    return retTree, headerTable

def updateTree(items, inTree, headerTable, count):
    # 该函数接收4个参数,分别为已排序好的元素项、FP树、头指针表、对应计数值
    if items[0] in inTree.children:
        # 如果该元素是作为子节点存在,则更新该元素的计数
        inTree.children[items[0]].inc(count)
    else:
        # 否则,创建一个新的treeNode并将其作为一个字节点添加到树中
        inTree.children[items[0]] = treeNode(items[0], count, inTree)
        if headerTable[items[0]][1] == None:
            # 若头指针为空,更新头指针为树的子节点
            headerTable[items[0]][1] = inTree.children[items[0]]
        else:
            # 若头指针有值,更新头指针的nodeLink
            updateHeader(headerTable[items[0]][1], inTree.children[items[0]])
    if len(items) > 1:
        # 对剩下的元素进行迭代调用自身
        updateTree(items[1::], inTree.children[items[0]], headerTable, count)

def updateHeader(nodeToTest, targetNode):
    # 该函数用于更新头指针
    # 该函数接收2个参数,分别是待更新的位置和需更新的值
    while (nodeToTest.nodeLink != None):
        nodeToTest = nodeToTest.nodeLink           # 循环至链表尾端为None
    nodeToTest.nodeLink = targetNode

def ascendTree(leafNode, prefixPath):
    # 该函数用于递归上溯整颗树
    if leafNode.parent != None:
        prefixPath.append(leafNode.name)
        ascendTree(leafNode.parent, prefixPath)

def findPrefixPath(basePat, treeNode):
    # 该函数用于为给定元素项生成一个前缀路径
    # 该函数接收2个参数,分别是给定元素项和头指针表纪录的该元素的相似项路径
    condPats = {}
    while treeNode != None:
        prefixPath = []
        ascendTree(treeNode, prefixPath)
        if len(prefixPath) > 1:
            condPats[frozenset(prefixPath[1:])] = treeNode.count
        treeNode = treeNode.nodeLink
    return condPats

def mineTree(inTree, headerTable, minSup, preFix, freqItemList):
    # 该函数用于将前缀路径转化为条件FP树
    # 该函数接收5个参数,分别是FP树、头指针表、需满足最小支持度计数、前缀路径、频繁项集
    bigL = [v[0] for v in sorted(headerTable.items(), key=lambda p: p[1])]  # 将频繁1-项集的元素按支持度计数低到高排序
    for basePat in bigL:
        newFreqSet = preFix.copy()
        newFreqSet.add(basePat)
        freqItemList.append(newFreqSet)
        condPattBases = findPrefixPath(basePat, headerTable[basePat][1])    # 获取basePat的前缀路径
        myCondTree, myHead = createTree(condPattBases, minSup)              # 根据给定的前缀路径构建FP树
        if myHead != None:
            # 递归直到该元素的前缀路径为空
            print 'conditonal tree for:', newFreqSet
            myCondTree.disp(1)
            mineTree(myCondTree, myHead, minSup, newFreqSet, freqItemList)

def ReadDataset(filename="chainstoreFIM.txt"):
    #读入数据,dataset = [[项集1],[项集2],……,[项集n]]
    file = open(filename)
    line = ""
    line_list = []
    dataset = []
    while 1:
        line = file.readline()
        if not line:
            break
        else:
            line_list = line.split()
            dataset.append(line_list)
    # for i in dataset:
    #     print(i)
    return dataset

minsup = 0.001
simpDat = ReadDataset("chainstoreFIM.txt")
initSet = createInitSet(simpDat)
minsup = minsup*len(simpDat)
myFPtree, myHeaderTab = createTree(initSet, minsup)
print("create successfully")
myFPtree.disp()
print("display successfully")
freqItems = []
mineTree(myFPtree,myHeaderTab,minsup,set([]),freqItems)
print("mine successfully")

这一部分就是全部的代码,在复制粘贴的时候,不要复制本文的第二部分,不然会重复。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: FP-growth 是一种频繁模式挖掘算法,可用于发现数据集中的频繁模式或频繁项集。在 Python 中,可以使用 `mlxtend` 库中的 `fpgrowth` 方法来实现 FP-growth 算法。下面是一个使用 `mlxtend` 库实现 FP-growth 的示例代码: ```python from mlxtend.preprocessing import TransactionEncoder from mlxtend.frequent_patterns import fpgrowth # 假设我们有以下交易数据 dataset = [['apple', 'beer', 'rice', 'chicken'], ['apple', 'beer', 'rice'], ['apple', 'beer'], ['apple', 'banana'], ['milk', 'beer', 'rice', 'chicken'], ['milk', 'beer', 'rice'], ['milk', 'beer'], ['milk', 'banana']] # 将交易数据转换成 TransactionEncoder 可以处理的形式 te = TransactionEncoder() te_ary = te.fit(dataset).transform(dataset) # 将 TransactionEncoder 转换成 Pandas Dataframe df = pd.DataFrame(te_ary, columns=te.columns_) # 使用 fpgrowth 算法查找频繁项集 frequent_itemsets = fpgrowth(df, min_support=0.5, use_colnames=True) print(frequent_itemsets) ``` 输出结果如下: ``` support itemsets 0 0.75 (beer) 1 0.50 (apple) 2 0.50 (rice) 3 0.50 (beer, chicken) 4 0.50 (beer, rice) 5 0.50 (milk, chicken) 6 0.50 (milk, beer) ``` 以上代码中,我们使用了 `mlxtend` 库中的 `TransactionEncoder` 类将交易数据转换成 FP-growth 可以处理的形式,然后使用 `fpgrowth` 方法查找频繁项集。`min_support` 参数指定了最小支持度,`use_colnames` 参数指定了是否使用列名代替元素名。输出结果中,`support` 列显示了每个频繁项集的支持度,`itemsets` 列显示了对应的项集。 ### 回答2: FP-Growth是一种常用的频繁项集挖掘算法,用于在大规模数据集中发现频繁的项集。在Python中,我们可以使用FP-Growth算法的一个开源实现库来进行频繁项集挖掘。 Python中有许多用于实现FP-Growth算法的库,如PyFIM、mlxtend等。其中,PyFIM是一个非常流行的库,它提供了FP-Growth算法的实现以及其他与频繁项集挖掘相关的功能。 要使用PyFIM库进行FP-Growth算法的频繁项集挖掘,我们首先要安装这个库,可以通过pip命令来进行安装。安装完成后,我们可以在Python的脚本中导入PyFIM库,然后使用它提供的函数来进行频繁项集挖掘。 在使用FP-Growth算法进行频繁项集挖掘时,需要提供一个数据集作为输入。数据集可以是一个二维列表或一个矩阵,其中每一行代表一个交易记录,每一列代表一个项。然后,我们可以调用PyFIM库中的fpgrowth函数来执行FP-Growth算法,并传入数据集作为参数。 执行FP-Growth算法后,PyFIM库会返回一个包含频繁项集的列表。每个频繁项集是一个由项构成的列表,其中每个项都有一个计数值,表示该项在数据集中出现的次数。我们可以根据需要,对返回的频繁项集进行进一步的处理和分析。 总之,FP-Growth算法是一种用于频繁项集挖掘的有效算法,Python中有许多库可以实现该算法,如PyFIM。使用这些库,我们可以方便地在大规模数据集中发现频繁的项集。 ### 回答3: FP-growth是一种用于频繁模式挖掘的算法,它用于在大规模数据集中发现频繁项集。它是一种基于树的方法,通过构建频繁模式树(FP-tree)来快速找到频繁项集。 在使用FP-growth算法之前,我们需要对数据集进行预处理,将每个事务中的项按照出现频率进行排序。然后,FP-growth算法通过两步来构建FP-tree。 第一步是构建头指针表,它记录了每个项在FP-tree中的位置。头指针表通过扫描数据集一次来构建,每次遇到频繁项时,我们更新头指针表中的相应项。 第二步是构建FP-tree,我们依次读取每个事务的项集,根据项集的出现顺序来构建FP-tree。对于每个项集,我们从FP-tree根节点开始,检查是否存在相应的子节点,如果存在,则增加相应节点的计数;如果不存在,则创建新的节点,并将其添加到树中。树的每个节点包含此项的计数及其指向下一个相同项的指针。 构建FP-tree后,我们可以通过遍历FP-tree来获取频繁项集。通过递归遍历FP-tree,从叶子节点开始向上回溯,可以找到每个项的条件模式基。然后,我们可以利用条件模式基再次构建FP-tree,直到不能再找到频繁项集为止。 FP-growth算法相较于传统的Apriori算法具有显著的优势。首先,它只需要扫描数据集两次,而Apriori算法则需要多次扫描。其次,FP-growth算法通过树的结构压缩数据,减少了存储空间的需求。因此,在大规模数据集上,FP-growth算法的性能更好。 在Python中,我们可以使用第三方库pyfpgrowth实现FP-growth算法。该库提供了简单易用的接口来构建FP-tree和获取频繁项集。 总而言之,FP-growth是一种高效的频繁模式挖掘算法,它可以在大规模数据集上快速找到频繁项集。Python提供了方便的工具库来实现FP-growth算法,可以轻松应用于实际数据挖掘任务中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值