前言
原文不知道是哪里的,但是确实不是自己写的。
一、环境配置
务必使用python=2.7的环境,因为在代码中,除了print的书写语法使用的是python=2.7的以外,最重要的是代码有部分内容是在循环处理dict(字典)时对字典本身进行了增删,这在pyhton=2.7是允许的,但是在python=3.7是绝对不允许的,如果使用的是python=3.7会报错!!!!!
二、读入文件
1.数据集格式
要求每个事务单独一行,项与项之间有一空格,文件格式为txt格式:
A B D E
B C E
A B D E
A B C E
A B C D E
B C D
2.读入数据
代码如下(示例):
def ReadDataset(filename):
#读入数据,dataset = [[项集1],[项集2],……,[项集n]]
file = open(filename)
line = ""
line_list = []
dataset = []
while 1:
line = file.readline()
if not line:
break
else:
line_list = line.split()
dataset.append(line_list)
# for i in dataset:
# print(i)
return dataset
三、FP-Growth
class treeNode:
# FP树中节点的类定义,用于构建FP树
def __init__(self, nameValue, numOccur, parentNode):
self.name = nameValue # 节点名字
self.count = numOccur # 计数值
self.nodeLink = None # 链接相似的元素项
self.parent = parentNode # 指向当前节点的父节点
self.children = {} # 存放节点的子节点
def inc(self, numOccur):
# 对count变量增加给定值
self.count += numOccur
def disp(self, ind=1):
# 用于将树以文本形式显示
print ' '*ind, self.name, ' ', self.count
for child in self.children.values():
child.disp(ind+1)
def createInitSet(dataSet):
# 对数据集进行格式化处理
retDict = {}
for trans in dataSet:
retDict[frozenset(trans)] = 1
return retDict
def createTree(dataSet, minSup=1):
# 该函数用于创建FP树
# 该函数接收两个参数,分别是格式化后的数据集和需满足的最小支持度计数
headerTable = {} # 存储头指针
for trans in dataSet:
# 循环每一个事务
for item in trans:
# 循环事务中的每一个元素,存储各元素的支持度计数
headerTable[item] = headerTable.get(item, 0) + dataSet[trans]
# 移除不满足最小支持度计数的元素项
for k in headerTable.keys():
if headerTable[k] < minSup:
del(headerTable[k])
freqItemSet = set(headerTable.keys()) # 存储删除后的元素项,即频繁项
if len(freqItemSet) == 0: return None, None # 如果没有元素项满足要求,则退出
# 对头指针表扩展,以便可以保存计数值及指向每种类型第一个元素项的指针
for k in headerTable:
headerTable[k] = [headerTable[k], None]
retTree = treeNode('Null Set', 1, None) # 创建只包含空集合的根节点
for tranSet, count in dataSet.items(): # 第二次遍历数据集,tranSet为各事务,count为初始化的计数值
localD = {}
for item in tranSet:
if item in freqItemSet: # 如果该元素项为频繁项,则可继续操作
localD[item] = headerTable[item][0] # 将第一次遍历得到的支持度计数赋值給相应元素
if len(localD) > 0:
orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: p[1], reverse=True)] # 获取元素项,并按支持度计数高到低排序
updateTree(orderedItems, retTree, headerTable, count)
return retTree, headerTable
def updateTree(items, inTree, headerTable, count):
# 该函数接收4个参数,分别为已排序好的元素项、FP树、头指针表、对应计数值
if items[0] in inTree.children:
# 如果该元素是作为子节点存在,则更新该元素的计数
inTree.children[items[0]].inc(count)
else:
# 否则,创建一个新的treeNode并将其作为一个字节点添加到树中
inTree.children[items[0]] = treeNode(items[0], count, inTree)
if headerTable[items[0]][1] == None:
# 若头指针为空,更新头指针为树的子节点
headerTable[items[0]][1] = inTree.children[items[0]]
else:
# 若头指针有值,更新头指针的nodeLink
updateHeader(headerTable[items[0]][1], inTree.children[items[0]])
if len(items) > 1:
# 对剩下的元素进行迭代调用自身
updateTree(items[1::], inTree.children[items[0]], headerTable, count)
def updateHeader(nodeToTest, targetNode):
# 该函数用于更新头指针
# 该函数接收2个参数,分别是待更新的位置和需更新的值
while (nodeToTest.nodeLink != None):
nodeToTest = nodeToTest.nodeLink # 循环至链表尾端为None
nodeToTest.nodeLink = targetNode
def ascendTree(leafNode, prefixPath):
# 该函数用于递归上溯整颗树
if leafNode.parent != None:
prefixPath.append(leafNode.name)
ascendTree(leafNode.parent, prefixPath)
def findPrefixPath(basePat, treeNode):
# 该函数用于为给定元素项生成一个前缀路径
# 该函数接收2个参数,分别是给定元素项和头指针表纪录的该元素的相似项路径
condPats = {}
while treeNode != None:
prefixPath = []
ascendTree(treeNode, prefixPath)
if len(prefixPath) > 1:
condPats[frozenset(prefixPath[1:])] = treeNode.count
treeNode = treeNode.nodeLink
return condPats
def mineTree(inTree, headerTable, minSup, preFix, freqItemList):
# 该函数用于将前缀路径转化为条件FP树
# 该函数接收5个参数,分别是FP树、头指针表、需满足最小支持度计数、前缀路径、频繁项集
bigL = [v[0] for v in sorted(headerTable.items(), key=lambda p: p[1])] # 将频繁1-项集的元素按支持度计数低到高排序
for basePat in bigL:
newFreqSet = preFix.copy()
newFreqSet.add(basePat)
freqItemList.append(newFreqSet)
condPattBases = findPrefixPath(basePat, headerTable[basePat][1]) # 获取basePat的前缀路径
myCondTree, myHead = createTree(condPattBases, minSup) # 根据给定的前缀路径构建FP树
if myHead != None:
# 递归直到该元素的前缀路径为空
print 'conditonal tree for:', newFreqSet
myCondTree.disp(1)
mineTree(myCondTree, myHead, minSup, newFreqSet, freqItemList)
def ReadDataset(filename="chainstoreFIM.txt"):
#读入数据,dataset = [[项集1],[项集2],……,[项集n]]
file = open(filename)
line = ""
line_list = []
dataset = []
while 1:
line = file.readline()
if not line:
break
else:
line_list = line.split()
dataset.append(line_list)
# for i in dataset:
# print(i)
return dataset
minsup = 0.001
simpDat = ReadDataset("chainstoreFIM.txt")
initSet = createInitSet(simpDat)
minsup = minsup*len(simpDat)
myFPtree, myHeaderTab = createTree(initSet, minsup)
print("create successfully")
myFPtree.disp()
print("display successfully")
freqItems = []
mineTree(myFPtree,myHeaderTab,minsup,set([]),freqItems)
print("mine successfully")
这一部分就是全部的代码,在复制粘贴的时候,不要复制本文的第二部分,不然会重复。