基于关联规则的推荐
基于关联规则的推荐思想类似基于物品的协同过滤推荐
“啤酒与尿布”
关联分析中最有名的例子就是“啤酒与尿布”。
据报道,在美国沃尔玛超市会发现一个很有趣的现象:货架上啤酒与尿布竟然放在一起售卖,这看似两者毫不相关的东西,为什么会放在一起售卖呢?
原来,在美国,妇女们经常会嘱咐她们的丈夫下班以后给孩子买一点尿布回来,而丈夫在买完尿布后,大都会顺手买回一瓶自己爱喝的啤酒(由此看出美国人爱喝酒)。商家通过对一年多的原始交易记录进行详细的分析,发现了这对神奇的组合。于是就毫不犹豫地将尿布与啤酒摆放在一起售卖,通过它们的关联性,互相促进销售。“啤酒与尿布”的故事一度是营销界的神话。
那么问题来了,商家是如何发现啤酒与尿布两者之间的关联性呢?
这里我们可以使用数据挖掘中的关联规则挖掘技术,目的就是为了找出两个对象(如X,Y)之间的关联性。一旦找出二者关联性,那么就可以根据它来进行推荐。
基于关联规则的推荐
一般我们可以找出用户购买的所有物品数据里频繁出现的项集活序列,来做频繁集挖掘,找到满足支持度阈值的关联物品的频繁N项集或者序列。如果用户购买了频繁N项集或者序列里的部分物品,那么我们可以将频繁项集或序列里的其他物品按一定的评分准则推荐给用户,这个评分准则可以包括支持度,置信度和提升度等。
常用的关联推荐算法有Apriori,FP-Growth
关联分析
关联分析是一种在大规模数据集中寻找有趣关系的任务。 这些关系可以有两种形式:
- 频繁项集(frequent item sets)是指经常出现在一块的物品的集合。
- 关联规则(associational rules)是暗示两种物品之间可能存在很强的关系。
从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)
关联性衡量指标
假设我们下图所示的一份数据集
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lCWe9NUC-1678011026613)(./img/关联规则数据示例.png)]
确定X, Y的关联性,需要用两个指标来衡量:
-
支持度(support)
支持度是针对项集而言的
项集的支持度被定义为数据集中包含该项集的记录所占的比例
那么项集
{豆奶}
的支持度就是4/5,那么项集{豆奶, 莴苣}
的支持度就是3/5 -
置信度(confidence)
置信度也成为可信度,是针对一个关联规则而言的,如
{豆奶}
>>>{莴苣}
,表示{豆奶}
之于{莴苣}
的关联程度(注意:{莴苣}
>>>{豆奶}
不等价于{豆奶}
>>>{莴苣}
){豆奶}
>>>{莴苣}
的置信度 = 支持度({豆奶, 莴苣}
)/支持度({豆奶}
),即3/4{莴苣}
>>>{豆奶}
的置信度 = 支持度({豆奶, 莴苣}
)/支持度({莴苣}
),即3/4注意:这里他们俩的置信度相等纯属巧合
如果不考虑关联规则的支持度和置信度,那么在数据库中会存在着无穷多的关联规则。因此我们为了提取出真正的频繁项集和关联规则,必须指定一个最小支持度阈值和最小置信度阈值,因为对于支持度和置信度太低的关联规则基本没有什么使用价值。
-
最小支持度:
它表示了一组物品集在统计意义上需要满足的最低程度
-
最小可信度
它反映了关联规则的最低可靠程度
**同时满足最小可信度阈值和最小支持度阈值的关联规则被称为强关联规则。**比如啤酒与尿布。
比如这里,如果我们假设最小支持度阈值为50%,最小可信度阈值为70%,那么这里{豆奶}
>>>{莴苣}
和{莴苣}
>>>{豆奶}
都属于符合条件的两条关联规则,分别表示:
- 同时购买豆奶和莴苣的顾客占全部顾客的60%
{豆奶}
>>>{莴苣}
:在购买豆奶的用户中,有75%的顾客会购买莴苣{莴苣}
>>>{豆奶}
:在购买莴苣的用户中,有75%的顾客会购买豆奶
关键规则挖掘算法(一)Apriori算法
Apriori算法原理
Apriori算法是著名的关联规则挖掘算法。
假如我们在经营一家商品种类并不多的杂货店,我们对哪些经常在一起被购买的商品非常感兴趣。我们只有四种商品:商品0、商品1、商品2、商品3。那么所有可能被一起购买的商品组合都有哪些?这些商品组合可能著有一种商品,比如商品0,也可能包括两种、三种或所有四种商品。但我们不关心某人买了两件商品0以及四件商品2的情况,只关心他购买了一种或多种商品。
下图显示了物品之间所有可能的组合:
- 图中使用物品的编号0来表示物品0本身。
- 图中从上往下的第一个集合是 ϕ \phi ϕ,表示空集或不包含任何物品的集合。
- 物品集合之间的连线表明两个或者更多集合可以组合形成一个更大的集合。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gYFM3TMI-1678011026616)(./img/apriori1.png)]
**目标:**我们的目标是找到经常在一起购买的物品集合。我们使用集合的支持度来度量其出现的频率。
一个集合的支持度是指有多少比例的交易记录包含该集合。
问题: 如何对一个给定的集合,比如{0,3}
,来计算其支持度?
- 我们可以遍历毎条记录并检查该记录包含0和3,如果记录确实同时包含这两项,那么就增加总计数值。在扫描完所有数据之后,使用统计得到的总数除以总的交易记录数,就可以得到支持度。
**注意:**上述过程和结果只是针对单个集合{0,3}。要获得每种可能集合的支持度就需要多次重复上述过程。我们可以数一下图中的集合数目,会发现即使对于仅有4种物品的集合,也需要遍历数据15次。而随着物品数目的增加遍历次数会急剧增长。对于包含N种物品的数据集共有 2 N − 1 2^{N-1} 2N−1种项集组合。而且实际上出售10 000或更多种物品的商店并不少见。即使只出售100种商品的商店也会有 1.26 ∗ 1 0 30 1.26 * 10^{30} 1.26∗1030种可能的项集组合。这样的运算量,其实即使是对于现在的很多计算机而言,也需要很长的时间才能完成运算。
Apriori算法的原理可以帮我们减少可能感兴趣的项集,降低所需的计算时间。
Apriori算法原理:
-
如果某个项集是频繁的,那么它的所有子集都是频繁的,例如,假设
{1,2}
是频繁的,那么{1}
和{2}
也一定是频繁的。 -
将这个原理取反会发现:如果一个项集是非频繁的,那么它的所有超集也是非频繁的
如下图中,已知项集
{2,3}
是非频繁的,那么可立即判断出项集{0,2,3}
、{1,2,3}
、{0,1,2,3}
都是非频繁的,因此这些项集的支持度也就不需要再计算[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-llbyzpVC-1678011026620)(./img/apriori2.png)]
Apriori算法的一般过程:
- 收集数据:使用任意方法。
- 准备数据:任何数据类型都可以,因为我们只保存集合。
- 分析数据:使用任意方法。
- 训练算法:使用Apriori算法来找到频繁项集。
- 测试算法:不需要测试过程。
- 使用算法:用于发现频繁项集以及物品之间的关联规则。
Apriori算法实现
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rXpPo7yA-1678011026624)(./img/挖掘频繁项集.png)]
实现数据集扫描方法:
from numpy import *
def loadDataSet():
'''
加载数据集
:return: dataset
'''
return [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]
def createC1(dataSet):
'''
创建C1候选项集,C1是所有大小为1的候选项集的列表
:param dataSet:
:return: C1
'''
# C1是所有大小为1的候选项集的列表
C1 = []
# 遍历数据集,逐个添加到C1中
for record in dataSet:
for item in record:
if not [item] in C1:
C1.append([item])
C1.sort()
# 使用不变集合存储C1内部的每个候选项集,那么就可以将其作为字典的Key,如果是list类型不能直接作为字典的Key
return list(map(frozenset, C1))
def scanDataset(dataset, ck, minSupport):
'''
扫描数据集,判断频繁项集
:param dataset:
:param ck: ck是所有大小为k的候选项集的列表
:param minSupport: 设置的最小支持度阈值
:return: 符合条件的项集、每个项集的支持度
'''
# 存储项集的出现次数
selectedSetCount = {}
for record in dataset: # 遍历每一条记录
for candidateSet in ck:
# 判断当前候选项集是不是当前记录的子集
if candidateSet.issubset(record):
if candidateSet not in selectedSetCount:
selectedSetCount[candidateSet] = 1
else:
selectedSetCount[candidateSet] += 1
# 计算总条目数
numItems = float(len(dataset))
# 存储符合条件的项集
retList = []
# 存储项集的支持度
supportData = {}
for key in selectedSetCount:
# 计算支持度
support = selectedSetCount[key] / numItems
if support >= minSupport:
retList.insert(0, key)
supportData[key] = support
return retList, supportData
if __name__ == '__main__':
from pprint import pprint
dataset = loadDataSet()
c1 = createC1(dataset)
pprint(scanDataset(dataset, c1, 0.5))
实现频繁项集挖掘:
def createCk(lastFrequentItems, k):
'''
根据k-1项的频繁项集列表生成k项的候选项集
:param lastFrequentItems: k-1项的频繁项集
:param k: 第k个项集
:return: ck项集
'''
retList = []
lenLk = len(lastFrequentItems)
for i in range(lenLk):
for j in range(i+1, lenLk):
# 因为新构建的ck项集,特征是任意一个k项集其中k-1项都必须存在于lastCk中
# 通过以下判断,能筛选出那些符合要求的k-1项
L1 = list(lastFrequentItems[i])[:k-2]; L2 = list(lastFrequentItems[j])[:k-2]
L1.sort(); L2.sort()
if L1==L2:
retList.append(lastFrequentItems[i] | lastFrequentItems[j])
return retList
def apriori(dataSet, minSupport=0.5):
C1 = createC1(dataSet)
k1FrequentItems, supportData = scanDataset(dataSet, C1, minSupport)
frequentItemsList = [k1FrequentItems]
# 应为k=1的频繁项集已经找到,因此从k=2继续
k = 2
while True:
# 根据k-1的频繁项集,创建k候选集,
# k-1-1是因为列表下表从0开始
ck = createCk(frequentItemsList[k-1-1], k)
# 再次扫描数据集,找出新的k项频繁项集
newFrequentItems, supK = scanDataset(dataSet, ck, minSupport)
# 更新项集的支持度
supportData.update(supK)
# 如果无法生成新的频繁项集,那么推出循环
if len(newFrequentItems) == 0:
break
# 存储所有的频繁项集
frequentItemsList.append(newFrequentItems)
k += 1
return frequentItemsList, supportData
if __name__ == '__main__':
from pprint import pprint
dataset = loadDataSet()
c1 = createC1(dataset)
pprint(apriori(dataset, 0.3))
实现关联规则挖掘:
def generateRules(frequentItemsList, supportData, minConf=0.7):
# 存储关联规则
ruleList = []
# 从含有2项item的频繁项集开始遍历,计算两两的置信度
for i in range(1, len(frequentItemsList)):
# 遍历每一阶段的频繁项集
for frequentItem in frequentItemsList[i]:
print(frequentItem)
subItems = [frozenset([item]) for item in frequentItem]
print(subItems)
if (i == 1):
# 先计算2项item的频繁项集的置信度,并将关联规则存储到ruleList
calculateConfidence(frequentItem, subItems, supportData, ruleList, minConf)
else:
# 然后使用递归依次计算3到k项item频繁项集之间两两的置信度,并提取关联规则
rulesFromRecursive(frequentItem, subItems, supportData, ruleList, minConf)
return ruleList
def calculateConfidence(frequentItem, subItems, supportData, ruleList, minConf=0.7):
# 存储符合最小置信度阈值的item
retList = []
for subItem in subItems:
#支持度({豆奶, 莴苣})/支持度({豆奶})
# 计算置信度[frozenset({2, 3}), frozenset({3, 5}), frozenset({2, 5}), frozenset({1, 3})],
conf = supportData[frequentItem]/supportData[frequentItem-subItem]
if conf >= minConf:
print("Rule:", frequentItem-subItem, '-->', subItem, 'confidence:', conf)
ruleList.append((frequentItem-subItem, subItem, conf))
retList.append(subItem)
return retList
def rulesFromRecursive(frequentItem, subItems, supportData, ruleList, minConf=0.7):
m = len(subItems[0]) # 判断当前子项集的长度
if (len(frequentItem) > (m + 1)): #frozenset({2, 3, 5})
# 根据子项集得出CK候选集
ck = createCk(subItems, m+1)
# 根据候选集再筛选出符合最小置信度的item集合
newItems = calculateConfidence(frequentItem, ck, supportData, ruleList, minConf)
# 如果符合要求的item至少有2个,那么继续递归
if (len(newItems) > 1):
rulesFromRecursive(frequentItem, newItems, supportData, ruleList, minConf)
if __name__ == '__main__':
from pprint import pprint
dataset = loadDataSet()
c1 = createC1(dataset)
# pprint(scanDataset(dataset, c1, 0.5))
pprint(generateRules(*apriori(dataset, 0.3)))
面向对象封装
from numpy import *
def loadDataSet():
'''
加载数据集
:return: dataset
'''
return [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]
class AssociationRule(object):
def __init__(self, minSupport=0.5, minConf=0.7):
self.minSupport = minSupport
self.minConf = minConf
self.dataset = None
def fit(self, dataset):
self.dataset = dataset
self.frequentItemsList, self.supportData = self.apriori(dataset)
def _createC1(self, dataset):
'''
创建C1候选项集,C1是所有大小为1的候选项集的列表
:return: C1
'''
# C1是所有大小为1的候选项集的列表
C1 = []
# 遍历数据集,逐个添加到C1中
for record in dataset:
for item in record:
if not [item] in C1:
C1.append([item])
C1.sort()
# 使用不变集合存储C1内部的每个候选项集,那么就可以将其作为字典的Key,如果是list类型不能直接作为字典的Key
return list(map(frozenset, C1))
def _scanDataset(self, ck):
'''
扫描数据集,判断频繁项集
:param ck: ck是所有大小为k的候选项集的列表
:return: 符合条件的项集、每个项集的支持度
'''
# 存储项集的出现次数
selectedSetCount = {}
for record in self.dataset: # 遍历每一条记录
for candidateSet in ck:
# 判断当前候选项集是不是当前记录的子集
if candidateSet.issubset(record):
if candidateSet not in selectedSetCount:
selectedSetCount[candidateSet] = 1
else:
selectedSetCount[candidateSet] += 1
# 计算总条目数
numItems = float(len(self.dataset))
# 存储符合条件的项集
retList = []
# 存储项集的支持度
supportData = {}
for key in selectedSetCount:
# 计算支持度
support = selectedSetCount[key] / numItems
if support >= self.minSupport:
retList.insert(0, key)
supportData[key] = support
return retList, supportData
def _createCk(self, lastFrequentItems, k):
'''
根据k-1项的频繁项集列表生成k项的候选项集
:param lastFrequentItems: k-1项的频繁项集
:param k: 第k个项集
:return: ck项集
'''
retList = []
lenLk = len(lastFrequentItems)
for i in range(lenLk):
for j in range(i + 1, lenLk):
# 因为新构建的ck项集,特征是任意一个k项集其中k-1项都必须存在于lastCk中
# 通过以下判断,能筛选出那些符合要求的k-1项
L1 = list(lastFrequentItems[i])[:k - 2]
L2 = list(lastFrequentItems[j])[:k - 2]
L1.sort()
L2.sort()
if L1 == L2:
retList.append(lastFrequentItems[i] | lastFrequentItems[j])
return retList
def apriori(self, dataset):
C1 = self._createC1(dataset)
k1FrequentItems, supportData = self._scanDataset(C1)
frequentItemsList = [k1FrequentItems]
# 应为k=1的频繁项集已经找到,因此从k=2继续
k = 2
while True:
# 根据k-1的频繁项集,创建k候选集,
# k-1-1是因为列表下表从0开始
ck = self._createCk(frequentItemsList[k - 1 - 1], k)
# 再次扫描数据集,找出新的k项频繁项集
newFrequentItems, supK = self._scanDataset(ck)
# 更新项集的支持度
supportData.update(supK)
# 如果无法生成新的频繁项集,那么推出循环
if len(newFrequentItems) == 0:
break
# 存储所有的频繁项集
frequentItemsList.append(newFrequentItems)
k += 1
return frequentItemsList, supportData
def generateRules(self):
# 存储关联规则
ruleList = []
# 从含有2项item的频繁项集开始遍历,计算两两的置信度
for i in range(1, len(self.frequentItemsList)):
# 遍历每一阶段的频繁项集
for frequentItem in self.frequentItemsList[i]:
subItems = [frozenset([item]) for item in frequentItem]
if (i == 1):
# 先计算2项item的频繁项集的置信度,并将关联规则存储到ruleList
self._calculateConfidence(frequentItem, subItems, self.supportData, ruleList)
else:
# 然后使用递归依次计算3到k项item频繁项集之间两两的置信度,并提取关联规则
self._rulesFromRecursive(frequentItem, subItems, self.supportData, ruleList)
return ruleList
def _calculateConfidence(self, frequentItem, subItems, supportData, ruleList):
# 存储符合最小置信度阈值的item
retList = []
for subItem in subItems:
# 计算置信度
conf = supportData[frequentItem] / supportData[frequentItem - subItem]
if conf >= self.minConf:
print("Rule:", frequentItem - subItem, '-->', subItem, 'confidence:', conf)
ruleList.append((frequentItem - subItem, subItem, conf))
retList.append(subItem)
return retList
def _rulesFromRecursive(self, frequentItem, subItems, supportData, ruleList):
m = len(subItems[0]) # 判断当前子项集的长度
if (len(frequentItem) > (m + 1)):
# 根据子项集得出CK候选集
ck = self._createCk(subItems, m + 1)
# 根据候选集再筛选出符合最小置信度的item集合
newItems = self._calculateConfidence(frequentItem, ck, supportData, ruleList)
# 如果符合要求的item至少有2个,那么继续递归
if (len(newItems) > 1):
self._rulesFromRecursive(frequentItem, newItems, supportData, ruleList)
if __name__ == '__main__':
from pprint import pprint
dataset = loadDataSet()
ar = AssociationRule()
# pprint(scanDataset(dataset, c1, 0.5))
ar.fit(dataset)
pprint(ar.generateRules())
# pprint(ar.generateRules(*ar.apriori(dataset, 0.3)))
频繁项集挖掘(二)FP-Growth算法
FP-Growth(Frequent Patterns)相比于Apriori是一种更加有效的频繁项集挖掘算法,FP-Growth算法只需要对数据库进行两次扫描,而Apriori算法对于每次产生的候选项集都会扫描一次数据集来判断是否频繁,因此当数据量特别巨大,且扫描数据库的成本比较高时,FP-Growth的速度要比Apriori快。
但是FP-Growth只能用于发现频繁项集,不能用于发现关联规则。
FP-Growth原理分析
FP-Growth算法实现步骤
- 构建FP树
- 从FP树中挖掘频繁项集
FP-Growth算法将数据存储在一种被称为FP树的紧凑数据结构中。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-44CU1SZG-1678011026629)(./img/fp-growth2.png)]
下图就是利用上面的数据构建的一棵FP树(最小支持度为3):
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6xcEPFpd-1678011026632)(./img/fp-growth1.png)]
- FP树中最小支持度指项集总共出现的次数
- 一个元素项可以在一棵FP树中出现多次
- FP树存储项集的出现频率,且每个项集会以路径的方式存储在树中
- 存在相似元素的集合会共享树的一部分
- 只有当集合之间完全不同时,树才会分叉
- 树节点上给出集合中的单个元素及其在序列中的出现次数,路径会给出该序列的出现次数
FP-Growth算法工作流程:
- 扫描数据集两遍
- 第一遍对所有元素项的出现次数进行计数
- 根据前面的结论,如果某元素是不频繁的,那么包含该元素的超集也是不频繁的
- 第二遍扫描,只考虑那些频繁元素,并且第二遍扫描开始构建FP树
算法实现
class treeNode(object):
def __init__(self, nameValue, numOccur, parentNode):
# 节点名称
self.name = nameValue
# 节点计数
self.count = numOccur
# 记录相似的元素项
self.nodeLink = None
# 父节点对象
self.parent = parentNode
# 子节点
self.children = {}
def inc(self, numOccur):
self.count += numOccur
def disp(self, ind=1):
print('--'*ind, self.name, ' ', self.count)
for child in self.children.values():
child.disp(ind+1)
def createTree(dataSet, minSup=1): # create FP-tree from dataset but don't mine
'''遍历数据集两遍'''
# 第一遍对元素计数
originHeaderTable = {} # headerTable用于记录树的结构情况
for trans in dataSet:
for item in trans:
originHeaderTable[item] = originHeaderTable.get(item, 0) + dataSet[trans]
popKeys = []
# 过滤掉非频繁项集
for k in originHeaderTable.keys():
# 记录非频繁项
if originHeaderTable[k] < minSup:
popKeys.append(k)
freqItemSet = set(originHeaderTable.keys()) - set(popKeys)
# headerTable用于记录树的结构情况
headerTable = {}
if len(freqItemSet) == 0: # 如果初选没有频繁项集,那么直接退出
return None, None
# 重新构建headerTable
for k in freqItemSet:
headerTable[k] = [originHeaderTable[k], None] # reformat headerTable to use Node link
del originHeaderTable
# 构建空树,根节点为空集
root_node = treeNode('Null Set', 1, None)
# 第二遍扫描,开始构建FP树
for tranSet, count in dataSet.items(): # go through dataset 2nd time
localD = {}
for item in tranSet: # put transaction items in order
if item in freqItemSet:
localD[item] = headerTable[item][0]
if len(localD) > 0:
orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: p[1], reverse=True)]
updateTree(orderedItems, root_node, headerTable, count) # populate tree with ordered freq itemset
return root_node, headerTable # return tree and header table
def updateTree(items, parentNode, headerTable, count):
# 判断第一个项集是已经是当前节点的子节点
if items[0] in parentNode.children: # check if orderedItems[0] in retTree.children
# 如果是,那么直接count + 1
parentNode.children[items[0]].inc(count) # incrament count
else: # add items[0] to inTree.children
# 如果不是,那么新建节点,并存储为当前节点的子节点
parentNode.children[items[0]] = treeNode(items[0], count, parentNode)
# 更新headerTable
# 判断当前item是否是第一次记录
if headerTable[items[0]][1] == None:
# 如果是第一次,那么把新建的节点直接记录到头表中
headerTable[items[0]][1] = parentNode.children[items[0]]
else:
# 如果不是第一次,那么说明新节点是当前item的节点的子节点,因此将它记录到当前分支的末位去,即设置为当前分支的叶子节点
updateHeader(headerTable[items[0]][1], parentNode.children[items[0]])
# 如果还有第二个元素,那么递归执行以上操作
if len(items) > 1:
updateTree(items[1::], parentNode.children[items[0]], headerTable, count)
def updateHeader(lastNode, newLeafNode):
# 判断上一节点是否有连接节点,如果没有,那么说明上一节点就是叶子节点,那么直接将新节点设为叶子节点
while (lastNode.nodeLink != None):
# 如果上一节点已经有连接节点,那么循环知道遍历到叶子节点,再设置新叶子节点
lastNode = lastNode.nodeLink
# 将新的叶子节点设置为旧叶子节点的连接节点
lastNode.nodeLink = newLeafNode
def loadTestDataset():
dataset = [['r', 'z', 'h', 'j', 'p'],
['z', 'y', 'x', 'w', 'v', 'u', 't', 's'],
['z'],
['r', 'x', 'n', 'o', 's'],
['y', 'r', 'x', 'z', 'q', 't', 'p'],
['y', 'z', 'x', 'e', 'q', 's', 't', 'm']]
return dataset
def createInitDataset(dataSet):
dictDataset = {}
for trans in dataSet:
dictDataset[frozenset(trans)] = 1
return dictDataset
def buildCombinedItems(leafNode, combinedItems):
if leafNode.parent != None:
combinedItems.append(leafNode.name)
buildCombinedItems(leafNode.parent, combinedItems)
def buildCombinedDataset(nodeObject):
# 根据节点名称,组合出新的项集节点
combinedDataset = {}
while nodeObject != None:
combinedItems = []
buildCombinedItems(nodeObject, combinedItems)
if len(combinedItems) > 1:
combinedDataset[frozenset(combinedItems[1:])] = nodeObject.count
nodeObject = nodeObject.nodeLink
return combinedDataset
def scanFPTree(headerTable, minSup, parentNodeNames, freqItemList):
# 遍历排序后的headerTable,(节点名称,节点信息)
for baseNode, nodeInfo in headerTable.items():
# 根据prefix
newFreqSet = parentNodeNames.copy()
newFreqSet.add(baseNode)
# 节点计数值
nodeCount = nodeInfo[0]
# 节点对象
nodeObject = nodeInfo[1]
# 记录下频繁项集以及计数
freqItemList.append((newFreqSet, nodeCount))
# 根据当前节点的子节点,构建出新的项集组合
combinedDataset = buildCombinedDataset(nodeObject)
# 根据新的项集组合,重合构建子FP树
subFPTree, subFPTreeHeaderTable = createTree(combinedDataset, minSup)
# 如果头表不为空,那么递归新树的头表
if subFPTreeHeaderTable != None:
print('conditional tree for: ', newFreqSet)
subFPTree.disp(1)
# 根据新的头表 扫描FP-Tree
scanFPTree(subFPTreeHeaderTable, minSup, newFreqSet, freqItemList)
if __name__ == '__main__':
from pprint import pprint
simpDat = loadTestDataset()
initSet = createInitDataset(simpDat)
# 构建初始的FP-Tree
initFPtree, initFPtreeHeaderTable = createTree(initSet, 3)
initFPtree.disp(1)
freqItems = [] # 存储频繁项集
# 扫描FP树,找出所有符合条件的频繁项集
root_node_names = set([]) # 从根路径空集开始扫描
scanFPTree(initFPtreeHeaderTable, 3, root_node_names, freqItems)
pprint(freqItems)