java实现频繁项集_关联分析之发现频繁项集--使用Apriori算法（1）

最新推荐文章于 2022-08-16 17:39:18 发布

哈特曼

最新推荐文章于 2022-08-16 17:39:18 发布

阅读量419

点赞数

文章标签： java实现频繁项集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34198817/article/details/115090893

版权

从大规模数据集中寻找物品间的隐含关系被称为关联分析，最有名的案例应该是啤酒和尿布了。这些关系可以用两种方式来量化，一个是使用频繁项集，给出经常在一起出现的元素项；一个是关联规则，每条关联规则意味着元素项之间的“如果……那么”(A-->B)的关系；要先找到频繁项集然后才能获得关联规则。

本文主要是先讲找到频繁项集(本文中的代码使用的是Python3)。

发现元素之间的关系是一个非常耗时的任务，可以使用Apriori算法来减少在数据库上进行检查的集合的数目。Apriori原理是如果一个元素项是不频繁的，则那些包含该元素的所有超级也是不频繁的(例A是不频繁出现的，则AB也是不频繁的)；Apriori算法从单元素项集开始，通过组合满足最小支持度要求的项集来形成更大的集合。

发现频繁项集

先产生一个只有一个元素的项集的候选集：

def loadDataset():

return [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]

def creatC1(dataset):

C1 = []

for transaction in dataset:

for item in transaction:

if not [item] in C1:

C1.append([item])

C1.sort()

return list(map(frozenset, C1))

#frozenset 是不可变类型，可以将集合作为字典健值使用，set不能；

然后再统计C1中元素出现的次数，以计算是否满足最小支持度，满足最小支持度的元素才添加到频繁项集列表中：

def scanD(Dset, Ck, minSupport):

#Dset是数据集，Ck是候选项集列表，minSupport是最小支持度

ssCnt = {}

#创建一个空字典ssCnt用来保存候选子集和候选子集对应的频数

for tid in Dset:

for can in Ck:

if can.issubset(tid):

if not ssCnt.__contains__(can):

ssCnt[can] = 1

else:

ssCnt[can] += 1

#计算字典中的每个元素，计算支持度

numItems = float(len(Dset))

retList = []

supportData = {}

for key in ssCnt:

support = ssCnt[key]/numItems

if support >= minSupport:

retList.inset(0, key)

supportData[key] = support

return retList, supportData

#retList是返回的频繁项集， supportData是对应的的支持度

以上只是返回只有一个元素的频繁项集，还需要完善代码以返回由k项组成的频繁项集，步骤与上述相同，也是先产生含K项的候选集列表，然后判断是否满足最小支持度，这里为了减少开销，要使用Apriori原理；

def aprioriGen(Lk, k):

#Lk是频繁项集列表，K是项集元素个数，函数返回的是CK，即含有K个元素的候选项集

retlist = []

lenLk = len(Lk)

#计算频繁项集的元素个数，然后比较项集中每一个元素和其他元素(两个for循环)

#如果一个元素和另一个元素的前k-2项重复，则将两个元素合并成一个大小为K的集合

for i in range(lenLk):

for j in range(i+1, lenLk):

L1 = list(Lk[i])[:k-2]

L2 = list(Lk[j])[:k-2]

L1.sort()

L2.sort()

if L1 == L2:

retlist.append(Lk[i] | Lk[j])(并集操作)

return retlist

创建一个主函数apriori封装上面几个函数，

def apriori(dataset, minsupport = 0.5):

C1 = createC1(dataset)

D = list(map(set, dataset))

L1, supportdata = scanD(D,C1 ,minsupport)

L = [L1]

#先调用createC1和scanD产生只有一个元素的频繁项集

#然后基于L调用apriorigen产生只有两个元素的候选集，再调用scanD来生成含有

#两个元素的频繁项集，之后K加一，循环调用产生含有三个元素的频繁项集，一直循环

#直到L(K-2)的长度=0

k =2

while (len(L[k-2]) > 0):

Ck = apriorigen(L[k-2], k)

Lk, supk = scanD(D, Ck, 0.2)

supportdata.update(supk)

L.append(Lk)

k += 1

return L, supportdata

直接调用apirio()主函数就可以得到满足最小支持度的频繁项集啦，例如L, SupportData = apriori(dataset,minsupport=0.7)，L就是出现次数大于70%以上的所有项集。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java实现频繁项集_关联分析之发现频繁项集--使用Apriori算法（1）

从大规模数据集中寻找物品间的隐含关系被称为关联分析，最有名的案例应该是啤酒和尿布了。这些关系可以用两种方式来量化，一个是使用频繁项集，给出经常在一起出现的元素项；一个是关联规则，每条关联规则意味着元素项之间的“如果……那么”(A-->B)的关系；要先找到频繁项集然后才能获得关联规则。本文主要是先讲找到频繁项集(本文中的代码使用的是Python3)。发现元素之间的关系是一个非常耗时的任务，可以...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。