一、(Apriori)发现频繁项目集
通过用户给定的 最小支持度,寻找所有频繁项目集(满足Support不小于Minsupport的所有项目子集)
逐层发现算法,按照项集的长度由下到大逐级进行,并最后发现频繁几项集
项(Item)
购物篮(Transcation):交易
项集(Itemset):所有项的集合
K项集:在集合中包含K个项的项集
支持度:support(x)=count(x) / |D| *100%
——x出现的概率
count(x):一个项集x在数据库中出现的次数x
D:数据库(交易的个数)
置信度:confidence(X->Y) = support(X->Y) / support(X) *100%
support(X)=support(X∩Y)
———X出现了的同时Y出现的概率
算法实现:
输入:数据库D;最小支持度minsup_count
输出:频繁项目集L
样本事务数据库
TID | Itemset |
---|---|
1 | A,B,C,D |