本文主要对Apriori算法进行解析,参考书籍《Introduction to Data Mining》
摘要: 本算法主要应用于关联分析问题(啤酒与尿布)。它使用基于支持度的剪枝技术,系统的控制候选集指数增长。
关联规则是形如X->Y的蕴涵表达式,其中X和Y是不相交的项集,即X∩Y=∅。
支持度(s):s(x->y)=count(X∪Y)/N 置信度(c): c(x->y)=count(X∪Y)/count(X)
count(.)表示支持度计数。
- Apriori算法的频繁项集产生
通过例子来了解频繁项集是如何产生的,如下图:
下面给出伪代码,并进行分析:
1: K=1
2: FK={i|i∈I∧σ({i})≥N*minsup} {发现所有的频繁1-项集}
3: repeat
4: k=k+1
5: Ck=apriori-gen(Fk-1) {产生候选项集}
6: for 每个事务 t∈T do
7: Ct=subset(Ck,t) {识别属于t的所有候选}
8: for 每个候选项集c∈Ct do
9: