Agrawal等于1993年[1]首先提出了挖掘顾客交易数据库中项集间的关联规则问题,其核心方法是基于频集理论的递推方法。以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;提出各种变体,如泛化的关联规则、周期关联规则等,对关联规则的应用进行推广。
一、Apriori算法基本原理
Agrawal等在1993年设计了一个基本算法Apriori[4],这是一个基于两阶段频集思想的方法,将关联规则挖掘算法的设计可以分解为两个子问题:
1.
找到所有支持度大于最小支持度的项集(Itemset),这些项集称为频集(Frequent Itemset)。
2.
使用第1步找到的频集产生期望的规则。
为生成所有频繁项集,A