Apriori算法
Apriori算法是一个挖掘关联规则的算法,是Agrawal等设计的一个基本算法,这是一个采用两阶段挖掘的思想,并且基于多次扫描事务数据库来执行的。Apriori算法的设计可以分解为两步骤来执行挖掘:
1、从事务数据库(D)中挖掘出所有频繁项集。
支持度大于最小支持度minSup的项集(Itemset)称为频集(Frequent Itemset)。
首先需要挖掘出频繁1-项集;
然后,继续采用递推的方式来挖掘频繁k-项集(k>1),具体做法是:
在挖掘出候选频繁k-项集(Ck)之后,根据最小置信度minSup来筛选,得到频繁k-项集。
最后合并全部的频繁k-项集(k>0)。
挖掘频繁项集的算法描述如下:
(1) L1 = find_frequent_1-itemsets(D); // 挖掘频繁1-项集,比较容易
(2) for (k&#