前置概念:
Support: 支持度 s(X->Y) =(XUY)/N;
Confidence: 置信度 c(X->Y) =(XUY)/(X);
Frequent ItemSet: 频繁项集 Support >minSup;
Apriori Principle: 如果一个项集是频繁的,那它所有的子项集也都是频繁的。
Frequent Itemset Generation in the AprioriAlgorithm:
Apriori算法是第一个指出使用基于支持度剪枝策略的关联规则挖掘算法,系统地控制候选项集的指数增长。
Ck代表k候选项集, Fk代表频繁k项集
1 算法首先遍历一遍数据集,检测每项的支持度,获取频繁1-项集。Steps (1-2)
2 接下来,循环使用频繁(k-1)-项集派生k-候选项集。Step (5)
3 遍历数据集计算候选项集支持度Steps (6-10)
4 计算支持度后,消除非频繁项集Step (12)
5 当没有新的频繁项集产生的时候,算法结束Step(13)
Frequent itemset generation of the AprioriAlgorithm.