关联规则算法总结
一、Apriori、FP Growth算法原理:
频繁项集的评估标准有:
1.1 Apriori算法原理
频繁项集: 是支持值大于阈值(support)的项集。
关联分析的目的:
- 发现频繁项集:发现满足最小支持度的所有项集;
- 发现关联规则:从频繁项集中提取所有高置信度的规则。
Apriori算法就是基于一个先验:
- 如果某个项集是频繁的,那么它的所有子集也是频繁的;
- 如果一个集合不是频繁项集,则它的所有父集(超集)都不是频繁项集。
Apriori算法流程:
输入:数据集合D,支持度阈值𝛼
输出:最大的频繁k项集
(1)扫描整个数据集,