定义:对于一组事务,根据一些事务的项目,发现能预测另外一些事务项目的规则
Itemset(项集):包含一个或者多个条目(item)的集合
Support count(支持度计数):项集出现的频率(次数)
Support(支持度):事务中包含项集的概率.
Frequent Itemset(频繁项集):支持度大于等于最小支持度阈值的项集
Association Rule(关联规则):表示对X->Y这种形式的蕴含.
Rule Evaluation Metrics(规则评估指标)
- 支持度: 事务中包含X,Y的概率
- 置信度:衡量Y出现在包含X的事务中的频率
关联规则挖掘测试
目标:给定一系列事务T,关联规则挖掘的任务就是去找出所有满足以下条件的规则
- 支持度>=minsup threshold
- 置信度>=minconf threshold
暴力方法:(计算复杂度高)
-列出所有可能的关联规则
-计算每一个规则的支持度和置信度
-修剪去除不符合minsup 和 minconf thresholds的规则
关联规则挖掘算法
两个步骤:
1.频繁项集的生成:生成所有支持度>=最小阀值的所有项集
2.规则生成:从每一个频繁项集中生成高置信度规则
频繁项集生成的计算成本依旧很大
暴力方法
- 在格子内的每一个项集都可能是频繁项集
- 扫描数据库,计算每一个候选项