关联规则:
关联规则是形如X->Y的蕴含表达式,其中X和Y是不相交的项集,即X∩Y=∅。
关联规则的强度可以用它的支持度(support)和置信度(confidence)来度量
支持度确定规则可以用于给定数据集的频繁程度(能够关联的次数)
置信度确定Y在包含X的交易中出现的频繁程度(能够成功关联的次数)
支持度s和置信度c的形式定义如下:
||--> ·s(X->Y)=σ(X∪Y)/N
||--> ·c(X->Y)=σ(X∪Y)/σ(X)
因此,大多数关联规则挖掘算法通常采用的一种策略是:
将关联规则挖掘任务分解为如下两个主要的子任务:
1.频繁项集的产生:
其目标是发现满足最小值尺度阈值的所有项集,这些项集称作频繁项集(frequent itemset)
2.规则的产生:
其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称作强规则(strong rule)
显而易见。频繁项集的产生所需要的计算开销远大于产生规则所需的计算开销。
使用Apriori算法获取频繁项集
暴力挖取:
最容易想到的、也是最直接的关联关系挖掘的方法或许就是暴力搜索 (Brute-force)的方法。
但是暴力的计算量过大,一个包含k个项的数据集可能产生2^k-1个 频繁项集。
发现频繁项集的一种原始方法是确定每一个候选项集(candidate -itemset)的支持度计