关联规则
参考资料:《数据挖掘导论》人民邮电出版社Pang-Ning Tan等著
关联规则是形如 X→Y 的蕴含表达式,其中X和Y是不相交的项集。即 X∩Y=∅ 。关联规则的强度可以用它的支持度(support)和置信度(confidence)度量。支持度确定规则可以用于给定数据集的频繁程度。而置信度确定Y在包含X的事务中出现的频繁程度。
支持度
支持度是一种重要度量,因为支持度很低的规则可能只是偶然出现。从商务角度来看,低支持度的规则多半也是无意义的,因为对顾客很少同时购买的商品进行促销可能好处也并不大。因此,支持度通常用来删去哪些无意义的规则。此外,支持度还有一种期望的性质,可以用于关联规则的有效发现。
置信度
置信度度量通过规则进行推理具有可靠性。对于给定的规则 X→Y ,置信度越高,Y在包含X的事务中出现的可能性就越高。
应当小心解释关联规则分析的结果,由关联规则作出的推论并不必然蕴含因果关系。它只表示规则前件和后件中的同时出现。
定义 关联规则发现
给定事务的集合T,关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf的所有规则,其实minsup和minconf是对应的支持度和置信度阀值。
挖掘关联规则的一种原始方法是,计算每个可能规则的支持度和置信度。但是这种方法的代价更高。提高关联规则挖掘算法性能的第一步是拆分支持度和置信度要求。
大部分关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解成如下2个子任务。
(1)频繁项集产生:其目标是发现满足最小支持度阀值的所有项集,这些项集称作频繁项集;
(2)规则的产生:其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称作强规则。
通常,频繁项集产生所需的计算开销远大于产生规则所需的开销。
频繁项集的产生
格结构常常用来枚举所有可能的项集。一般来说,一个包含