通过关联分析,我们将从庞杂的数据中发现事物间潜藏的关联关系。常利用关联规则技术对超市购物篮进行分析,随着数据挖掘技术的不断成熟,关联分析也逐渐被应用于网站分析、气象分析、社交媒体分析等方面。
1. 关联分析基本概念
将上表的每一行记录称为一个事务。每个事务由事务标识(TID)以及对应的项目组成。
如果项集X中包含可k个项目,就称X为k-项集。例如,TID为01的事务,就是一个2-项集,其中包含了啤酒和冻肉两个项目。
为了进一步进行关联分析,我们要将数据转换为表格格式或事物格式。
一个关联规则通常可以表示为:X→Y
X是关联规则的前项,Y是关联规则的后项,前后项目并不相关。
规则的前项可以包含一个或多个项目,而规则的后项一般只有一个项目。
2. 关联规则的有效性指标
2.1 基础性评价指标
2.11 支持度
分子:同时包含了前项X和后项Y的事务数量。
分母:数据集中事务总数量。
通常用于反映项集或规则的普遍程度。
2.22 置信度
分子:同时包含了前项X和后项Y的事务数量。
分母:前项X的事务数量。
实际上是给定前项X的前提下后项Y的条件概率。通常用于反映规则的可靠性。
一个合适的关联规则应该同时由较高的支持度和置信度。
如果关联规则有较高支持度而置信度较低,说明关联规则较弱。如果关联规则有较高置信度而支持度较低,说明规则普遍性较低,可能只是偶然事件,不具备应用推广的意义。
因此,为了生成合适的关联规则,通常需要分别设置最小支持度及最小置信度阈值。
有效的规则:
2.2 实用性指标
规则的有效并不代表真的具备实用性,为了能够进一步评估规则的效果,还需要结合其他实用性指标。
2.21 提升度
实际上是规则置信度和后项支持度的比值,反映了相比总体,后项Y受到前项X的影响程度。
当提升度>1时,认为前项对后项具有正向影响;值越大,正向影响程度越高。
当提升度<1时,认为前项对后项具有负向影响。
2.22 部署能力
部署能力是前项支持度和后项支持度的差值。它反映了有多少已经购买条件但是还没买购买结果的客户比例。
2.3 其他评估指标
2.31 置信度差
是规则置信度和后项支持度的绝对差值,与提升度一样,反映后项Y受到前项X的影响程度。值越大,说明后项和前项的关联越大。
选择该指标作为评估指标,将能够去除负关联规则。
2.32 置信度比率
是1减去提升度(若提升度>1,则减去其倒数)的差值。
该指标更多地考虑不均匀分布的情况,将更容易保留负关联规则及稀有数据规则。
2.33 信息差
基于信息增量的测量,信息差越大,说明后项与前项的关联越大。
2.34 标准化卡方
用于检验前后项是否独立的统计量,该值在0-1之间。
值越大,前项和后项的关联性越大。
3. Apriori算法
数据挖掘中关联分析的核心算法。
Apriori算法的过程,一共可以分为3步:
(1)指定最小支持度及最小置信度;
(2)根据最小支持度生成频繁项集;
(3)基于频繁项集,根据最小置信度生成关联规则。
3.1 生成频繁项集
3.2 生成关联规则
当生成所有频繁项集后,就能够从中抽取规则。