SPSS Modeler关联分析(第十八章)

在这里插入图片描述

通过关联分析,我们将从庞杂的数据中发现事物间潜藏的关联关系。常利用关联规则技术对超市购物篮进行分析,随着数据挖掘技术的不断成熟,关联分析也逐渐被应用于网站分析、气象分析、社交媒体分析等方面。

1. 关联分析基本概念

在这里插入图片描述
将上表的每一行记录称为一个事务。每个事务由事务标识(TID)以及对应的项目组成。
如果项集X中包含可k个项目,就称X为k-项集。例如,TID为01的事务,就是一个2-项集,其中包含了啤酒和冻肉两个项目。

为了进一步进行关联分析,我们要将数据转换为表格格式或事物格式。
在这里插入图片描述
在这里插入图片描述
一个关联规则通常可以表示为:X→Y
X是关联规则的前项,Y是关联规则的后项,前后项目并不相关。
规则的前项可以包含一个或多个项目,而规则的后项一般只有一个项目。

2. 关联规则的有效性指标

2.1 基础性评价指标

2.11 支持度

在这里插入图片描述
分子:同时包含了前项X和后项Y的事务数量。
分母:数据集中事务总数量。
通常用于反映项集或规则的普遍程度

2.22 置信度

在这里插入图片描述
分子:同时包含了前项X和后项Y的事务数量。
分母:前项X的事务数量。
实际上是给定前项X的前提下后项Y的条件概率。通常用于反映规则的可靠性

一个合适的关联规则应该同时由较高的支持度和置信度。
如果关联规则有较高支持度而置信度较低,说明关联规则较弱。如果关联规则有较高置信度而支持度较低,说明规则普遍性较低,可能只是偶然事件,不具备应用推广的意义。
因此,为了生成合适的关联规则,通常需要分别设置最小支持度及最小置信度阈值。
有效的规则
在这里插入图片描述

2.2 实用性指标

规则的有效并不代表真的具备实用性,为了能够进一步评估规则的效果,还需要结合其他实用性指标。

2.21 提升度

在这里插入图片描述
实际上是规则置信度和后项支持度的比值,反映了相比总体,后项Y受到前项X的影响程度。
当提升度>1时,认为前项对后项具有正向影响;值越大,正向影响程度越高。
当提升度<1时,认为前项对后项具有负向影响。

2.22 部署能力

在这里插入图片描述
部署能力是前项支持度和后项支持度的差值。它反映了有多少已经购买条件但是还没买购买结果的客户比例。

2.3 其他评估指标

2.31 置信度差

在这里插入图片描述
是规则置信度和后项支持度的绝对差值,与提升度一样,反映后项Y受到前项X的影响程度。值越大,说明后项和前项的关联越大。
选择该指标作为评估指标,将能够去除负关联规则。

2.32 置信度比率

在这里插入图片描述
是1减去提升度(若提升度>1,则减去其倒数)的差值。
该指标更多地考虑不均匀分布的情况,将更容易保留负关联规则及稀有数据规则。

2.33 信息差

基于信息增量的测量,信息差越大,说明后项与前项的关联越大。

2.34 标准化卡方

用于检验前后项是否独立的统计量,该值在0-1之间。
值越大,前项和后项的关联性越大。

3. Apriori算法

数据挖掘中关联分析的核心算法。
Apriori算法的过程,一共可以分为3步:
(1)指定最小支持度及最小置信度;
(2)根据最小支持度生成频繁项集;
(3)基于频繁项集,根据最小置信度生成关联规则。

3.1 生成频繁项集

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2 生成关联规则

当生成所有频繁项集后,就能够从中抽取规则。

  • 4
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值