SPSS Modeler关联分析（第十八章）

最新推荐文章于 2024-11-14 10:47:54 发布

Yomi JIN

最新推荐文章于 2024-11-14 10:47:54 发布

阅读量1w

点赞数 4

分类专栏： IBM SPSS Modeler数据挖掘软件学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24339451/article/details/113946728

版权

IBM SPSS Modeler数据挖掘软件学习笔记专栏收录该内容

50 篇文章

订阅专栏

在这里插入图片描述

通过关联分析，我们将从庞杂的数据中发现事物间潜藏的关联关系。常利用关联规则技术对超市购物篮进行分析，随着数据挖掘技术的不断成熟，关联分析也逐渐被应用于网站分析、气象分析、社交媒体分析等方面。

1. 关联分析基本概念

在这里插入图片描述
将上表的每一行记录称为一个事务。每个事务由事务标识（TID）以及对应的项目组成。
如果项集X中包含可k个项目，就称X为k-项集。例如，TID为01的事务，就是一个2-项集，其中包含了啤酒和冻肉两个项目。

为了进一步进行关联分析，我们要将数据转换为表格格式或事物格式。
在这里插入图片描述

一个关联规则通常可以表示为：X→Y
X是关联规则的前项，Y是关联规则的后项，前后项目并不相关。
规则的前项可以包含一个或多个项目，而规则的后项一般只有一个项目。

2. 关联规则的有效性指标

2.1 基础性评价指标

2.11 支持度

在这里插入图片描述
分子：同时包含了前项X和后项Y的事务数量。
分母：数据集中事务总数量。
通常用于反映项集或规则的普遍程度。

2.22 置信度

在这里插入图片描述
分子：同时包含了前项X和后项Y的事务数量。
分母：前项X的事务数量。
实际上是给定前项X的前提下后项Y的条件概率。通常用于反映规则的可靠性。

一个合适的关联规则应该同时由较高的支持度和置信度。
如果关联规则有较高支持度而置信度较低，说明关联规则较弱。如果关联规则有较高置信度而支持度较低，说明规则普遍性较低，可能只是偶然事件，不具备应用推广的意义。
因此，为了生成合适的关联规则，通常需要分别设置最小支持度及最小置信度阈值。
有效的规则：
在这里插入图片描述

2.2 实用性指标

规则的有效并不代表真的具备实用性，为了能够进一步评估规则的效果，还需要结合其他实用性指标。

2.21 提升度

在这里插入图片描述
实际上是规则置信度和后项支持度的比值，反映了相比总体，后项Y受到前项X的影响程度。
当提升度＞1时，认为前项对后项具有正向影响；值越大，正向影响程度越高。
当提升度＜1时，认为前项对后项具有负向影响。

2.22 部署能力

在这里插入图片描述
部署能力是前项支持度和后项支持度的差值。它反映了有多少已经购买条件但是还没买购买结果的客户比例。

2.3 其他评估指标

2.31 置信度差

在这里插入图片描述
是规则置信度和后项支持度的绝对差值，与提升度一样，反映后项Y受到前项X的影响程度。值越大，说明后项和前项的关联越大。
选择该指标作为评估指标，将能够去除负关联规则。

2.32 置信度比率

在这里插入图片描述
是1减去提升度（若提升度＞1，则减去其倒数）的差值。
该指标更多地考虑不均匀分布的情况，将更容易保留负关联规则及稀有数据规则。

2.33 信息差

基于信息增量的测量，信息差越大，说明后项与前项的关联越大。

2.34 标准化卡方

用于检验前后项是否独立的统计量，该值在0-1之间。
值越大，前项和后项的关联性越大。

3. Apriori算法

数据挖掘中关联分析的核心算法。
Apriori算法的过程，一共可以分为3步：
（1）指定最小支持度及最小置信度；
（2）根据最小支持度生成频繁项集；
（3）基于频繁项集，根据最小置信度生成关联规则。

3.1 生成频繁项集

在这里插入图片描述

3.2 生成关联规则

当生成所有频繁项集后，就能够从中抽取规则。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。