SAS EM(一)关联分析(数据+实战)

本文介绍了SAS EM中的关联分析,通过Apriori算法解释了支持度和置信度的概念,并展示了如何在SAS EM中进行实践操作。通过提升度和KULC度量以及不平衡比(IR)来判断关联关系的有效性,讨论了这些度量在处理零事务时的影响。
摘要由CSDN通过智能技术生成

SAS EM(一)关联分析

关联规则挖掘技术可以发现不同商品在消费者购买过程中的相关性。给定一组事务集合,其中每个事务是一个项目集;一个关联规则是形如 X ->Y 的蕴涵式, X 和 Y 表示项目集,且 X∩ Y = Φ, X 和 Y 分别称为关联规则 X-> Y 的前提和结论。规则 X->Y 的支持度(Support) 是事务集中包含 X 和 Y 的事务数与所有事务数之比,记为 support(X->Y) ;规则 X->Y 的置信度(Confidence) 是指包含 X 和 Y 的事务数与包含 X 的事务数之比, 记为 confidence ( X->Y) 。

支持度用于衡量所发现规则的统计重要性,而置信度用于衡量关联规则的可信程度。

一般来说,只有支持度和置信度均高的关联规则才可能是消费者感兴趣的、有用的规则。

 

以下例子参考https://blog.csdn.net/qq_36523839/article/details/82191677

(为了讲解关联分析中的支持度和置信度)

 

支持度:一个项集的支持度被定义为数据集中包含该项集的记录所占的比例,上图中,豆奶的支持度为4/5,(豆奶、尿布)为3/5。支持度是针对项集来说的,因此可以定义一个最小支持度,只保留大于最小支持度的项集。

可信度(置信度):针对如{尿布}->{葡萄酒}这样的关联规则来定义的。计算为 支持度{尿布,葡萄酒}/支持度{尿布},其中{尿布,葡萄酒}的支持度为3/5,{尿布}的支持度为4/5,所以“尿布->葡萄酒”的可行度为3/4=0.75,这意味着尿布的记录中,我们的规则有75%都适用。

 

Apriori  算法

对于上图,要计算 0,3 的支持度,直接的想法是遍历每条记录,统计包含有 0 和 3 的记录的数量,使用该数量除以总记录数,就可以得到支持度。而这只是针对单个集合 0,3. 要获得每种可能集合的支持度就需要多次重复上述过程。对于上图,虽然仅有4中物品,也需要遍历数据15

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

路易三十六

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值