SAS EM（一）关联分析（数据+实战）

最新推荐文章于 2020-10-25 16:22:11 发布

路易三十六

最新推荐文章于 2020-10-25 16:22:11 发布

阅读量3.9k

点赞数 3

分类专栏： SAS 文章标签： SAS EM（一）关联分析 KULC 度量不平衡比IR 置信度支持度 Apriori 算法

本文链接：https://blog.csdn.net/luyi_weilin/article/details/108902560

版权

本文介绍了SAS EM中的关联分析，通过Apriori算法解释了支持度和置信度的概念，并展示了如何在SAS EM中进行实践操作。通过提升度和KULC度量以及不平衡比（IR）来判断关联关系的有效性，讨论了这些度量在处理零事务时的影响。

摘要由CSDN通过智能技术生成

SAS EM（一）关联分析

关联规则挖掘技术可以发现不同商品在消费者购买过程中的相关性。给定一组事务集合,其中每个事务是一个项目集;一个关联规则是形如 X ->Y 的蕴涵式, X 和 Y 表示项目集,且 X∩ Y = Φ, X 和 Y 分别称为关联规则 X-> Y 的前提和结论。规则 X->Y 的支持度(Support) 是事务集中包含 X 和 Y 的事务数与所有事务数之比,记为 support(X->Y) ;规则 X->Y 的置信度(Confidence) 是指包含 X 和 Y 的事务数与包含 X 的事务数之比, 记为 confidence ( X->Y) 。

支持度用于衡量所发现规则的统计重要性,而置信度用于衡量关联规则的可信程度。

一般来说,只有支持度和置信度均高的关联规则才可能是消费者感兴趣的、有用的规则。

以下例子参考https://blog.csdn.net/qq_36523839/article/details/82191677

（为了讲解关联分析中的支持度和置信度）

支持度：一个项集的支持度被定义为数据集中包含该项集的记录所占的比例，上图中，豆奶的支持度为4/5，（豆奶、尿布）为3/5。支持度是针对项集来说的，因此可以定义一个最小支持度，只保留大于最小支持度的项集。

可信度（置信度）：针对如{尿布}->{葡萄酒}这样的关联规则来定义的。计算为支持度{尿布，葡萄酒}/支持度{尿布}，其中{尿布，葡萄酒}的支持度为3/5，{尿布}的支持度为4/5，所以“尿布->葡萄酒”的可行度为3/4=0.75，这意味着尿布的记录中，我们的规则有75%都适用。

Apriori 算法

对于上图，要计算 0,3 的支持度，直接的想法是遍历每条记录，统计包含有 0 和 3 的记录的数量，使用该数量除以总记录数，就可以得到支持度。而这只是针对单个集合 0,3. 要获得每种可能集合的支持度就需要多次重复上述过程。对于上图，虽然仅有4中物品，也需要遍历数据15

最低0.47元/天解锁文章

路易三十六

关注

3
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
2
评论
SAS EM（一）关联分析（数据+实战）

SAS EM（一）关联分析关联规则挖掘技术可以发现不同商品在消费者购买过程中的相关性。给定一组事务集合,其中每个事务是一个项目集;一个关联规则是形如 X ->Y 的蕴涵式, X 和 Y 表示项目集,且 X∩ Y = Φ, X 和 Y 分别称为关联规则 X-> Y 的前提和结论。规则 X->Y 的支持度(Support) 是事务集中包含 X 和 Y 的事务数与所有事务数之比,记为 support(X->Y) ;规则 X->Y 的置信度(Confidence) 是指包含 X 和
复制链接

扫一扫