数据挖掘算法----关联规则

最新推荐文章于 2024-05-31 16:54:13 发布

liff_lee

最新推荐文章于 2024-05-31 16:54:13 发布

阅读量2.8k

点赞数 2

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_38103546/article/details/81158998

版权

数据挖掘专栏收录该内容

29 篇文章 2 订阅

订阅专栏

简介

关联规则作为机器学习算法中的一个分类，其目的是在数据集中找出两个变量之间的关联关系，且这种相关关系在数据集中不能直观展现出来。

关联规则的分类

1、按处理的变量

布尔型：买啤酒=>买尿布

数值型：月收入5000元=>每月交通费800

2、按资料的抽象层次

单层关联规则：IBM台式机=>Sony打印机，一个细节数据上的单层关联规则；

多层关联规则：台式机=>sony打印机,，较高和细节层次之间的多层关联规则；

3、按涉及到的资料维数

单维关联规则：啤酒=>尿布，只涉及用户购买物品；

多维关联规则：性别：女=>职业：秘书，涉及两个属性的信息；

关联规则中的计算

1、支持度（support）

项集X,Y同时发生的概率成为关联规则的支持度（相对支持度），support(X=>Y)=P(X U Y)；

最小支持度：用户或者专家定义的一个衡量支持度的一个阈值，表示项集在统计意义上的最低重要性；该指标是建立强关联规则的第一个门槛；意义为通过最小阈值(minsup）的设定来剔除那些"出镜率"较低的无意义的规则，而保留出现较为频繁的项集所隐含的规则。即筛选出满足：support(A)>=minsup的项集A。

2、置信度（confidence）

表示在关联规则的先决条件X发生的条件下，关联结果Y发生的概率；即含有X的项集的条件下，同时含有Y的可能性，confidence(X=>Y) = P(Y|X)；

最小置信度：用户或者专家定义的一个衡量置信度的一个阈值，表示关联规则的最低可靠性；生成强关联规则的第二个门槛；同样，通过设置的最小阈值（mincon）进行筛选最终生成满足需要的强关联规则，因此，当产生频繁项集之后进一步选取满足confidence(X=>Y)>=mincon的规则，至此完成所需关联规则的生成。

3、提升度（lift）

表示在含有X的条件下同时含有Y的可能性与无条件下含有Y的可能性之比，即在Y自身出现的可能性P(Y)的基础上，X的出现对于Y的“出镜率”P(Y|X)的提升程度，lift(X=>Y) = P(Y|X)/P(Y) = confidence (X=>Y)/P(Y)；该指标和置信度同样衡量规则的重要性，可以看做置信度的一种互补指标。如果 lift = 1，表示X与Y相互独立，X对Y出现的可能性没有提升作用，其值越大（lift >1）表示X对Y的提升程度越大，也表示关联性越强。

相关概念

强关联规则：同时满足最小支持度阈值和最小置信度阈值的关联规则；

项集：项的集合，含有K个项的项集称为K项集，例如{面包，牛奶，香蕉}是一个三相集；

绝对支持度：项集出现的概率是所有包含项集的事务计数，也称为支持度计数；

频繁项集：若项集 I 满足预定义的最小支持度阈值，则 I 是频繁项集；

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘算法----关联规则

简介关联规则作为机器学习算法中的一个分类，其目的是在数据集中找出两个变量之间的关联关系，且这种相关关系在数据集中不能直观展现出来。关联规则的分类1、按处理的变量布尔型：买啤酒=&gt;买尿布数值型：月收入5000元=&gt;每月交通费8002、按资料的抽象层次单层关联规则：IBM台式机=&gt;Sony打印机，一个细节数据上的单层关联规则；多层关联规则：台式机=&g...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。