《数据挖掘概念与技术》学习笔记第6章(6/10)挖掘大型数据库中的关联规则

最新推荐文章于 2023-05-05 21:08:17 发布

feliciafay

最新推荐文章于 2023-05-05 21:08:17 发布

阅读量1.4k

点赞数

分类专栏： DataMining_MachineLearning 文章标签：数据挖掘数据库算法 ibm video fp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/feliciafay/article/details/5861419

版权

DataMining_MachineLearning 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

项目集：项的集合，记为I。牛奶，面包，苹果，etc

事务：事务T是I中的一组项目的集合，每个事务都有个一个TID作为标识符号。

项目集X的支持度

Sup(X)=Count(X)/|D|

关联规则X->Y的支持度

Sup(X->Y)=Count(X->Y)/|D|

关联规则X->Y的置信度

Conf(X->Y)=Count( X->Y)/Count(X)

步骤：

1 找出所有频繁项集

2 有频繁项集产生强关联规则

算法之Apriori算法

核心思想

频繁1-项集then关联规则then剪枝
then频繁2-项集then关联规则then剪枝
then频繁3-项集then关联规则then剪枝
……

重复此过程直到做不下去为止

算法实现 以后单独写出

改进措施 FP(Frequent Pattern Growth) 频繁模式增长

多层关联规则

基本思想：

自顶向下，在每个概念层找寻频繁项集。然后①在该层发掘关联规则②适当剪枝，向下进入更具体的一层。

可选方案：

1 使用一致的最小支持度

2使用递减的最小支持度

3 逐层独立

4 层交叉单项过滤

5 曾交叉k-项集过滤

多维关联规则

涉及两个或者多个维的关联规则

e.g． age(X, “IBM desktop computer”)^occupation(“drive”r)=>buys(X, ”laptop”)

多维关联规则注意

强关联规则不一定是有趣的。比如，

buys(X, “computer games”)=>buys(X, “videos”) [Support=40%, confidence= 66%]

推导出来的结果可能是满足支持度和置信度的，但是却不是有趣的。

因为可能实际上不购买computer games而去购买video的人有75%，而同时购买了computer games和videos的人只有66%，说明其实computer games和videos是负相关。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《数据挖掘概念与技术》学习笔记第6章(6/10)挖掘大型数据库中的关联规则

<br /><br />项目集：项的集合，记为I。牛奶，面包，苹果，etc<br />事务：事务T是I中的一组项目的集合，每个事务都有个一个TID作为标识符号。<br /> <br />项目集X的支持度<br /> Sup(X)=Count(X)/|D|<br />关联规则X->Y的支持度<br /> Sup(X->Y)=Count(X->Y)/|D|<br />关联规则X->Y的置信度<br />Conf(X->Y)=Count( X->Y)/Count(X)<br /
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。