[数据挖掘]关联规则学习笔记

最新推荐文章于 2024-06-21 15:16:56 发布

mapw1993

最新推荐文章于 2024-06-21 15:16:56 发布

阅读量7.2k

点赞数 1

分类专栏：机器学习与数据挖掘文章标签：数据挖掘算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010536377/article/details/50586299

版权

本文详细介绍了关联规则的学习笔记，包括频繁项集的产生、基于置信度的剪枝、频繁项集的紧凑表示，特别是FP增长算法和FP树表示法。关联规则的强度由支持度和置信度衡量，挖掘过程涉及频繁项集产生和规则生成，其中先验原理和基于置信度的剪枝策略是优化算法性能的关键。

摘要由CSDN通过智能技术生成

关联规则
- 频繁项集的产生
  - 规则产生
  - 基于置信度的剪枝
- 频繁项集的紧凑表示
  - 41 极大频繁项集
  - 42 闭频繁项集
6 FP增长算法
- 61 FP树表示法

关联规则

参考资料：《数据挖掘导论》人民邮电出版社Pang-Ning Tan等著

关联规则是形如 $X \rightarrow Y$ 的蕴含表达式，其中X和Y是不相交的项集。即 $X \cap Y=\emptyset$ 。关联规则的强度可以用它的支持度（support）和置信度（confidence）度量。支持度确定规则可以用于给定数据集的频繁程度。而置信度确定Y在包含X的事务中出现的频繁程度。

支持度

支持度是一种重要度量，因为支持度很低的规则可能只是偶然出现。从商务角度来看，低支持度的规则多半也是无意义的，因为对顾客很少同时购买的商品进行促销可能好处也并不大。因此，支持度通常用来删去哪些无意义的规则。此外，支持度还有一种期望的性质，可以用于关联规则的有效发现。

置信度

置信度度量通过规则进行推理具有可靠性。对于给定的规则 $X \rightarrow Y$ ，置信度越高，Y在包含X的事务中出现的可能性就越高。

应当小心解释关联规则分析的结果，由关联规则作出的推论并不必然蕴含因果关系。它只表示规则前件和后件中的同时出现。

定义关联规则发现
给定事务的集合T，关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf的所有规则，其实minsup和minconf是对应的支持度和置信度阀值。

挖掘关联规则的一种原始方法是，计算每个可能规则的支持度和置信度。但是这种方法的代价更高。提高关联规则挖掘算法性能的第一步是拆分支持度和置信度要求。

大部分关联规则挖掘算法通常采用的一种策略是，将关联规则挖掘任务分解成如下2个子任务。
（1）频繁项集产生：其目标是发现满足最小支持度阀值的所有项集，这些项集称作频繁项集；
（2）规则的产生：其目标是从上一步发现的频繁项集中提取所有高置信度的规则，这些规则称作强规则。

通常，频繁项集产生所需的计算开销远大于产生规则所需的开销。

频繁项集的产生

格结构常常用来枚举所有可能的项集。一般来说，一个包含

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。