[数据挖掘]关联规则学习笔记

本文详细介绍了关联规则的学习笔记,包括频繁项集的产生、基于置信度的剪枝、频繁项集的紧凑表示,特别是FP增长算法和FP树表示法。关联规则的强度由支持度和置信度衡量,挖掘过程涉及频繁项集产生和规则生成,其中先验原理和基于置信度的剪枝策略是优化算法性能的关键。
摘要由CSDN通过智能技术生成

关联规则

参考资料:《数据挖掘导论》人民邮电出版社Pang-Ning Tan等著

关联规则是形如 XY 的蕴含表达式,其中X和Y是不相交的项集。即 XY= 。关联规则的强度可以用它的支持度(support)和置信度(confidence)度量。支持度确定规则可以用于给定数据集的频繁程度。而置信度确定Y在包含X的事务中出现的频繁程度。

支持度

支持度是一种重要度量,因为支持度很低的规则可能只是偶然出现。从商务角度来看,低支持度的规则多半也是无意义的,因为对顾客很少同时购买的商品进行促销可能好处也并不大。因此,支持度通常用来删去哪些无意义的规则。此外,支持度还有一种期望的性质,可以用于关联规则的有效发现。

置信度

置信度度量通过规则进行推理具有可靠性。对于给定的规则 XY ,置信度越高,Y在包含X的事务中出现的可能性就越高。

应当小心解释关联规则分析的结果,由关联规则作出的推论并不必然蕴含因果关系。它只表示规则前件和后件中的同时出现。

定义 关联规则发现
给定事务的集合T,关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf的所有规则,其实minsup和minconf是对应的支持度和置信度阀值。

挖掘关联规则的一种原始方法是,计算每个可能规则的支持度和置信度。但是这种方法的代价更高。提高关联规则挖掘算法性能的第一步是拆分支持度和置信度要求。

大部分关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解成如下2个子任务。
(1)频繁项集产生:其目标是发现满足最小支持度阀值的所有项集,这些项集称作频繁项集;
(2)规则的产生:其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称作强规则。

通常,频繁项集产生所需的计算开销远大于产生规则所需的开销。

频繁项集的产生

格结构常常用来枚举所有可能的项集。一般来说,一个包含

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值