关联规则-web数据挖掘学习2

最新推荐文章于 2020-12-16 13:18:28 发布

小叶纷飞

最新推荐文章于 2020-12-16 13:18:28 发布

阅读量1.2k

点赞数

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oTongHua12345/article/details/51326580

版权

数据挖掘专栏收录该内容

3 篇文章 0 订阅

订阅专栏

关联规则ASSOCIATION RULE

文本中应用：单词间的并发关系

特点：不考虑序列顺序，而序列挖掘考虑顺序

基本概念：

一个关联规则是一个如下形式的蕴含关系： x->y，且无交集

支持计数

衡量关联规则强度的指标：

支持度：如果支持度太小，表明该规则很可能只是偶然发生，覆盖的食物很少无价值。

置信度：可预测度，如果置信度太低，表示很难可靠的做出该规则推断。

目标找出所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则

算法：Apriori算法 FP-树频集算法

Apriority算法：其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递推的方法。

可能产生大量的候选集,以及可能需要重复扫描数据库，是Apriori算法的两大缺点。

是发现频繁项集的一种方法原理如果某个项集是频繁的，那么他的所有自己也是频繁的

TIP:1/生成所有单个物品项目集列表：支持度高于最小支持度

2、扫描交易记录来查看哪些项集满足最小支持度要求，不满足的项集去掉

3、从频繁项目集中生成所有的可信关联规则，置信度大于最小置信度。对剩下的集合进行组合以升恒包含两个元素的项集

4、重新扫描交易记录，去掉不满足最小支持度的项集，重复直到所有项集都被去掉

FP-树频集算法，J. Han等提出了不产生候选挖掘频繁项集的方法采用分而治之的策略，在经过第一遍扫描之后，把数据库中的频集压缩进一棵频繁模式树（FP-tree），同时依然保留其中的关联信息，随后再将FP-tree分化成一些条件库，每个库和一个长度为1的频集相关，然后再对这些条件库分别进行挖掘。

关联规则发展方向：扩展经典关联规则能够解决问题的范围，改善经典关联规则挖掘算法效率和规则兴趣性。

学习入门http://www.36dsj.com/archives/14243

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关联规则-web数据挖掘学习2

关联规则ASSOCIATION RULE文本中应用：单词间的并发关系特点：不考虑序列顺序，而序列挖掘考虑顺序基本概念：一个关联规则是一个如下形式的蕴含关系：x->y，且无交集支持计数衡量关联规则强度的指标：支持度：如果支持度太小，表明该规则很可能只是偶然发生，覆盖的食物很少无价值。置信度：可预测度，如果置信度太低，表示很难可靠的做出该规则推断。目标找出所
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。