数据挖掘第7章关联分析：高级概念

最新推荐文章于 2023-06-04 10:06:53 发布

爱吃草莓的西瓜酱

最新推荐文章于 2023-06-04 10:06:53 发布

阅读量613

点赞数 2

分类专栏：数据挖掘导论文章标签：数据挖掘关联分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41045344/article/details/90969418

版权

第7章关联分析：高级概念

本章就扩展到具有二元属性、分类属性和连续属性的数据集。
扩充到包含序列和图形
如何扩展传统的Apriori算法来发现这些模式

7.1 处理分类属性

将分类属性和对称二元属性转换成项，就可以用已有的关联规则挖掘算法；将每个不同的属性-值对创建一个新的项（即转化为非对称二元属性）来实现
将关联分析用于二元化后的数据时，需要考虑如下问题：
- 合并不太频繁的属性值变成一个称作其他的类别。
- 删除某些出现频率很高的属性；或者使用处理具有宽支持度的极差数据集的技术
- 避免产生包含多个来自同一个属性的项的候选项集。例如：不必产生诸如{州=X，州=Y，…}的候选项集，因为该项集支持度为零。

7.2 处理连续属性

量化关联规则：包含连续属性的关联规则通常
三类方法对连续数据进行关联分析
- 基于离散化的方法
- 基于统计学的方法
- 非离散化方法

7.1 基于离散化的方法

离散化技术：等宽、等频、聚类
区间宽度问题：
- 区间太宽，缺乏置信度
- 区间太窄，缺乏支持度
区间宽度解决方法：考虑邻近区间的每种可能的分组（即等步长的渐渐加大区宽），但这也导致了：
- 计算开销非常大 —— 可以使用最大支持度阈值，防止创建对应于非常宽的区间的项，并减少项集的数量
- 提取许多冗余规则

7.2 基于统计学的方法

量化关联规则可以推断总体的统计性质
包括规则产生和规则确认
规则产生：先找到需要关注的目标属性，保留目标属性，对其余的分类或连续属性非对称二元化，然后用已有算法提取频繁项集，每个频繁项集确定了一个总体，计算每个确定总体的统计量（平均数、方差等）；这样提取的量化关联规则（后件是连续的规则）不能使用置信度，那

最低0.47元/天解锁文章

爱吃草莓的西瓜酱

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘第7章关联分析：高级概念

第7章关联分析：高级概念本章就扩展到具有二元属性、分类属性和连续属性的数据集。扩充到包含序列和图形如何扩展传统的Apriori算法来发现这些模式7.1 处理分类属性将分类属性和对称二元属性转换成项，就可以用已有的关联规则挖掘算法；将每个不同的属性-值对创建一个新的项（即转化为非对称二元属性）来实现将关联分析用于二元化后的数据时，需要考虑如下问题：合并不太频繁的属性值...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。