数据挖掘之关联分析四(连续属性处理)

本文探讨了在数据挖掘中处理连续属性的三种方法:基于离散化、统计学和非离散化。离散化常用但可能面临区间选择问题;统计学方法通过目标属性的统计检验产生和确认规则;非离散化方法关注连续属性间的直接联系,如在文本挖掘中的词关联。
摘要由CSDN通过智能技术生成

处理连续属性

挖掘连续属性可能揭示数据的内在联系,包含连续属性的关联规则通常称作量化关联规则(quantitative association rule)。

主要讨论三种对连续数据进行关联分析的方法
1. 基于离散化的方法
2. 基于统计学的方法
3. 非离散化方法

基于离散化方法

离散化是处理连续属性最常用的方法,这种方法将连续属性的邻近值分组,形成有限个区间,例如,年龄属性可以形成如下区间
年龄 [12, 16), 年龄 [16, 20)……
离散化可以使用任意技术(如等区间宽度、等频率、等熵、或聚类)实现。

属性离散化一个关键参数时用于划分每个属性的区间。通常这个参数由用户提供,单可能会遇到下面问题
1. 如果区间太宽,则肯能因为缺乏置信度而丢失某些模式。

R1[16,20)=s=4.4%c=84.6%

尽管具有较高的支持度,但是因为较宽的区间导致规则的置信度都小于阈值。
2. 如果区间太窄,则可能因为缺乏支持度而丢失某些模式。
3. 当区间不合适时,可能导致有些规则被分裂成子规则,如果自规则的置信度和支持度都足够高,就可以通过聚类来恢复原来的规则,但是如果置信度或者支持度较低,则不能恢复原来的规则。

处理这些问题的一个方法是通过考虑邻近区间的每个分组,但是也会导致下面的计算问题
1. 计算开销大
2. 提取许多冗余规则,如

R3[16,20)=

R4[16,24)=

其中
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值