处理连续属性
挖掘连续属性可能揭示数据的内在联系,包含连续属性的关联规则通常称作量化关联规则(quantitative association rule)。
主要讨论三种对连续数据进行关联分析的方法
1. 基于离散化的方法
2. 基于统计学的方法
3. 非离散化方法
基于离散化方法
离散化是处理连续属性最常用的方法,这种方法将连续属性的邻近值分组,形成有限个区间,例如,年龄属性可以形成如下区间
年龄 ∈ [12, 16), 年龄 ∈ [16, 20)……
离散化可以使用任意技术(如等区间宽度、等频率、等熵、或聚类)实现。
属性离散化一个关键参数时用于划分每个属性的区间。通常这个参数由用户提供,单可能会遇到下面问题
1. 如果区间太宽,则肯能因为缺乏置信度而丢失某些模式。
R′1:年龄∈[16,20)→网上聊天=是(s=4.4%,c=84.6%)
尽管具有较高的支持度,但是因为较宽的区间导致规则的置信度都小于阈值。
2. 如果区间太窄,则可能因为缺乏支持度而丢失某些模式。
3. 当区间不合适时,可能导致有些规则被分裂成子规则,如果自规则的置信度和支持度都足够高,就可以通过聚类来恢复原来的规则,但是如果置信度或者支持度较低,则不能恢复原来的规则。
处理这些问题的一个方法是通过考虑邻近区间的每个分组,但是也会导致下面的计算问题
1. 计算开销大
2. 提取许多冗余规则,如
R3:年龄∈[16,20)→网上聊天=是
R4:年龄∈[16,24)→网上聊天=是
其中