- 之前的项是非对称的二元属性,项组成事务,并且只有频繁模式是有用的;接下来探索的不同:
- 处理分类属性:
- 将分类属性和对称二元属性转换成项,就可以用已有的关联规则挖掘算法;将每个不同的属性-值对创建一个新的项(即转化为非对称二元属性)来实现
- 对于二元化后的数据,需要考虑:
- 有些属性值不够频繁,特别是具有很多可能属性值的分类属性;不能降低阈值,可以将相关的属性值分组,形成少数类别,或者将不频繁的属性值聚合为“其他”类别
- 部分属性值的频率很高,导致部分规则时冗余的,高频繁的项对应属性的典型值,对实际信息没有很多帮助;在使用算法前,去除“默认项”或者通过h置信度,发现<hc的规则去除(也可以发现宽的项的支持度值域的数据集(规则))
- 每个事务的宽度等于原始数据中属性值个数的和,计算开销大,应该避免产生包含多个来自同一属性的项的候选项集(对属性具有单一属性值来说,这是不可能的)
- 处理连续属性:包含连续属性的关联规则即量化关联规则
- 基于离散化的方法:最常见,将连续属性的邻近值分组,形成有限个区间;离散的区间看作分类属性,映射到非对称的二元属性;连续属性离散化问题是划分区间数,可以等宽、相对于具体事务的等频率、聚类(老中青年龄分区间)等;
- 区间宽度问题:
- 区间太宽,缺乏置信度
- 区间太窄,
- 区间宽度问题:
- 基于离散化的方法:最常见,将连续属性的邻近值分组,形成有限个区间;离散的区间看作分类属性,映射到非对称的二元属性;连续属性离散化问题是划分区间数,可以等宽、相对于具体事务的等频率、聚类(老中青年龄分区间)等;
第七章(1) 关联分析:高级概念
最新推荐文章于 2023-06-04 10:06:53 发布
本文深入探讨关联规则挖掘中的高级概念,包括处理分类和连续属性。对于分类属性,通过转化成非对称二元属性进行处理;对于连续属性,采用离散化方法,如等宽、等频率划分区间。此外,介绍了处理概念分层的方法,以及序列模式发现的挑战和约束,如时限、最大跨度、最小间隔和最大间隔约束,以及不同的支持度计数方案。
摘要由CSDN通过智能技术生成