第七章(1) 关联分析:高级概念

本文深入探讨关联规则挖掘中的高级概念,包括处理分类和连续属性。对于分类属性,通过转化成非对称二元属性进行处理;对于连续属性,采用离散化方法,如等宽、等频率划分区间。此外,介绍了处理概念分层的方法,以及序列模式发现的挑战和约束,如时限、最大跨度、最小间隔和最大间隔约束,以及不同的支持度计数方案。
摘要由CSDN通过智能技术生成
  1. 之前的项是非对称的二元属性,项组成事务,并且只有频繁模式是有用的;接下来探索的不同:
  2. 处理分类属性:
    1. 将分类属性和对称二元属性转换成项,就可以用已有的关联规则挖掘算法;将每个不同的属性-值对创建一个新的项(即转化为非对称二元属性)来实现
    2. 对于二元化后的数据,需要考虑:
      1. 有些属性值不够频繁,特别是具有很多可能属性值的分类属性;不能降低阈值,可以将相关的属性值分组,形成少数类别,或者将不频繁的属性值聚合为“其他”类别
      2. 部分属性值的频率很高,导致部分规则时冗余的,高频繁的项对应属性的典型值,对实际信息没有很多帮助;在使用算法前,去除“默认项”或者通过h置信度,发现<hc的规则去除(也可以发现宽的项的支持度值域的数据集(规则))
      3. 每个事务的宽度等于原始数据中属性值个数的和,计算开销大,应该避免产生包含多个来自同一属性的项的候选项集(对属性具有单一属性值来说,这是不可能的)
  3. 处理连续属性:包含连续属性的关联规则即量化关联规则
    1. 基于离散化的方法:最常见,将连续属性的邻近值分组,形成有限个区间;离散的区间看作分类属性,映射到非对称的二元属性;连续属性离散化问题是划分区间数,可以等宽、相对于具体事务的等频率、聚类(老中青年龄分区间)等;
      1. 区间宽度问题:
        1. 区间太宽,缺乏置信度
        2. 区间太窄,
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值