三十七、数据泛化(面向属性的归纳)

1. 数据泛化:面向属性的归纳

从概念上讲,数据立方体可以看做一种多维数据泛化。数据泛化通过把相对低层的值(例如,属性年龄的数值)用较高层概念(例如,青年、中年和老年)替换来汇总数据。

  • 数据特征化的面向属性的归纳
  • 面向属性归纳的有效实现
  • 类比较的面向属性归纳

2 数据特征的面向属性的归纳

2.1 面向属性的归纳的基本步骤

  1. 数据聚焦,获得初始数据关系
  2. 进行面向属性的归纳

基本操作是数据泛化,对有大量不同的属性,进行一下操作:

  • 属性删除
  • 属性泛化
  • 属性泛化控制

2.2 数据聚焦

  • 目的是获得跟任务相关的数据集,包括属性或维,在DMQL中它们由in relevance to子句表示。

  • 获取Big-University数据库中研究生的数据

      use Big_University_DB
      	select name,gender,major,birth_place,birth_date
      	from student
      	To Science in “graduate”
      where status in “graduate”  
    
  • 用户可能引进太多的属性

2.3 数据泛化

  • 属性删除的使用规则:对初始工作关系中具有大量不同值的属性,符合一下情况,应使用属性删除。
  • 在此属性上没有泛化操作符(比如该属性没有定义相关的感念分层)
  • 该属性的较高层概念用其他属性表示。如:属性是street,它的高层次概念用属性<city, province_or_state, country>

2.4 属性概化控制

  • 属性概化的使用规则:如果初始工作关系中的某个属性由大量不同值,且该属性上存在概化操作符,则使用该泛化操作对该属性进行数据泛化操作。
  • 什么是“具有大量的不同值”?要将属性概化到多高的抽象层?
  • 属性泛化控制的两种常用方法:
  • 属性泛化临界值控制:对所有属性设置一个泛化临界值或对每个属性分别设置一个临界值。

3 面向属性归纳的有效实现

3.1 基本步骤

  • 第一步进行的是关系查询,把任务相关的数据收集到工作关系表W中。
  • 第二步收集初始关系上的统计量。这最多需要扫描一次该关系。
  • 第三部导出主观系P。通过扫描工作关系的每个元组并把广义元祖插入到P中完成
    在这里插入图片描述

4 类比较的面向属性归纳

4.1 类比较的面向属性归纳的过程
在许多应用中,用户可能对单个类的概念或特征不感兴趣,而是希望挖掘一种描述,它将一个类与其他课比较的类相区分

  • 数据收集:通过查询处理收集数据库中相关数据,并把它们划分成一个目标类和对比类。
  • 维相关分析:如果有多个维,则应当在这些类上进行维相关分析。
  • 同步泛化:泛化在目标类上进行,泛化到用户或领域专家指定的维阈值控制的层,产生主目标类关系。
  • 导出类比较的表示:结果类比较描述可以用表、图或规则的形式可视化。

4.2 挖掘类比较

假设我们想比较Big_University的研究生和本科生的一般性质,给定了属性name,gender,major,
birth_place,birth_date,residence,phone#和gpa。

在这里插入图片描述

首先将该查询转换成两个关系查询,收集两个任务相关的集合:一个是初始目标类工作关系,另一个是初始对比类工作关系。

在这里插入图片描述
合:一个是初始目标类工作关系,另一个是初始对比类工作关系。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值