1. 数据泛化:面向属性的归纳
从概念上讲,数据立方体可以看做一种多维数据泛化。数据泛化通过把相对低层的值(例如,属性年龄的数值)用较高层概念(例如,青年、中年和老年)替换来汇总数据。
- 数据特征化的面向属性的归纳
- 面向属性归纳的有效实现
- 类比较的面向属性归纳
2 数据特征的面向属性的归纳
2.1 面向属性的归纳的基本步骤
- 数据聚焦,获得初始数据关系
- 进行面向属性的归纳
基本操作是数据泛化,对有大量不同的属性,进行一下操作:
- 属性删除
- 属性泛化
- 属性泛化控制
2.2 数据聚焦
-
目的是获得跟任务相关的数据集,包括属性或维,在DMQL中它们由in relevance to子句表示。
-
获取Big-University数据库中研究生的数据
use Big_University_DB select name,gender,major,birth_place,birth_date from student To Science in “graduate” where status in “graduate”
-
用户可能引进太多的属性
2.3 数据泛化
- 属性删除的使用规则:对初始工作关系中具有大量不同值的属性,符合一下情况,应使用属性删除。
- 在此属性上没有泛化操作符(比如该属性没有定义相关的感念分层)
- 该属性的较高层概念用其他属性表示。如:属性是street,它的高层次概念用属性<city, province_or_state, country>
2.4 属性概化控制
- 属性概化的使用规则:如果初始工作关系中的某个属性由大量不同值,且该属性上存在概化操作符,则使用该泛化操作对该属性进行数据泛化操作。
- 什么是“具有大量的不同值”?要将属性概化到多高的抽象层?
- 属性泛化控制的两种常用方法:
- 属性泛化临界值控制:对所有属性设置一个泛化临界值或对每个属性分别设置一个临界值。
3 面向属性归纳的有效实现
3.1 基本步骤
- 第一步进行的是关系查询,把任务相关的数据收集到工作关系表W中。
- 第二步收集初始关系上的统计量。这最多需要扫描一次该关系。
- 第三部导出主观系P。通过扫描工作关系的每个元组并把广义元祖插入到P中完成
4 类比较的面向属性归纳
4.1 类比较的面向属性归纳的过程
在许多应用中,用户可能对单个类的概念或特征不感兴趣,而是希望挖掘一种描述,它将一个类与其他课比较的类相区分
- 数据收集:通过查询处理收集数据库中相关数据,并把它们划分成一个目标类和对比类。
- 维相关分析:如果有多个维,则应当在这些类上进行维相关分析。
- 同步泛化:泛化在目标类上进行,泛化到用户或领域专家指定的维阈值控制的层,产生主目标类关系。
- 导出类比较的表示:结果类比较描述可以用表、图或规则的形式可视化。
4.2 挖掘类比较
假设我们想比较Big_University的研究生和本科生的一般性质,给定了属性name,gender,major,
birth_place,birth_date,residence,phone#和gpa。
首先将该查询转换成两个关系查询,收集两个任务相关的集合:一个是初始目标类工作关系,另一个是初始对比类工作关系。
合:一个是初始目标类工作关系,另一个是初始对比类工作关系。