三十七、数据泛化（面向属性的归纳）

最新推荐文章于 2024-01-05 00:57:04 发布

智享AI

最新推荐文章于 2024-01-05 00:57:04 发布

阅读量2.8k

点赞数

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/guangzhanblog/article/details/108245602

版权

数据挖掘专栏收录该内容

42 篇文章 22 订阅

订阅专栏

1. 数据泛化：面向属性的归纳

从概念上讲，数据立方体可以看做一种多维数据泛化。数据泛化通过把相对低层的值（例如，属性年龄的数值）用较高层概念（例如，青年、中年和老年）替换来汇总数据。

数据特征化的面向属性的归纳
面向属性归纳的有效实现
类比较的面向属性归纳

2 数据特征的面向属性的归纳

2.1 面向属性的归纳的基本步骤

数据聚焦，获得初始数据关系
进行面向属性的归纳

基本操作是数据泛化，对有大量不同的属性，进行一下操作：

属性删除
属性泛化
属性泛化控制

2.2 数据聚焦

目的是获得跟任务相关的数据集，包括属性或维，在DMQL中它们由in relevance to子句表示。

获取Big-University数据库中研究生的数据

  use Big_University_DB
  	select name,gender,major,birth_place,birth_date
  	from student
  	To Science in “graduate”
  where status in “graduate”

用户可能引进太多的属性

2.3 数据泛化

属性删除的使用规则：对初始工作关系中具有大量不同值的属性，符合一下情况，应使用属性删除。
在此属性上没有泛化操作符（比如该属性没有定义相关的感念分层）
该属性的较高层概念用其他属性表示。如：属性是street，它的高层次概念用属性<city, province_or_state, country>

2.4 属性概化控制

属性概化的使用规则：如果初始工作关系中的某个属性由大量不同值，且该属性上存在概化操作符，则使用该泛化操作对该属性进行数据泛化操作。
什么是“具有大量的不同值”？要将属性概化到多高的抽象层？
属性泛化控制的两种常用方法：
属性泛化临界值控制：对所有属性设置一个泛化临界值或对每个属性分别设置一个临界值。

3 面向属性归纳的有效实现

3.1 基本步骤

第一步进行的是关系查询，把任务相关的数据收集到工作关系表W中。
第二步收集初始关系上的统计量。这最多需要扫描一次该关系。
第三部导出主观系P。通过扫描工作关系的每个元组并把广义元祖插入到P中完成

4 类比较的面向属性归纳

4.1 类比较的面向属性归纳的过程
在许多应用中，用户可能对单个类的概念或特征不感兴趣，而是希望挖掘一种描述，它将一个类与其他课比较的类相区分

数据收集：通过查询处理收集数据库中相关数据，并把它们划分成一个目标类和对比类。
维相关分析：如果有多个维，则应当在这些类上进行维相关分析。
同步泛化：泛化在目标类上进行，泛化到用户或领域专家指定的维阈值控制的层，产生主目标类关系。
导出类比较的表示：结果类比较描述可以用表、图或规则的形式可视化。

4.2 挖掘类比较

假设我们想比较Big_University的研究生和本科生的一般性质，给定了属性name,gender,major,
birth_place,birth_date,residence,phone#和gpa。

在这里插入图片描述

首先将该查询转换成两个关系查询，收集两个任务相关的集合：一个是初始目标类工作关系，另一个是初始对比类工作关系。

在这里插入图片描述
合：一个是初始目标类工作关系，另一个是初始对比类工作关系。

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
三十七、数据泛化（面向属性的归纳）

1. 数据泛化：面向属性的归纳从概念上讲，数据立方体可以看做一种多维数据泛化。数据泛化通过把相对低层的值（例如，属性年龄的数值）用较高层概念（例如，青年、中年和老年）替换来汇总数据。数据特征化的面向属性的归纳面向属性归纳的有效实现类比较的面向属性归纳2 数据特征的面向属性的归纳2.1 面向属性的归纳的基本步骤数据聚焦，获得初始数据关系进行面向属性的归纳基本操作是数据泛化，对有大量不同的属性，进行一下操作：属性删除属性泛化属性泛化控制2.2 数据聚焦目的是获得跟任务
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。