数仓知识10_数据泛化-CSDN博客

本文链接：https://blog.csdn.net/qq_40233706/article/details/103605974

数据泛化（面向属性的归纳；个性–>一般化）
1.定义
数据泛化：把较低层次的概念层（例如：年龄的数值范围）用较高层次的概念（例如：青年、中年和老年）替换来汇总数据。或者通过减少维度在设计较少维度的概念空间汇总数据（例如汇总学生组群时，删除生日和电话号码属性）

2.两种泛化方法
(1)基于数据立方体的数据聚集（data focusing)：
a.复杂数据类型和聚集
数据仓库和OLAP工具基于多维数据模型，将数据看书数据立方形式，由维（或属性）和度量（聚集函数）组成。然而许多OLAP系统都限制维是非数值数据，而度量是数值数据。数据库可能包括各种类型的属性，包括数值的，非数值的、空闲的、文本的或者图像的。

b.用户控制和自动处理
数仓中的联机分析处理是用户控制的过程。维的选择和OLAP操作（上卷、下钻、切片、切块）等的使用都是由用户指挥和控制。

（2）面向属性的归纳
数据库查询手机数据–>根据属性不同值进行泛化，一般采用两种方式：

属性删除:初始工作某个属性由大量不同值，但是该属性没有泛化操作符或他的较高层概念用其他属性表示

属性泛化：初始工作的某个属性有大量不同值，并且该属性上存在泛化操作符的集合，应当选择一个泛化操作符，并将它用于该属性。

总结：属性有大量不同值应当进一步泛化。

3.泛化控制
属性泛化太高–导致过分泛化，产生无用信息

泛化不足–>信息太少

方法一：属性泛化阈值控制
设定属性阈值，通常取值2~8，根据实际值可以上钻或者下钻调整

方法二：广义关系阈值控制
设置元组个数，通常10~30

4.面向属性归纳的实现过程
（1）算法的第一步基本是关系查询，把任务相关的数据收集到工作关系W中。其有效性依赖于所用的查询处理方法。

（2）收集初始关系上的统计量。这最多需要扫描一次该关系。

（3）导出主关系P通过扫描工作关系的每个元组并吧广义元组插入到P中完成。

5.类比较的面向属性归纳
（1）类比较的过程

a.数据收集：通过查询处理收集数据库中的相关数据，并把它划分成一个目标类和一个或多个对比类。
b.维相关分析：有多个维需要在类上进行维相关分析。
c.同步泛化：泛化在目标类上进行，泛化到用户或领域专家指定的维阈值控制的层，产生主目标类关系。
d.导出比较的表示