数据仓库的数据模型与数据组织

第二章
数据仓库的数据模型与数据组织
本章要点
– 数据仓库的数据模型
 概念模型
 逻辑模型
 物理模型
– 数据仓库数据组织的基本概念
 粒度
 维度
 元数据
 数据分割
– 数据仓库的数据组织
 数据仓库的数据组织方式
 数据仓库的数据存储组织
2
数据仓库中的数据组织
高高度度综综合合级级
轻轻度度综综合合级级
当当前前综综合合级级
早早期期细细节节级级
多级数据
3
数据仓库的数据模型-
与数据库系统数据模型的区别
 数据仓库的数据模型中不包含纯操作型数据。
 数据仓库的数据模型扩充了码结构,增加了时
间属性作为码的一部分。
 数据仓库的数据模型中增加了一些面向主题的
导出数据。
4
星型图模型
物理数据模型
概念模型
逻辑模型
物理模型
面向用户的需求




更详细的
技术细节
数据仓库的数据模型
信息包图
5
信息包图(概念模型)
 信息包图:是数据仓库的数据模型的第一层或最高层。由于大
多数商务数据是多维的,但传统的数据模型表示三维以上的数
据有一定困难。而信息包图简化了这一过程并且允许用户设计
多维信息包并与开发者和其他用户建立联系。这种模型集中在
用户对信息包的需要,信息包提供了分析人员思维模式的可视
化表示。
 工作:
– 确定系统边界:决策类型、需要的信息、原始信息
– 确定主题域及其内容:主题域的公共键码、联系、属性组
– 确定维度:如时间维、销售位置维、产品维、组别维等
– 确定类别:相应维的详细类别
– 确定指标和事实:用于进行分析的数值化信息
6
信息包图
信息包:
维度
类别
指标和事实空白信息包图样式
7
信息包图
〖例〗试画出销售分析的信息包图。
解:首先根据销售分析的实际需求,确定信息包的维度、类别
和指标与事实:
(1)维度:包括日期维、销售地点维、销售产品维、年龄组
别维、性别维等。
(2)类别:确定各维的详细类别,如:日期维包括年(10)、
季度(40)、月(120)等类别,括号中的数字分别指出各
类别的数量;销售地点维包括国家(15)、区域(45)、
城市(280)、区(880)、商店(2000)等类别,括号中
的数字同样分别指出各类别的数量;类似地,可以确定销售
产品、年龄组别维、性别维等的详细类别。
(3)指标和事实:确定用于进行分析的数值化信息,包括预
测销售量、实际销售量和预测偏差等。
8
销售分析的信息包图
指标和事实:
预测销售量、实际销售量、预测偏差
商店
(2000)
区(880)
产品(240)
城市(280)

(120)
产品组(48)
区域(45)
季度
(40)
性别组(2)
年龄组(8)
产品类(6)
国家(15)
年(10)
日期销售地点销售产品年龄组别性别
信息包:
销售分析
维度
类别
9
星型图模型(逻辑模型)
 星型图:数据仓库的数据模型的第二层是向最终的
数据结构添加某些细节的星型图模型。与传统的关
系模型相比,星型图模型简化了用户分析所需的关
系,从支持决策的角度去定义数据实体,更适合大
量复杂查询。
 星形图包括了三种逻辑实体:
– 指标
– 维度
– 详细类别
10
星型图模型(逻辑模型)
〖例〗销售分析的星型图模型。
时间维
产品维
地区维
组别维
其他维
销售分析:
实际销售
预测销售
预测偏差
11
物理数据模型
 物理数据模型:数据模型的第三层,它是星型图模
型在数据仓库中的实现,如物理的存取方式、数据
存储结构等。
 在物理设计时,常常要按数据的重要程度、使用
频率以及对响应时间的要求进行分类,并将不同类
的数据分别存储在不同的存储设备中。重要程度高、
经常存取并对响应时间高的数据就存放在高速存储
设备上,如硬盘;存取频率低或对存取响应时间要
求低的数据则可以放在低速存储设备上。
12
粒度-第一种形式
 粒度:对数据仓库中的数据综合程度高低的一个度
量,它既影响数据仓库中的数据量的多少,也影响数
据仓库所能回答询问的种类。

 粒度越小,综合程度越低,回答查询的种类越多; 粒
度越高,综合程度越高,查询的效率也越高。
 在数据仓库中可将小粒度的数据存储在低速存储器
上;大粒度的数据存储在高速存储器上。
13
粒度-第二种形式:样本数据库
 样本数据库:在分析过程中,有许多探索的过程有时
分析的目的并不要求精确的结果,只需要得到相对准
确、能反映趋势的数据,所以可以提取出样本数据库。
 样本数据库的粒度:是根据采样率的高低来划分的,
采样粒度不同的样本数据库可以具有相同的综合级
别,它是按一定的采样率从细节数据库或轻度综合数
据库中提取的一个子集。
 样本数据库的抽取按照数据的重要程度不同进行,利
用样本数据库采集重要数据进行分析既可提高分析效
率,又有助于抓住主要因素和主要矛盾。
14
维度
 维度:是一个物理特性(如时间、地点、产品等),它是
表达数据仓库中信息的一个基本途径,可作为标识数据的
索引。通常的报表只包含有行和列两维,但在数据仓库中
所存储的数据大多是用多维(三维或三维以上)视图表示
的。
 例如:
– 一个销售系统中的数据可分为时间维、产品维和地理位
置维等;
– 一个财务系统中的数据可分为时间维、支出维和收入维
等;
– 一个企业决策支持系统中的数据可分为成本开支维、销
售收入维、利润维、股票价值维等。
15
聚合
 在数据仓库技术中,每一维可包括多个层次,这
些层次反过来可以向用户提供某一层次的数据。
例如,在地理位置维中,由所有的街区组成了地
区,由所有的地区组成了城市等。聚合就是指在
维的不同层次内移动数据,从而构成维内不同层
次的数据集,使用户不仅能够在一个维度内观察
数据,而且能够在维度内的不同层次上观察数据。
16
分解与合成
 分解与合成是在一个维度内进一步细分数据或将数据按照
另一标准组合的过程。例如,当以地理位置维观察数据
时,用户可以首先以国家(如中国)为单位观察数据,然
后可以选择观察某一个地区(如华东地区)的数据,接下
来可以选择观察某一个省或城市(如上海)的数据,这就
是数据分解的过程。而合成则是分解的逆过程,例如用户
开始以省市为观察对象,接着再以地区、国家等为观察对
象,就是一个数据合成的过程。
17
分割及其标准
 分割:将数据分散到各自的物理单元中去以便能
分别处理,提高数据处理效率,数据分割后的数据
单元称为分片。
 数据分割的标准:可按日期、地域、业务领域或按
多个分割标准的组合。
 数据分割的目的:便于进行数据的重构、索引、重
组、恢复、监控、扫描
18
数据分割的方法
 垂直分割:垂直分割就是把一个表垂直分成两部分。这种类
型的分割有助于把一大堆列分成两个独立的表,这两个表之
间通过一个关键字段相关联。
 水平分割:水平分割就是把表按行分成两部分。这种类型的
分割被用来存储与用户联系紧密的本地重要数据,从而减少
网络查询。
 图解分割:经由多个分布系统把一个图分解成两部分。可以
从指定的服务器或在多个服务器之间建立连接而得到一个表
所需要的全部数据。这种类型的分割被用来把小的、静止的
表从不稳定的、越变越大的表中分割出来。
19
元数据
 元数据:是用来描述数据的数据。它描述和定
位数据组件、它们的起源及它们在数据仓库进
程中的活动;关于数据和操作的相关描述(输入、
计算和输出)。元数据可用文件存在元数据库中。
 要有效的管理数据仓库,必须设计一个描述能
力强、内容完善的元数据。
20
元数据的种类
 转换元数据:为了从事务处理型环境向数据仓库中转
换而建立的元数据,它包含了所有源数据的信息、事
务描述、数据结构的定义、提取数据和传送数据的算
法、综合数据和净化数据的规则、数据访问和传送的
记录等。
 DSS元数据:在数据仓库中用来与终端用户的多维商
业模型/前端工具之间建立映射,这种元数据常称为
DSS元数据,常用来开发更先进的决策支持工具。
21
数据仓库中的元数据的内容
 关于源数据的元数据:数据源中所有物理数据结构;
所有数据项的业务定义;每个数据项更新的频率,以
及由谁或哪个过程更新的说明;每个数据项的有效
值;其它系统中具有相同业务含义的数据项的清单。
 关于数据仓库映射的元数据。
 关于系统安全的元数据。
22
 与传统数据库系统的数据字典中相似的内容。
 数据仓库的主题描述。
 外部数据和非结构化数据的描述。
 记录系统定义。
 逻辑模型的定义。
 数据进入数据仓库的转换规则。
 数据的提取历史。
 粒度的定义。
 数据分割的定义。
 广义索引。
 有关存储路径和结构的描述。
23
数据仓库的数据组织
 数据仓库是构建这种新的分析处理环境而出现的一
种数据存储和组织技术。
 数据仓库的数据组织结构不同于一般的数据库系
统,需要将从原有的业务数据库中获得的基本数据
和综合数据分成一些不同的级别。在数据仓库中,
数据按照粒度从小到大可分为四个级别:早期细节
级、当前细节级、轻度细节级和高度细节级。
24
数据仓库的数据组织方式
 基于关系表的存储方式:这种方式的主要问题是在多维数据
模型定义好后,从数据库中提取数据往往需要编制独立、复
杂的程序,因此,通用性较差,且很难维护。
 多维数据库存储方式:多维数据库的组织方式是直接面向
OLAP分析操作的数据组织形式。这种数据库产品也比较
多,实现方法也不尽相同。其数据组织采用多维数据结构文
件进行存储,并有维索引及相应的元数据与其对应。 
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值