声明:以下内容是学习 《The Architecture for the Next Generation of Data Warehousing》 的笔记。
DW 2.0 由四个不同的区组成,交互区、整合区、近线区、归档区。
从企业的角度来讲,通常情况下,不同类型的使用者会从各自的区中访问和分析数据。
交换区:办公室人员使用交换区完成日常工作;
整合区:可以间接的支持不同的管理层(从公司的初级管理员到公司董事长)
近线区:分析团队经常使用;
归档区:使用的比较少,多被统计人员使用;
1.1 交互区
交互区是数据进入DW2.0 环境的入口。数据要么通过处于DW2.0 外部的ETL 应用进入DW2.0,要么是作为交互区内部应用事务的一部份来处理;
特点:
Ø 交互区存在着很多小型的事务;
Ø 交互区的数据几乎总是存储在磁盘中草;
Ø 交互区的数据可以被添加、删除或者修改;
数据从交互区进入整合区。如果数据来源自交互区外部,则直接进入整合区。如果数据是由交互区内应用程序执行时产生的,那么数据将作为程序运行的副产品被收集并传给整合区。
2.1 整合区
整合区的应用程序数据和交易数据最后汇总为企业数据的场所。
Ø 把操作应用程序数据和交互交易数据传换成企业数据还需要做很多转换。
Ø 关键字被转换成一种企业通用的关键字结构
整合区中数据是在对交互区中的数据通过ETL层处理后收集到的。在进行ETL处理后,同时进行数据质量处理。简单的数据质量处理就是域检查和范围检查。
对于整合区为什么会包含大量的数据,有一些非常好的原因:
Ø 数据是粒状的,很多原子单元的数据被收集和管理;
Ø 历史数据:经常有3-5年的有价值的数据;
Ø 数据来源于多种渠道;
整合区的数据事务处理仅限于读取数据。这不像交互区中的数据,数据可以添加、删除、修改,整合区中的数据只能访问。
任何时,对整合区的数据更改是通过新建一条记录来实现的。
整合区中有两种相关的参照完整性。第一种是区间参照完整性,是数据通过各区时的完整性。也就是说,当数据从交互区进入整合区时,数据必须有可认别的源和目的以确保数据不会丢失。
另一种完整性,这种完整性意味着同一区内部数据元素之间可能存在一定的关系。
整合层上粒度级越小,所支持的DSS处理的形式就越多。
数据一旦离开整合区,就可以进入近级区或者归档区,当数据很多且有缓存需求时,数据便进入近级区。