声明:以下内容是学习 《The Architecture for the Next Generation of Data Warehousing》 的笔记。
为了解决数据仓库架构的选择问题并清除所有的干扰。DW2.0 是为了下一代数据仓库定义的数据仓库构架。
2.1 DW2.0 -- 一种新的范式
这种新的范式关注数据的不同类型、基本结构、以及它们怎样关联起来形成一个强大的数据存储器以满足公司对信息的需求。
2.2 DW2.0 -- 从企业的角度
DW2.0 使用元数据,数据不会轻易丢失;
DW2.0 环境下,数据的存储是根据访问的效率有关,如果数据的访问性能比第一代数据仓库环境更为有效;
2.3 数据的生命周期
DW2.0 数据仓库包括了四个数据生命周期“分区”;
第一个分区交互区(very current ),数据存入数据仓库后迅速进入交互区;
第二个分区整合区(current ++),随着数据的调整,数据被整合后传递整合区;
第三个分区近线区(less that current),直到整合区的数据访问效率下降后,进入近线区(3-4年);
第四个分区归档区(older),归档区中的访问效率最低,进入近线区中的数据也可以进入归档区(5-10年)
2.4 设置不同区的原因
不同区之间区别的核心问题是,数据从一个区传递到另一个区时,数据的基本访问模式、概率 之改变。
交互区的数据被频繁访问,并且访问模式是随机访问;
整合区的数据的被访问概率也很高,但通常是顺序的、成串的访问;
近线区的数据访问概率相对较低,并且在访问时是随机的;
归档区的数据被访问量少,它能够被顺序的、不定期地、随机地访问;
不同分区的数据量的不同,也是区分的一种;
不同的技术适合不同的分区;
2.5 元数据
元数据是DW2.0 环境下辅助的描述数据,诉说用户及分析员数据在哪里;
从终端用户的角度看,终端用户的满意度与用元数据有关,有了元数据,终端用户可以判断数据和分析是否已经存在于企业中的系统中。
在DW2.0 构架下的各数据区之间,数据访问方式有很大不同,各区应用的技术也不同;因此,没有任何一种单一的技术,是数据仓库中发现数据的最佳技术;