DW 2.0

最新推荐文章于 2019-06-08 13:15:17 发布

suncrafted

最新推荐文章于 2019-06-08 13:15:17 发布

阅读量2.8k

点赞数

分类专栏：【DataWarehouse】文章标签：数据仓库存储数据结构架构设计数据库工具

【DataWarehouse】专栏收录该内容

10 篇文章

订阅专栏

DW 2.0

W.H.Inmon的新书《DW2.0》，介绍了数据仓库新的范式；个人觉得其实也不新，只是在数据仓库实践了这么多年之后，理论上的一次整理更新。这本书的内容，边看边记吧！

DW2.0数据结构

数据的生命周期

在DW2.0中，重新定义了数据在DW中的作用，主要根据入仓库的时间定义了数据的生命周期。而数据的访问频率也会随着存储时间的增加而下降。这样的分区方式为仓库的架构尤其是硬件架构设计提供了支持。

1. 交互区

交互区是数据进入数据仓库的第一站，是数据联机更新的场所。

2.整合区

在一定的时间点，数据需要进行整合；存储在交互区的数据通过ETL进入整合区，数据脱离了应用状态。

3.近线区

近线区是整合区的一个延伸，在分区中是可选的。当数据量非常大并且数据间访问的概率差别很大时，可以利用近线区来处理。

4.归档区

存储访问频率很低的历史数据，通常是5-10年，甚至更长。

元数据

由于数据仓库更大，更多样化（用户多样化、数据源多样化等），为了能更好的管理和使用数据仓库，元数据的作用显得更加重要。

存储方案

在交互区，元数据与应用数据本身是分开存储的，即元数据与它所描述的数据在物理上是分开的；而在归档区，元数据直接与数据一起存储。这样的存储方式就避免了分析历史数据的困难。

元数据分类

DW2.0对于元数据的分类还是挺不错的，这样就避免元数据本身显得杂乱。

1. 本地元数据被各种工具所专业的元数据，例如ETL工具的元数据、BI工具的元数据：

1）业务元数据用业务语言书写的适合于公司业务的元数据；

2）技术元数据公司的技术人员所应用的元数据。

2. 企业范围元数据

结构化数据和非结构化数据

在DW2.0中，数据库被要求整合结构化和非结构化的数据至数据仓库中。在现代环境下，对于非结构化的数据也同样蕴含着大量的价值。当数据仓库中包含非结构化的数据时可以有三种处理方式：a）非结构化数据单独进行访问分析；b）非结构化数据可以同结构化数据一起分析；c）一些非结构化数据可以近似的与结构化数据链接。

对于非结构化数据处理除了普遍存在的文本分析的难题上，还有两个需要特别注意的地方：

1）非结构化数据同样充斥着无用的信息，在进入DW的环境中，需要对这部分数据进行筛选；

2）文本的规范化。同结构化数据需要对不同的术语进行统一类似，为了在仓库中更好的利用文本信息，也需要对文本信息进行规范。规范化的过程需要将文字映射为两种格式——特定格式（自然语言）和一般格式（规范化）。对特定数据添加一般数据才能使得数据更适合分析。

应对业务需求的变化

由于不断变化的业务与不变的技术基础设施时不相一致的。因此在DW2.0的开发方法要求数据仓库不能一建到底，也就是说数据仓库不能深植于仓库底层的技术（网络、操作系统、应用程序、数据库管理系统、缓存等）中。数据仓库必需设置在一个动态技术基础上，否则它只是不断反映昨天的业务需求。可订阅式的。

转自：http://bookcold.com/2010/04/380

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。