DW 2.0

DW 2.0

W.H.Inmon的新书《DW2.0》,介绍了数据仓库新的范式;个人觉得其实也不新,只是在数据仓库实践了这么多年之后,理论上的一次整理更新。这本书的内容,边看边记吧!

inmon_fig1

                              DW2.0数据结构

数据的生命周期

在DW2.0中,重新定义了数据在DW中的作用,主要根据入仓库的时间定义了数据的生命周期。而数据的访问频率也会随着存储时间的增加而下降。这样的分区方式为仓库的架构尤其是硬件架构设计提供了支持。

1. 交互区

交互区是数据进入数据仓库的第一站,是数据联机更新的场所。

2.整合区

在一定的时间点,数据需要进行整合;存储在交互区的数据通过ETL进入整合区,数据脱离了应用状态。

3.近线区

近线区是整合区的一个延伸,在分区中是可选的。当数据量非常大并且数据间访问的概率差别很大时,可以利用近线区来处理。

4.归档区

存储访问频率很低的历史数据,通常是5-10年,甚至更长。

元数据

由于数据仓库更大,更多样化(用户多样化、数据源多样化等),为了能更好的管理和使用数据仓库,元数据的作用显得更加重要。image

存储方案

在交互区,元数据与应用数据本身是分开存储的,即元数据与它所描述的数据在物理上是分开的;而在归档区,元数据直接与数据一起存储。这样的存储方式就避免了分析历史数据的困难。

元数据分类

DW2.0对于元数据的分类还是挺不错的,这样就避免元数据本身显得杂乱。

1. 本地元数据  被各种工具所专业的元数据,例如ETL工具的元数据、BI工具的元数据:

1)业务元数据     用业务语言书写的适合于公司业务的元数据;

2)技术元数据     公司的技术人员所应用的元数据。

2. 企业范围元数据

结构化数据和非结构化数据

在DW2.0中,数据库被要求整合结构化和非结构化的数据至数据仓库中。在现代环境下,对于非结构化的数据也同样蕴含着大量的价值。当数据仓库中包含非结构化的数据时可以有三种处理方式:a)非结构化数据单独进行访问分析;b)非结构化数据可以同结构化数据一起分析;c)一些非结构化数据可以近似的与结构化数据链接。

对于非结构化数据处理除了普遍存在的文本分析的难题上,还有两个需要特别注意的地方:

1)非结构化数据同样充斥着无用的信息,在进入DW的环境中,需要对这部分数据进行筛选;

2)文本的规范化。同结构化数据需要对不同的术语进行统一类似,为了在仓库中更好的利用文本信息,也需要对文本信息进行规范。规范化的过程需要将文字映射为两种格式——特定格式(自然语言)和一般格式(规范化)。对特定数据添加一般数据才能使得数据更适合分析。

应对业务需求的变化

由于不断变化的业务与不变的技术基础设施时不相一致的。因此在DW2.0的开发方法要求数据仓库不能一建到底,也就是说数据仓库不能深植于仓库底层的技术(网络、操作系统、应用程序、数据库管理系统、缓存等)中。数据仓库必需设置在一个动态技术基础上,否则它只是不断反映昨天的业务需求。 可订阅式的。

 

 

转自:http://bookcold.com/2010/04/380

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值