W.H.Inmon的新书《DW2.0》,介绍了数据仓库新的范式;个人觉得其实也不新,只是在数据仓库实践了这么多年之后,理论上的一次整理更新。这本书的内容,边看边记吧!
DW2.0数据结构
数据的生命周期
在DW2.0中,重新定义了数据在DW中的作用,主要根据入仓库的时间定义了数据的生命周期。而数据的访问频率也会随着存储时间的增加而下降。这样的分区方式为仓库的架构尤其是硬件架构设计提供了支持。
1. 交互区
交互区是数据进入数据仓库的第一站,是数据联机更新的场所。
2.整合区
在一定的时间点,数据需要进行整合;存储在交互区的数据通过ETL进入整合区,数据脱离了应用状态。
3.近线区
近线区是整合区的一个延伸,在分区中是可选的。当数据量非常大并且数据间访问的概率差别很大时,可以利用近线区来处理。
4.归档区
存储访问频率很低的历史数据,通常是5-10年,甚至更长。
元数据
由于数据仓库更大,更多样化(用户多样化、数据源多样化等),为了能更好的管理和使用数据仓库,元数据的作用显得更加重要。
存储方案
在交互区,元数据与应用数据本身是分开存储的,即元数据与它所描述的数据在物理上是分开的;而在归档区,元数据直接与数据一起存储。这样的存储方式就避免了分析历史数据的困难。
元数据分类
DW2.0对于元数据的分类还是挺不错的,这样就避免元数据本身显得杂乱。
1. 本地元数据 被各种工具所专业的元数据,例如ETL工具的元数据、BI工具的元数据:
1)业务元数据 用业务语言书写的适合于公司业务的元数据;
2)技术元数据 公司的技术人员所应用的元数据。
2. 企业范围元数据
结构化数据和非结构化数据
在DW2.0中,数据库被要求整合结构化和非结构化的数据至数据仓库中。在现代环境下,对于非结构化的数据也同样蕴含着大量的价值。当数据仓库中包含非结构化的数据时可以有三种处理方式:a)非结构化数据单独进行访问分析;b)非结构化数据可以同结构化数据一起分析;c)一些非结构化数据可以近似的与结构化数据链接。
对于非结构化数据处理除了普遍存在的文本分析的难题上,还有两个需要特别注意的地方:
1)非结构化数据同样充斥着无用的信息,在进入DW的环境中,需要对这部分数据进行筛选;
2)文本的规范化。同结构化数据需要对不同的术语进行统一类似,为了在仓库中更好的利用文本信息,也需要对文本信息进行规范。规范化的过程需要将文字映射为两种格式——特定格式(自然语言)和一般格式(规范化)。对特定数据添加一般数据才能使得数据更适合分析。
应对业务需求的变化
由于不断变化的业务与不变的技术基础设施时不相一致的。因此在DW2.0的开发方法要求数据仓库不能一建到底,也就是说数据仓库不能深植于仓库底层的技术(网络、操作系统、应用程序、数据库管理系统、缓存等)中。数据仓库必需设置在一个动态技术基础上,否则它只是不断反映昨天的业务需求。 可订阅式的。