昨天晚上找出了很久以前买的一本经典书,William H.Inmon的《数据仓库,W.H.Inmon被认为是“数据仓库之父”,一直想研究下数据仓库的设计与实施,当初买这本书也是这个目的,可能当时功力还不够,很多东西不能理解,昨天决定重新开始看,争取坚持。最近也正在学OWB的东西,正好结合数据仓库的设计进行学习。
说到数据仓库,首先得说说数据仓库的定义,数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合,定义中提到的数据仓库特性中,面向主题可能是最抽象也最不容易理解的,个人看了书上的理解,觉得主题应该就是企业的核心业务内容,比如保险公司的主题:顾客、保险单、保险费,对于银行的主题可能就是:顾客、存款、贷款等。其实还是有点抽象,需要对公司业务相当熟悉与理解。
在说说数据仓库的第二个特性:集成。数据仓库中的数据从不同的数据源传送过来,这些数据不能直接传送过来,因为每个数据源都有自己的一套编码、单位以及数据源之间可能还存在冗余数据或者冲突的关键字等,因此,需要对这些数据源的数据进行抽取、转换,然后再加载。这个工作可能非常的耗时与繁琐,Oracle的OWB就是这样的一个ETL工具,这两天正在学习。
说到非易失性,通俗点就是很少修改,这一点与OLTP是不同的,数据仓库的数据一般都是定期进行装载,每当OLTP中的数据方式改变时,一个新的快照记录会装载到数据仓库中,因此数据仓库中会保留历史的数据。
最后一个特性就是数据仓库是随时间变化的,数据仓库的每笔数据都会带一个时间戳,只有在特定的时间,里面的数据才是正确的。
(待续)
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/165278/viewspace-466052/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/165278/viewspace-466052/