DW2.0下一代数据仓库架构_第16章 迁移(读书笔记)

版权声明:
该系列文章(DW2.0下一代数据仓库架构)内容系作者学习用笔记,
欢迎共同学习,所载内容版权归原书作(译)者所有,请勿转载商用。

    DW2.0是一个巨大且复杂的环境,需要利用大量的资源并经过很长的时间建立它。DW2.0环境更像一座城市而不是一座房子。建一座房子
需要相对较短的时间,在建立过程中有一个明确的起点和重点。房子一般在某一个时间点打到了可用性,即在一个点上它还是不可用的,而
到另一个点它就可用了。而一座城市的建造过程是非常难的,并且需要很长一段时间。从城市里的第一座建筑物建立起来开始,城市就可用
了,城市可能有规划也可能没有规划,即使各个城市都有一些相同的特征,但各个城市还是拥有各自的特征。上述观点同样适合于DW2.0数据
仓库,虽然使用了相同的结构,但是各个企业的DW2.0的实施是非常不同的。如果企业几乎从来没有打算建立一个DW2.0环境,那又怎么最终
实现DW2.0环境呢?答案是逐渐发展。随着时间的推移,企业逐渐向DW2.0架构迁移。

    完美的情况下DW2.0可以从交互区到整合区到近线区在到归档区,一步一步建立,但是这种情况几乎不会发生。原因就在于几乎所有创建
DW2.0数据仓库的人都在适当的位置已经拥有了一个已经存在的数据仓库。
 
增量式地添加组件
    关于DW2.0架构的一个好消息是,它的大部分组件都可以根据需要,独立地,增量地添加进来。这种独立的,不断添加的能力意味着公司
可以以一种有序的方式向DW2.0环境迁移和进化。迁移并不是根除并丢弃已有系统,相反,在构建DW2.0时,DW2.0的基础结构组件可以建立在
已有的数据仓库上。
    1、可以给现有的数据仓库基础结构增加一个近线存储。虽然近线区是可选的并且并非所有公司都会采用,但一旦需要,它就是不可替代的
。向第一代数据仓库环境添加近线存储在架构上是件简单的事情,并不需要什么特别的工作和准备。
    2、归档区也可以在没有预先准备的情况下建立。
    3、可以为现有的数据仓库建立一个企业级的元数据。通常,本地元数据已经存放在某个适当的位置,提供技术的经销商通常都会提供元数
据(例如ETL元数据,商业智能元数据和DBMS元数据)的本地存储和管理的设备,所以本地元数据通常已经存在,需要添加的是企业元数据。
建立企业元数据通常由以下三个步骤组成
        1、建立企业元数据存储库
        2、将本地元数据移入企业元数据存储库中
        3、调整本地元数据以适应企业元数据的格式
    最后一步通常是最难的,调整本地元数据使其遵循全局的,企业的格式和结构式一项非常困难的任务。

建立元数据基础结构
    建立一个企业级的元数据存储库绝不需要破坏或者丢弃原有的环境。相反,DW2.0的元数据基础结构是建立在已存在的数据仓库的基础结
构之上的。从各种来源收集起来的元数据构成企业的元数据存储库。

“吞没”源系统
    在已有的操作应用环境中,如果任意一个位置可能已经停止运行,那么它就是一个遗留应用程序,需要被DW2.0环境的交互区来消化吸收
大多数情况下,交互区会“吞没”旧的源系统。而在其他情况下,源应用程序应该继续保持原样,并继续向交互区提供数据。

作为缓冲器的ETL
    ETL扮演着整个数据仓库演进和迁移过程的缓冲器的角色。通过ETL转换后,在操作源应用程序世界产生的大的变化对交互区的影响会降
到最小。同样,交互区也可能出现一个大的变化,通过ETL后,它不会对整合区产生影响或者降到最小。

4、迁移到非结构化的环境
    非结构化的数据领域是DW2.0数据仓库的一个最新的、最重要的特征。在许多DW2.0环境中,非结构化的数据作为一个添加组件打开了通
向更多种类的分析和决策支持处理的大门。DW2.0环境的非结构化数据迁移与结构化数据的迁移有着很大的区别,虽然结构化环境几乎总是以
第一代数据仓库的形式出现,但非结构化数据却不是。几乎不存在已有的非结构化数据可以添加到DW2.0数据仓库环境中。非结构化数据几乎
总是从它的文本源获取,通过一个新的非结构化数据的ETL处理进入到DW2.0数据仓库的非结构化领域。在非机构化数据进入到DW2.0数据仓库
中后,结构化数据和非结构化数据间的链接也就建立起来了。随着时间的推移,非结构化数据也将会停止使用,被移动到DW2.0数据仓库的归
档区的非结构化数据域中。

总结:

    DW2.0数据仓库的架构有一个自然的迁移顺序。自然迁移的顺序是根据数据流动方向而定的:进入交互区,然后是整合区,然后是近线区
最后是归档区。虽然自然顺序已经定义好了,但是它只是理论上的。
    在实际中,DW2.0环境是从第一代数据仓库发展形成的。归档环境可以独立加入,近线环境也可以独立加入,同样,企业的元数据结构和
非结构化数据域也可以独立加入。
    针对不同的业务需求,可以将不同的组件加入到DW2.0环境中。
    遗留应用系统是仅有的,预先存在的可能在移入DW2.0的过程中遭到破坏或者被替代的系统,有时候,旧的系统环境因为太过时,太脆弱
以至于相比整合数据进入旧系统,还不如重写系统。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26613085/viewspace-1309227/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/26613085/viewspace-1309227/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值