DW2.0下一代数据仓库架构_第1章 迁数据仓库简史及第一代数据仓库(读书笔记)

 

版权声明:
该系列文章(DW2.0下一代数据仓库架构)内容系作者学习用笔记,
欢迎共同学习,所载内容版权归原书作(译)者所有,请勿转载商用。

    最早保存数据的机制很简单。串口卡片、纸带、容量很小的磁芯存储器,那时存储器非常昂贵且容量有限。
    磁带的发明和使用开启了崭新的时代。磁带能保存海量数据,对数据的记录格式没有太大的限制,可以写入还可以重新写入。磁带的缺
点是必须顺序地访问数据,另外磁带不稳定,磁带上的氧化物脱落或者被划掉,都将导致不可用。
    磁盘存储是另一个飞跃。磁盘可以直接访问数据,也可以重写,还可以访问多个数据。
   
数据库管理系统
    磁盘存储产生不久,DBMS产生。是为了管理磁盘存储:
    1、确定数据的合适位置
    2、解决当两个或多个数据单元被映射同一位置时产生的冲突
    3、允许数据被删除
    4、当无法将一条数据记录存储到一个容量有限的物理空间时,负责寻找合适的物理位置
    5、其他
    6、数据的快速定位能力是磁盘存储最重要的一个优点,这项任务正式DBMS完成的。
 
在线应用
    在线应用使用计算机来实现对数据的快速一致的访问。使得各机构能满足顾客日常需求的,在线应用后来开始变得强大而且普及起来,
并很快为交叉应用。在线应用非常受欢迎,增长得很迅速,短期内迅速出现了大量的应用。但是新的问题出现,公司拥有一大堆数据,但是
查找数据却很难,并且就算能找出来,也不能保证你所找到的数据是完全正确的。公司数据的激增使得在任何一个时间点用户都无法保证
他们所获得的数据的正确性和完整性。

个人电脑和4GL技术
    随着个人电脑的普及以及个人电脑软件的产生,可以将数据存储在自己的计算机上,这样就不再需要集中式的IT部门,如果因为IT不让
得到自己想要的数据,就给个人拥有。
    4Gl的思想是使得变成和系统开发简单到任何人都可以做,这样,终端用户就可以摆脱必须从IT部门来获取企业数据的束缚。可以通过
给终端用户访问其所需数据的自由,来满足他们对数据的渴望。
    终端用户可以自由第访问数据,除此之外,想要做出好的决策还有更得事情要做。问题如下:
    1、数据不准确,不准确的数据会有很大的误导性
    2、不完整的数据用处不大
    3、不及时的数据不太符合人们的需要
    4、当同一数据出现多个版本时,依赖于其错误的值会导致糟糕的决定
    5、没有文档的数据价值值得怀疑

蜘蛛网环境
    在蜘蛛网环境中有如此多的线路通向如此多的地方。在许多企业环境中,蜘蛛网环境一经发展到了不可想象的复杂程度。任何人都可以
把任何事做完,不过很少人能做出好的、及时的决定。事实上,当前系统架构备受关注,蜘蛛网环境对企业来说是一个死胡同,想要使蜘蛛
网环境工作是没有希望的事情。最终只能求助于以数据仓库为中心的架构。

企业角度的演化
    从企业人员角度出发,计算机开始于复杂性工作的简单自动化。不久,人们发现计算机还可以用于记录大量的数据,产生“主文件”,
不久产生了联机数据库,利用联机数据库计算机开始进入商业活动的核心。联机处理使得计算机进入企业网络。另外,还存在另一个由于
计算机进入商业网络环境而产生的影响,这种影响关系着商业管理,战略以及决策等方面,即当前企业决策的形成是基于在企业的动静脉等
等各种网络系统上的数据的,因此,正在描述的发展过程很难说是一个以技术为中心的过程,它还伴随着一些来自企业的影响和牵连等。

数据仓库环境
    数据仓库代表了IT专业人员思维的重大变化。在数据仓库出现之前,人们认为数据库应该是一种能够满足所有数据需求的东西。但是
随着数据仓库的出现,对多种不同类数据库的需求变得明朗起来。

什么是数据仓库
    数据仓库是信息处理的一个基础,其定义如下:面向对象的、整合的、永久的、随时间变化的,一个支持管理决策的数据的集合。
    数据仓库包含了整合后的粒状历史数据。数据仓库的奥妙是它包含的数据既是整合的有时粒状的。数据的整合使得企业对数据有一个
真正的企业范围级别的观察。这样,如果数据是从一个单一的定义良好的数据源得到的,就可以从整体上而不是局部地观察数据来进行数据
分析,显然绝大多数数据仓库不满足这一点。因此使用数据仓库数据来观察整个企业的能力是数据仓库的首要优势。另外,数据的粒度使得
使得数据非常灵活。由于数据是粒度的,它可以被一组人员以一种方式考察,其他人以另一种方式观察。粒度数据意味着这仍旧是一组数据
--关于真是状况的单一版本。如果不通的观察方式得出不通的结论,还可以返回哪个关于真是状况的单一版本来解决这些不一致。
    数据仓库的另一个优点是它是一个历史数据的集合,数据仓库是存放有价值的数年前历史数据的好地方。

整合数据--一个痛苦的经历
    企业所感受到的第一个痛苦就是整合数据的需要。如果要建立一个数据仓库,就必须整合数据。问题是许多公司都有许多遗留系统,
各种各样的目的和意图使得处理他们很难,人们实在不情愿对他们的旧遗留系统做任何改变,但是建立一个数据仓库又要求他们必须这样做
    因此,建立数据仓库第一个障碍就是返回那些遗留系统,看看都有那些数据,然后弄明白如何将这些面向应用的收转换成企业数据。
    这种转化绝非易事,并且在某种情况下几乎不可能,但是整合数据的额价值值得去承受转化未整合、面向应用的数据带来的痛苦。

数据量
    大多数IT专业人员以前从来没有处理过伴随数据仓库的产生的如此大量的数据。在应用系统中,尽早的丢弃较老的数据是个好的实践,
因为他们会使系统慢下来。然而,在旧的数据中仍然存在巨大的价值。对于许多分析来说,旧数据是及极其用的,有时甚至是不可或缺的
因此,在数据仓库中存储旧数据对于数据分析而言太有用了。

一种不同的开发方法
    全世界的开发者习惯于先收集需求然后构建一个系统,这种方法已经在开发者构建运行系统的时候被反复灌输到他们的头脑当中。
但是数据仓库的构建非常不同,它是迭代地被构建的,每次前进一步,先构建一部分然后在构建另一部分。几乎在每次开发实例中,这种
方法都作为一种策略来应对那些试图使用“激进”的方法一次构建好整个数据仓库所带来的灾难。
    构建数据仓库不应该使用基金方法的原因有许多。1、数据仓库项目一般都比较大。需要逐步建立。2、数据仓库建立之处,对于它的需
求并不总是明确的。终端用户并不确切地知道他们想要什么,他们以一种摸索的模式进行操作,只有看见可能发生的事情时,才能得到真正
想要的是什么。而正是构建数据仓库的第一次迭代活动开阔了终端用户的思路,引导用户区思考可能发生的事情会是什么,也只有在看见
数据仓库后,用户对它的需求才能变得明确。所以当开发者仅仅把它当做是一个操作型应用系统来开发时,会带来数据仓库构建过程中最大
的失败。

演变到DW2.0环境
    事实上,很多因素推动信息架构演变的形成,并达到其最高点--DW2.0.
    1、对于更多不同技术的使用需求:当比较一个最初的系统和DW2.0的系统时,可以发现DW2.0在系统及其与终端用户的交互方面已经有了
显著提升。而在不久前计算机系统以穿孔卡片输出的时候,这几乎是不可想象的。终端用户的输出作为一个微小的信息点被掩埋在十六进制
中。事实上,只要输出还是以这种非常原始的形式出现,计算机就不算是高效的。
    2、联机处理:只要对数据的访问被限制在一段非常短的时间,商业人士就可以利用电脑来做事情。但是联机处理一旦成为可能,商业
活动就会交互使用日常商业活动的信息成为可能。有了联机处理,预订系统,银行出纳系统,ATM处理,联机目录管理以及其他一大堆的关于
计算机的重要应用就会变成现实。
    3、对于整合的企业数据的渴望:企业数据无法通过将若干微小的应用加在一起而获得,相反数据必须被改造为整合的能为企业所理解的

信息。但是一旦企业数据成为现实,对于处理的所有新的看法将被开启。
    4、对于混合包含非结构化数据的文本数据的需求:多年来,决策都是仅仅在结构化的记录数据基础上做出的。但是有大量的信息以文本
的、非结构化的形式存在。不幸的是,抽取出这些文本的信息并不是容易的。文本ETL为各种组织提供了获取作为制定决策基础的文本信息的
关键方法。
    5、容量:如果技术世界停止了创新,一个像DW2.0这样复杂的世界完全不可能出现。但是技术的容量、技术工作的速度,以及使用不同
形式的技术可以相互联系起来的能力合起来创造了一个这样的技术氛围,其中容量时一个常见的制约。可以想象这样的一个世界:所有的
存储全部保存在磁带上,那么,绝大多数现在被认为理所应当的处理类型完全是不可能的事情。
    6、经济效应:根据摩尔定律,很多年技术的单位成本已经缩减,最终达到客户层的可支付能力。
    数据仓库对于商业的影响是非常巨大的,一些直接受到数据仓库影响的领域包括:
    航空业的常旅客计划:常旅客计划拥有的最优价值的一项技术就是他们的中心数据仓库。
    信用卡欺诈分析:每一个客户都在其过去的消费行为的基础上产生一些消费记录。这些记录是从数据仓库中形成的。当一个客户视图
进行一个超过其记录范围的购买时,信用卡公司就会检查是否将要发生信用卡的欺诈性使用。
    详细目录管理:数据仓库保存了详尽的存货记录,注意趋势及机会机遇。通过了解一个组织多管理的货物的消费模式,公司可以同时
了解供给过剩还是供给不足。
    客户记录:那些想要“更好地了解他们的客户”的组织跟踪保留了他们的客户所展示的购买模式和注意力模式。这些详细的信息都被
存储在数据仓库中。
    数据仓库还通过许多其他的途径影响商业活动。简而言之,数据仓库成为了企业的存储器。没有数据仓库时,最多也就是有一个短期的
企业存储器。有了数据仓库就等于有了一个长期的、详尽的企业存储器,并且可对该存储器以不同的方式加以利用。

数据仓库的各种组件
    组件包括:遗留原系统、ETL、ODS、企业数据仓库、数据集市、探索仓库等。

    ETL:ETL技术使得数据可以从遗留系统环境中获得并被转换成企业数据。ETL组件执行许多功能:
    1、数据的逻辑转换
    2、域的验证
    3、从一个DBMS到另一个的转换
    4、当需要时,默认值的生成
    5、数据的总结
    6、对数据键添加时间值
    7、重构数据键
    8、记录合并
    9、额外或冗余数据的删除
    ETL的本质是把应用数据转换成企业数据。

    数据集市:数据集市是终端用户可以直接访问和控制所分析数据的地方。数据集市是根据一组部门用户对数据应该以何种方式被看到的
一种期望形成的,不同部门都有自己的数据集市。每一个数据集市的数据来源都是数据仓库。数据集市通常是用不同的技术而不是不同的
数据仓库来实现的。每一个数据集市包含的数据通常比数据仓库少很多,它通常也包含大量的汇总数据以及聚合数据。
   
    探索仓库:探索仓库向想要对数据进行发掘处理的终端用户提供了相应的功能设备。许多统计分析就是在探索仓库库中完成的。许多在
探索仓库中进行的处理都属于不同类型的启发探索。大多数探索仓库都是基于一个项目保存数据,一旦项目完成了,探索仓库也就可以不用
了。探索仓库承担了重要的统计分析的处理要求,这样就使得传统的数据仓库避开了由于使用探索仓库做非常繁重的统计而引起的性能确缺
失。
   
    简单的数据仓库的概念已经从一个用于存放整合、粒状、历史数据的地方演变成一个完整成熟的框架。

数据仓库的演变--从企业的角度
    在计算的最初期,终端用户以一种非常原始的方式从计算机得到输出。不久后报表变得规范。随着终端用户复杂起来,终端用户得到的
能力越大,他们能够想象到的能力也就越大。在报表出现后,联机信息几乎同时出现。在联机交易处理后,终端用户又想要整合的企业数据
通过它可以得到大量的数据整合成一个聚合的整体,之后终端用户又想要历史数据。在此过程中也同时贯穿着架构和技术的演变。而正是
通过第一代数据仓库,终端用户才到达了分析能力的终极。如果没有第一代数据仓库,终端用户对信息仅是局部的、不完整的需求。终端
用户对企业信息的渴望是第一代数据仓库的发展背后的最大推动力。

建立一个“真正的”的数据仓库
    开发者可以构建某一数据仓库的各种变形中的一个,但更有意义的选择是构建一个真正意义上的数据仓库。如果开发者选择了前者,那
么后来某时刻肯定得重复做很多费力的工作,没有人喜欢浪费大量的资源,而且也很少有人能负担得起。做选择时面临的问题之一是正在
兜售数据仓库的厂商都非常善于游说,他们的第一目标是说服客户区构建需要他们产品和服务的数据仓库,而不是满足商业需求的那种必须
的数据仓库。不行的是,落入这种销售圈套可能会浪费大量的资金和实践。
 
总结:
    从用户数据仅限于通过IT部门中介访问到的可操作应用数据的那些令人沮丧的日子开始,数据仓库已经经过很长一段时间发展。现在,
数据仓库已经进化到可以满足终端用户对整合的、历史的、粒度的、灵活的以及准确地信息的需求了。第一代数据仓库已经变得包含从粒状

的、历史的、整合的数据仓库的原始应用中得到训练有数的收ETL。随着数据仓库的流行,也出现了许多挑战:数据量、空间开发方法、启发
性等,还有更多。随着数据仓库演变的继续,也出现了一些变体:主动数据仓库;联合数据仓库;星状数据仓库;数据集市数据仓库。这些
数据仓库各有各的优点,但是他们同样也带了许多新的、明显的缺点。
    下一代数据仓库的时代来临了--DW2.0。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26613085/viewspace-1313326/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/26613085/viewspace-1313326/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值