DW2.0下一代数据仓库架构_第12章 DW2.0的数据流(读书笔记)

版权声明:
该系列文章(DW2.0下一代数据仓库架构)内容系作者学习用笔记,
欢迎共同学习,所载内容版权归原书作(译)者所有,请勿转载商用。
 
    DW2.0架构包含许多组成部分,下一代DW2.0数据仓库也包含了许多技术。建立一个DW2.0数据仓库环境不像盖房子,也不想建立一个小镇
更像建设一座大都市。由于DW2.0所涉及的范围的庞大和复杂性,它很容易使人迷失。人们很容易会仅仅关注并仔细了解DW2.0的某一方面。
如果这样做,那么你就会忽略整个架构的更大“景象”。而有时候,从架构的细节退后一步去观察更大的“景象”非常有用。

贯穿整个架构的数据流
    在DW2.0架构中贯穿着一个数据流。在许多方面,这个数据流就像人体内的血液一样重要。数据流满足了DW2.0所完成的其他一切事情的
需求。数据流从数据进入交互环境开始。数据可以直接进入交互区或者通过ETL处理进入该区。数据如何进入交互区完全取决于外部应用和
DW2.0中的应用。

进入交互区
    数据作为面向应用的数据进入交互区。在进入交互区之后,数据被发送到整合区。数据流一个令人感兴趣的方面是数据流的速度和传输
量。数据流入交互区的速度很快,在外部应用环境中仅仅传输几毫秒就会进入交互区。具有这种性质的输入交易数据可视为实时数据。当然
如果交易是从交互区直接执行,数据就根本没有延时。在其他情况下,外部应用的交易数据可能需要一个小时或一天才能进入交互环境。进
入交互环境时,数据的时间延迟完全由对数据的业务需求所决定。如果一个合理的业务实例要求数据立即进入交互环境,那么这些数据就
应该立即进入。如果没有,那么数据的传送就不必很迅速。需要指出的是:数据进入交互区需要的速度越快,为完成这种快速数据转换的
目标所需要的技术也就越复杂和昂贵。

ETL的角色
    来自外部应用的数据通常由ETL处理进入交互区。数据通过简单地文件传输进入交互区也是可能的,但这并不是很常见。数据更可能经由
标准的ETL技术进入交互区。传到整合区的数据来自交互区。数据也可能直接进入整合区而不经过交互区。一般的处理发生在数据从交互区
传入整合区的时候。通常数据是通过ETL处理传入整合区的。ETL处理把数据从一个面向应用的结构重组为一个企业数据结构。
 
进入整合区的数据流
    进入整合区的数据流在速度上更为宽松。数据流以定期的方式(天、周、月甚至季)进入整合环境。数据流以小的快速的喷射形式进入
交互区,每次就进入一个数据记录。整个文件或大量的记录一次性传入交互区是不常见的。数据进入交互区如同细雨,而不是洪水。数据进
入整合区是由事务的执行开启的。一旦一个事务完成,它所包含的数据就准备进入整合区。但在进入交互区之前对事务的收集和排队不可估
量地减缓了事务处理速度,使得不能达到交互过程的目标。数据传输到整合区的触发过程是比较简单地:随着时间的推移,在某些情况下,
数据需要以小时未单位迅速进入整合区。在其他情况下,数据可以以天为单位等待转移。通常,如果报表所需的数据需要精确到秒,那么该
报表就应该使用交互区的数据建立。一般来说,从整合区产生获取直接或实时数据的报告或分析是错误的。基于整合数据的报告和分析都具
有战略性质,不应该依赖于精确到秒的实时数据。因此,从交互区到整合区的数据流的移动可用一个较为宽松的安排来完成。

进入近线区的数据流
    正如从外部应用到交互区一样,从交互区到整合区的数据流同样重要。在DW2.0数据仓库中,它们并不是仅有的主要数据流,从整合区到
近线区的数据流是DW2.0中另一个重要的数据流。这种数据流是可选的,并出现在一下集中情况下:1、整合区有很多数据;2、交互区中的
某些部分数据正在休眠;3、对整合区数据有访问的要求。如果整合区的数据不符合以上的标准,那么就没有必要将其移至近线区。在许多方
面,近线区都充当整合区一个缓存,当数据不需要很频繁的访问时,就放置在近线区。近线区基于非磁盘存储。因此,近线数据存储起来不
会很昂贵,而且能够容纳大量数据。来自整合区的数据流一般是比较慢的。通常整合区的数据都会定期地大块移动。数据访问的概率降低时
将整合区的数据移动到近线区的条件。近线区减少了整合区的数据量,这就降低了整合区的数据量,这就降低了数据仓库环境的成本并提高
了性能。减少整合环境中不被经常访问的数据能够为被经常访问的数据释放整合环境的磁盘存储。

进入归档区的数据流
    数据同样也可以从整合区传入归档区。从整合区移入归档区的数据和移入近线区的数据有着关键的区别。当数据进入近线区时,数据结
构和数据格式得以保存。这意味着数据在必要时可以迅速和顺利地从近线区回到整合区。近线区的目的在于支持整合区的数据访问。当数据
进入归档区,并没有打算让数据迅速流回整合区。归档区的目的是为了长久地保存数据。在未来的某一时刻,数据可能需要取自归档环境并
保存在某处用于特殊分析,甚至可能被送回整合环境,但归档环境并没有对整合区立即和详细的支持的打算。对整合区的立即和独立的支持
是近线区扮演的角色。数据转移至归档区的目的是为了消除低访问率的数据。从整合环境到归档环境的数据流的速度很慢。通常整合数据
移入归档区需要一个季度甚至一个年度的周期。

下降的数据访问概率
    当整合数据的访问概率出现下降时,会触发数据从整合区进入归档区。有两种基本方式来确定数据访问的概率是否下降。一种基于时间
例如超过3年以上的数据都要从整合区中移除。另一种方法是使用数据仓库监视。数据仓库监视会检查对整合区数据的访问次数。使用数据
仓库监视是目前最准确的方法。

数据的异常流
    1、数据从归档区移回到整合区。这种情况下,无论出于何种原因,数据一直被视为用做标准分析处理。这以为着数据的访问概率已经
       提升,且因为数据访问的概率上升和其他原因,数据比较适合在整合区。通常数据以大块的形式从归档区移动到整合区,而不是按
       每次少数记录的形式。返回整合区的归档数据的传送是按需求来进行的。
    2、数据从近线区返回到整合区。CMSM软件来实现。从近线区到整合区的全体数据的移动方式还可以按批处理模式来进行。
    3、数据也可能从整合区到交互区移动。这种情况很少发生。通常参与的数据量并不大。这种回流发生时,必须做到不能影响在线性能。

总结:
    数据流贯穿真个DW2.0环境。
    数据直接或通过ETL从外部的应用进入交互区。来自交互区的数据通过ETL处理流入整合区。
    随着数据的变旧,数据从交互区移入到近线区或者归档区。
    在有限的基础上,数据可能会从归档区流回整合区,并且数据还会偶尔从近线区流入整合区。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26613085/viewspace-1320187/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/26613085/viewspace-1320187/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
DW2.0是下一代数据仓库构架的概念,它是数据仓库的进化版本。DW2.0构架的目标是通过提供更高级别的数据集成和数据分析能力,帮助企业更好地应对庞杂的数据环境和业务需求。DW2.0构架着重强调数据管理和数据整合,以便更好地支持企业的决策和分析工作。以下是关于DW2.0构架的主要特点和优势: 1. 数据集成:DW2.0构架着重强调数据集成,通过整合来源于不同地方的数据,构建一个具有一致性、准确性和完整性的数据集,以供企业各个层级的决策者使用。这种数据集成能力可以帮助企业更好地发现数据之间的关联,提供更准确的分析结果。 2. 弹性架构DW2.0构架采用了弹性架构的概念,即能够根据不同的业务需求和数据规模进行灵活地扩展和调整。这种弹性架构能够适应数据规模的不断增长和业务需求的变化,保证数据仓库的性能和可扩展性。 3. 分析能力:DW2.0构架提供了更高级别的数据分析能力,包括数据挖掘、机器学习、大数据处理和可视化等。这使得企业能够更好地理解和利用数据,发现隐藏在数据中的价值,从而支持更深入的业务决策。 4. 数据质量管理:DW2.0构架注重数据质量管理,通过建立数据质量度量和监控机制,提高数据的准确性、一致性和可信度。这有助于企业更好地利用数据,并在决策过程中避免错误和偏差。 总之,DW2.0构架是下一代数据仓库构架的核心概念,通过强调数据集成、弹性架构、分析能力和数据质量管理,帮助企业更好地应对复杂的数据环境和业务需求,实现更准确、高效的决策和分析工作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值