版权声明:
该系列文章(DW2.0下一代数据仓库架构)内容系作者学习用笔记,
欢迎共同学习,所载内容版权归原书作(译)者所有,请勿转载商用。
几乎所有来自外部源的数据都是通过ETL处理传递到交互区的,虽然偶尔也直接传递到整合区。但是一些少见的情况下,我们也通过另一
种方式传递来自外部环境的数据。
粒度管理器
这种处理机制就叫做粒度管理器。粒度管理器所作的工作与ETL处理截然不同。普通的ETL处理中对象域对不同类型的习惯性存储。ETL读
入一个源记录,然后将该记录分成几个不同部分,根据他们所以来的对象域的不同,分别将这几个部分发送到不同的目的地。粒度管理器与
ETL处理截然不同。与将数据从单一的记录拆分成多条后送入面向对象的数据单元不同,粒度管理器实际上是一个合并数据的过程。合并或
统一数据的需求并不是经常出现。但是在某些罕见情况下,当外部世界的源数据细节程度太低时,这些数据就必须统一。在使用因特网时
产生的点击流数据就是一个需要使用粒度管理器的绝好例子。当网络处理行为被追踪时,鼠标的每次移动、页面的每次跳转以及每次进入一
个新的链接都会产生一条点击流记录。这些发生在网站被追踪时的活动数据的细节程度被降到最低。这些低级别的点击流数据往往存在很大
的问题,绝大部分数据都没有任何商业价值。据估计,最终90%的点击流数据都是无用的。点击流数据跟踪的特点就是产生以及获得了大量的
无用数据。这些在点击流数据中存在的无用数据是一个极大的没有任何必要的开销。另一个常见的由于粒度太低而需要粒度管理器的例子是
模拟计算机手工数据。大部分模拟数据都是可有可无的,但是也有小部分是及其重要的。这些重要数据的粒度非常低,但是又必须在DW2.0环
境下使用,因此它必须在使用粒度管理器处理之后才能被导入。
过滤数据
大量的数据通过一个类似点击流的处理机制进入工作流,然后被过滤、聚集或者合并。当在DW2.0环境下有多个地方需要使用时,就可以
放置粒度管理器。当数据进入交互区时,数据直接进入整合区的位置可以放置粒度管理器。当数据被传递到归档环境时偶尔也会使用粒度
管理器。在数据被传递到归档环境时使用粒度管理器是一种非常少见的情况。只有在整合区发生大规模的交易,并且这些交易的细节永远不
需要用于分析的情况下,使用粒度管理器才有意义。
粒度管理器的功能
1、消除不必要的数据:那些在未来对公司没有任何参考价值的输入记录将被丢弃,这些数据预计占了总数据90%
2、合并:那些对公司有参考价值的数据可以经常进行合并,即将多条记录合并为一条记录
3、聚集:某些情况下降不同种类的数据聚集成一条单独的记录会比数据合并更有意义。
4、改写数据:当数据被改写时,它会以一种格式和结构输入而以另外一种格式和结构输出。改写那些原本粒度很低的数据非常常见。
这些动作的直接结果就是极大地压缩了数据并且剔除了无用数据。
本地与第三方粒度管理器的比较
数据粒度管理器可以由第三方的软件供应商构造,也可以由本地软件构造。绝大多数情况下,我们都是用第三方ETL软件,但是使用第三
方粒度管理软件的需求却不是那么强烈。只有很少的特性是粒度管理器和ETL共有的。面向顾客的处理过程需要经常使用粒度管理器,因此,
很少用本地软件来构造粒度管理器。
粒度管理器的并行化
有时会有大量的数据需要通过粒度管理器来处理,那么就有可能需要通过并行地运行粒度管理软件来减轻处理负担。通过并行地运行两
个或者更多的粒度管理软件实例,处理数据所需的时间将会大幅度减少。
作为副产品的元数据
除了可以将数据压缩到一个合适并且有效地大小外,粒度管理还能够被用来生成元数据。在粒度管理器中作为副产品生成的元数据可能
包含以下信息:
1、那些数据被丢弃了
2、那些数据被合并了,合并后的记录包含哪些内容
3、那些数据被聚集了,聚合后的记录包含哪些内容
4、数据是如何被改写的,改写后的记录包含哪些内容
元数据汇总了粒度管理的处理结果。
总结:
有时外部的数据对于DW2.0环境来说粒度太低,这时就需要在数据被载入数据仓库之前对它使用粒度管理器,从而提高数据的粒度级。
当数据进入DW2.0环境或者在DW2.0各区传递时,粒度管理器就负责对数据进行过滤、合并、聚集或者重构
数据粒度管理器能够并行的运行。它可以由本地软件构造,也可以通过第三方软件供应商构造。
元数据是粒度管理过程中产生的副产品。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26613085/viewspace-1320923/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/26613085/viewspace-1320923/