DW2.0下一代数据仓库架构_第3章 DW2.0组成部分--关于不同区(读书笔记)-CSDN博客

版权声明：
该系列文章（DW2.0下一代数据仓库架构）内容系作者学习用笔记，
欢迎共同学习，所载内容版权归原书作（译）者所有，请勿转载商用。

DW2.0由四个不同的区组成：交互区、整合区、近线区和归档区。一般会根据数据仓库的大小和使用阶段来确定使用哪个区或者不使用
哪个区。例如，在数据仓库的早期不可能存在归档数据，小型数据仓库也许根本没有任何近线存储器。并且，不同企业中DW2.0数据仓库的
具体时间也不大相同。每一个不同的区有自己的一些考虑因素和特征。实际上，即使是在同一个区内，对结构化和非结构化数据的考虑相差
也很大。从企业的角度看，不同类型的使用者会从各自的区中访问和分析数据。在很大范围内，办公室人员会使用交互区来完成日常工作；
整合区可以间接地支持不同的管理层，从公司的初级管理者到公司董事长；分析团队经常使用近线区；而归档区则使用相对较少，或被那些
保险统计员和工程人员使用。此外，还存在着不同的用户群和使用DW2.0环境的不同区。

交互区
交互区是数据进入DW2.0环境的入口。数据要么通过处于DW2.0外部的ETL应用进入DW2.0,要么是作为交互区内部应用事物的一部分来处理
交互区可能包含多种应用，这些应用可能包含也可能不包含整合数据。交互区中的应用可以更新并且能够具有高性能的事务处理，通常以亚
秒来计算。
交互区存在着许多小型的事物流，这等同于某公路上仅允许保时捷和法拉利行驶，由于公路上没有行驶缓慢的车辆，交通工具的平均速

度非常快，所以这个系统中运行的任何车辆的响应时间也都相当快。
    交互区另一个特征是由该区采用的技术所管理的数据量。交互区中仅有适量的数据。交互区中运行的数据从几GB到几TB不等。相对DW2.0
环境的其他部分，交互区的数据量是比较小的，另外，交互区中的数据几乎总是存储在磁盘中。数据存储在硬盘加上交互区工作任务通常情
况下是有较小且快速的事物处理组成，因此所有响应时间非常快。
    除了能获得好的性能外，交互区运行的事物处理还能更新数据，交互区的数据可以被添加、删除和修改。
    交互区的一个特性是，由于数据可以更新，所以任何查询只是查询时刻有效。
    如果数据是通过外部应用程序进入交互区，那么数据需流经ETL层。未单独使用ETL工具进行整合处理的数据是可以进入交互区的。在这
种情况下，数据在进入整合区的时候被整合处理。
    交互区中的数据可能参照也可能不参照对其设置的约束。是否使用参照完整性完全取决于运行中的程序。
    交互区中数据访问特性是访问速度非常快--以亚秒为单位。当交互区的数据被访问时，有时希望每次只访问其中的一部分记录。而且
访问模式应该是随机的。这种数据访问模式决定了磁盘存储是理想的。
    交互区内部仅有少量的历史数据。在交互区中，典型的历史数据都是一天甚至仅仅是几个小时以前的收。一般情况下是找不到几个月以
前的数据的，数据在变旧之前就已经进入整合区了。
    交互区中的数据粒度是非常不均匀的。一些应用程序是用的数据粒度比较小，而另外一些应用程序则会整合数据，使其粒度非常大。
    数据从交互区进入整合区。如果数据来自交互区外部，则直接进入整合区。如果数据是由交互区内应用程序执行时产生的，那么数据将
作为程序运行的副产品被收集并传给整合区。

整合区
    整合区是应用程序数据和交易数据最后汇总为企业数据的场所。把应用程序数据和交易手转换为企业数据需要做很多转换。例如，将不
同的结算日转化通用的结算日；对数据关键字的调和；整合应用数据的日期格式等
    整合区包含多种不同的结构，以下是集中类型的数据结构都可以在整合区中找到：
    1、面向对象的数据--这种数据类型下，数据被组织成较大的对象域并且保存了详细细节。例如：假定一个销售交易的细节数据要进入
整合区，在销售数据中，销售条目进入销售产品对象域，购买产品的购买者可能有一些购买洗好信息需要进入顾客对象域，而销售额信息
将进入销售额对象域。
    2、少量概要数据--在整合区中的概要数据一般都要在很多场合使用，而且不能改变。例如：对一个公共贸易公司而言，其季度性税收
状况、开支、利润以及其他信息都会进入一个公共领域，这样任何需要这些信息的人都可以访问它。
    3、持续时间跨度的数据--对于一些变化较慢的数据，将它们以连续时间跨度的结构来存放时很有用的。例如：除非顾客的婚姻状况改变
否则他的地址和姓名是不会经常改变。因此，在整合区中以连续的记录保存关于顾客的信息是可能而且是合理的。
    4、概要数据--概要数据是这对于一个对象从各种渠道收集到的数据。一个顾客记录就是一个概要记录的简单例子。概要记录用来记录
顾客的信息。例如，顾客人数统计，顾客最后一次的购买目录，顾客活动的时间，顾客消费的地方等等。从概要记录跟踪顾客的信息不费
吹灰之力。
    整合区中的数据是在对交互区中的数据通过ETL层处理后收集得到的。在进行ETL处理时，同时进行数据的质量处理。简单地数据质量处
理就是域检查和范围检查。域检查的一个例子是确保性别符号。而范围检查会读取数据，例如如果年龄大于150，范围检查可能会标记错误
数据经由数据质量编辑器收集、整合、传递后，就进入整合区。
    整合区的工作流是非常复杂的。就像跑着保时捷、法拉利和许多拖车的高速公路。高速公路上车辆速度取决于它前面的车辆。很明显，
这种工作流于交互区的工作流相比，完全是两个级别。整合区的复杂工作流有其核实的理由。有些人需要访问大量数据，其他人只访问很少
的数据，他们都想从整合区得数据，所以导致非常复杂的工作流。
    整合区通常包括大量的数据，因为：
    1、数据是粒状的：很多原子单元的数据被收集和管理。
    2、历史数据：经常保存3-5年的有价值的数据
    3、数据来源于多种渠道
    整合区中复杂工作流的不同带来所希望的响应时间的不同，整合区中的响应时间从10秒到更长时间不等。不一致的原因就是混合的工作
流。当整合区中进行大规模数据获取工作时，对少量数据的查询可能被暂停或者延迟。另一方面，当没有其他人使用时，访问整合区的
用户能获得很好的响应时间。
    可以将大的查询任务限制在空余时间段，那些需要在高峰期使用整合区数据的较小任务的响应时间久能够得到提高。响应地，大型查询
用户将获得较差的响应。
    访问整合区中数据的事物处理仅限于读取数据。这不像交互区中，数据可以添加、删除和修改，整合区中的数据只能访问，不能更新。
这并不以为这整合区中不允许数据更改，而是可以以一种不同的方式完成对数据的更改。任何时候对整合区中数据的更改都是通过新建一条
记录来完成。每次改变都通过创建一条新纪录来完成，这样数据变化的历史跟踪记录也被保存下来。另外数据被正确地放置在整合区中就永
远不能修改。记录可能被发送到近线存储和归档处理中，但已经正确创建后就不能更改。这意味着改变的处理方式和交互区终端处理方式有
很大不同，在交互区中，对一条记录更改始终在进行。
    整合区中的数据有一定的稳定性，一旦提出问题时，将总是会得到同样的答案，即使过段时间再提出相同的问题。
    当数据进入整合区时没有例外，都是以单向进入且有较严格的控制路线。
    整合区中有两种相关的参照完整性，区内参照完整性和区间参照完整性。区内参照完整性是数据通过各区时的完整性，就是说当数据从
交互区进入整合区时，数据必须有可辨别的源和目标以确保数据不会丢失。交互区中如果没有相应的数据输入则整合区中也没有数据输入，
反过来也一样，整合区中没有响应地数据输入，则交互区中也没有数据输入。然而并不会仅因每个区有相应的数据入口，就意味着所有的
输入值都应该是一致的。一个输入的值可能用欧元表示，另一个用美元，两个数据元素没有相一致的值就意味着他们就不是整合区相应输入
整合区另一种参照完整性是相同区内的参照完整性，这种参照完整性意味着同一区内部数据元素之间可能存在某种关系。
    与交互区相比，整合区中数据访问模式有所不同，对数据的调用较少，但每次调用常需要更多的数据。这种访问模式常常伴随着从小到
大的各种数据提取请求组成的复杂工作流。
    整合区和交互区的另一个区别在于不同环境中历史数据的容量有关。整合区中有大量的历史数据，在其中找到3-5年的有价值的历史数据
是很正常的事情，相反，在交互区中，找到多于30天的有价值的收都非常苦难。
    整合区和交互区的数据粒度不同，交互区中有着不同的数据粒度，整合区中数据非常小并且是原子的。整合区支持各种形式的DSS处理，
每个DSS处理对数据都有自己的要求，因此，整合层次上粒度级越小，所支持的DSS处理的形式就越多，反之支持的DSS处理的形式越少。
    数据一旦离开整合区可能进入近线区和归档区。当数据很多且有缓存需求时，数据便进入近线区。当数据的访问概率显著降低时，数据
进入归档区，通常，随着数据变陈旧它将进入归档区，但并不是总这样。

近线区
    近线区是整合区的一种缓存形式。当数据仓库的整合区很大时，通过近线区缓存数据来降低整合区的工作量就很有意义。整合区中的数
据不是很多时，使用近线区可能就不是很必要。
    近线区的使用出于两个原因--成本和性能。近线存储成本大大小于磁盘存储。因此，如果不能负担得起用于整合区的磁盘存储硬件的昂
贵成本，那么整合区中的大量数据就可以被下载到近线区中以削减大量的成本。
    通过将访问率较低的数据下载到近线区可以大大提升性能。因为只有将那些很少访问的数据送入近线区，整合区存储器中保留的数据才
能避免由“意外”的大量不准备使用的数据所带来的开销。
    近线存储是将数据连续地存储在自动管理的磁盘上。近线存储用于大量数据的廉价存储。数据在存入近线存储器后仍然可以通过电子方
式获取，但存储代价相较于将整合区的全部数据存入磁盘明显减少。
    数据被置于近线存储后，它将像任何其他环境的一样服从于工作流。近线存储的典型工作流不需要较多的数据访问活动，原因是仅当
数据的访问概率很小的时候才被放入近线存储中。实际上，如果对近线区数据的某种特定类型进行频繁访问，这部分数据需要移回整合区。
    那么数据怎样从整合区进入近线区？手动方式和自动方式。采用手动方式，有一个管理员，他监督整合区中数据的使用或接收数据移动
的请求，然后把数据从整合区移动到近线区或者从近线区移动到整合区。另一种自动管理是通过CMSM--一个跨媒体存储管理器来实现。CMSM
位于整合区和近线区之间，并自动管理从一个环境到下一个环境的数据移动。CMSM可以一种透明性模式运行。在透明模式下的CMSM检查进入
系统的请求，查看是否有查询近线存储管理数据的请求。当一个需要查询近线存储管理数据的请求到达，CMSM将请求事物队列，并区查找所
请求的数据，再把数据下载到磁盘存储上，然后将事物出队并执行事务。开始执行后，事物就能够找到所有它需要的数据，这些数据由
CMSM存放在磁盘上。通常，近线区中的数据是整合区中数据结构和格式的镜像。近线区中数据的设计、DBMS以及DBMS的发布于整合区中响应
的模块式一致的。这样做一个非常重要的原因是数据在两个环境中需要有效地交换。显而易见，数据需要从整合环境移动到近线环境，但再
从近线环境移回到整合环境不是很常见了，只有对数据的访问概率上升时才能把数据从近线区移回到整合环境。因此当数据的格式、结构、
技术一致的时候，从近线区移动到整合环境很容易，但是若缺少其中任何一项时，这种移动都会变得非常困难。
    近线环境的一个主要优势是它能管理超大容量的数据，远远超过交互环境和整合环境，在近线环境中，管理几百TB的数据都是可能的。
    离开近线区后，数据一般进入归档区。值得注意的是，归档区中的数据可能直接从整合区中得到而不是经过近线区。数据如果已经进入
近线区，一般就会从近线区进入归档区。
    当数据的访问概率急剧下降时就将其移动到归档区中。

归档区
    归档区是用来存放访问概率变得非常小的数据的区域。有时候，数据被存放在归档区并非因为其访问概率，而是由一些法律的原因，因
为有时数据的存储是由政府长期授权的。
    过去，将数据进行归档常常是一条单行道，进入档案的数据变得不可访问。如今当数据被存放在归档环境，这些数据必须在未来的某个
时间点是可读取的，否则归档环境就是一种对时间和金钱的浪费。
    与归档环境相关的工作流是很不同寻常的。很长一段时间常常对于归档数据没有任何访问，然后有一天对于数据有了需求，或者是几条
记录或者是一个很长的完整的连续的数据串。
    对于归档数据来说最大的问题通常是如何找到需要的数据。通常有大量的归档数据，并且搜索数据的基本准则是模糊不清的，于是在
归档环境中查找数据就像在干草堆中寻找一根针一样困难。
    归档区的数据量是巨大的。随着时间的流逝，人们希望在归档区中存储比其他任何地方都多的数据。在数据仓库生命周期的初期，档案
中存放的数据量通常是很小的。但是随时间的推移，当数据仓库变得成熟时，他的归档数据会累积、发展，进而包含海量数据。
    访问归档环境的响应时间是由若干单位时间来衡量的，这些单位时间是指截至到在DW2.0结构中的其他位置再也没有发现所需数据所花费
的时间。在归档环境中预期花费几天甚至几周的时间才能找到数据是很常见的，响应时间当然取决于归档环境中的数据量大小、索引是否
合理、搜索的准则以及存储归档数据的技术。有时一次搜索也许非常快，但是我们队搜索数据的普遍期望最好不要设定得太高。
    有时，当完成一次搜索时，数据可能会从归档环境移动到整合环境。这种归档数据的复原表明我们有理由怀疑这时大量分析和访问需要
数据。在大多数情况下，进入归档环境实在是一段痛苦的经历。通过把使用频繁的归档数据移回到整合区可以缓解不得不再次进入归档环境
进行搜索所带来的经常性痛苦。
    使用归档数据所能做的最有用事情之一就是创建被动索引。当归档区的数据只是呆在那里的时候，基于可能的访问路径来创建索引才是
很好的利用时间。
    当数据被送往归档区时，数据在整合环境或近线环境所具有的结构是否能够适当地保持下来是不确定的。保持与否都有各自的优缺点。
保持进过归档区的数据的结构的一个优点是实现起来很容易。数据简单地以一种格式读入，然后以同样的格式写出。这大概像获取数据一样
容易。但是有一些原因使得这种方法也许不是最佳的，原因之一就是一旦数据被归档，那么他们也许就不会像整合环境那样访问数据。对于
归档区的数据，整合环境的格式也许根本不合适。另外，整合区中的数据通常与使用它的某一特定软件版本兼容。等数据在归档区中被检索
时，这个版本的软件可能已经不存在了。当然也可以以两种格式存放归档环境中的数据，一种是整合环境中的格式，另一种是更加简单通用
的格式。
    归档区的数据很少被访问，而且访问的时候，通常情况下整合归档数据组都会被访问到，检索归档环境中的单条记录的情况极为少见。
    访问归档环境中的数据很有趣的一方面是，通常，数据需要基于模糊的字段或者数据值来定位。偶尔会出现以标准码和标示符访问数据
的需求，但经常有基于非常不正规的数据类型的访问。
    归档数据数据量非常大且需要保留很长时间，所以归档区并不具备引用完整性约束。
    人们常常以查找任意相关数据并将其移动到整合区或者探索程序中为目的来搜索归档区。但是有时归档区进行自检索也是很有意义。换
句话说，归档区可以被当做决策的依据来使用。然而，这种方法的缺点包括但是不局限于以下几点：
    1、在归档区中确实有大量的数据
    2、归档区中的数据需要被顺序搜索
    3、没有为待完成的搜索提供有用的索引
    进一步说，与其他区域相比，可供归档区使用的数据查询和分析技术很有限。

非结构化处理
    DW2.0环境另一半是非结构化数据的领域。虽然DW2.0的四个分区都适用于DW2.0环境的非结构化数据，但是与DW2.0的结构化方面相比，
每一个区在非结构化领域都呈现出不同的特征。对于非结构化的DW2.0数据领域来说，甚至不确定所有这四个区是否都有用。
    DW2.0的非结构化整合区的输入来源于文档和其他格式的文本。非结构化数据输入可能来自几乎任何地方，文本可以是任何语言，可能相
关也可能不相关。
    为了把非结构化数据装入DW2.0数据仓库，非结构化文本首先以电子格式聚集在一起，然后经过专为非结构化数据设计的ETL处理，文本
被分割成适用于分析处理的文本块。为了使用文本分析，非结构化文本必须经历的过程包括：
    无用词消除；
    分词
    特殊/通用分析
    可替换拼写分析
    分组数据的分类
    通过这些严格的过程后，文本被分析处理做好了准备，在非结构化整合环境中有几类数据：
    1、内部分类和外部分类：一个分类就是一组具有相互联系的词汇。非结构化文本环境既包括内部创建的分类，也包括来自几乎任何地方
       的外部分类
    2、被捕获、编辑的文本：被捕获、被编辑的文本时指那些通过ETL处理并且被放入数据库--标准关系数据库的文本
    3、链接：那些连写非结构化数据和结构化数据的数据
    4、简单指针：非结构化的数据文本偶尔会驻留在其他环境中，只有引用它的索引才能进入非结构化的交互数据仓库中。
    非结构化整合环境的工作流较为复杂，响应时间的希望值也很复杂。
    在非结构化整合环境中基本有两种活动--数据的加载和数据的访问。非结构化数据几乎是不可能更新。当一个文本描述或者工作被写入
后，如果需要修改，那儿只能重新写入。因此，逐渐地或者部分地更新文本数据显然不现实。
    在DW2.0中非结构化环境和结构化环境很不相同。通常只有一个非结构化的整合区，而是否需要一个非结构化的近线区还是个疑问。然而
有时还是会为了非结构化数据而是用归档环境。当数据的访问概率降低时，就会被存放入非结构化环境的归档区中。

总结：
    一般情况下，数据从交互区进入DW2.0环境。数据可以通过ETL或者直接进入DW2.0环境。交互区是一个面向应用的领域，这个区域可以、
进行数据更新，并且支持2-3秒的响应时间。交互区中的工作流小而快，不允许大的事物通过。数据在交互区中以一种随机、快速而且少量的
访问模式被访问。在交互区中只有有限的历史数据。
    整合区数据在进入该环境之前就已经经过整合了，通常，数据整合的工作是由ETL工具完成。整合代表了数据状态的一种变化。交互区中
的数据是面向应用的，而整合区的则是企业数据。进入和离开整合环境的数据工作流是混合的，包括了大大小小的事物。整合区的响应时间
也是混合的，从几秒到几小时都有可能。在整合区中通常会有大量的数据存在，数据一般为3-5年。整合区中没有数据的更新。当数据需要
修改时，会对数据进行快照然后插入数据库，同时，也会创建一条历史数据的记录。数据访问时不经常发生的，而且大量的数据访问通常是
集中进行的。当数据离开整合区，它们不是进入近线区就是进入归档区。
    近线区是整合区的一个缓存。近线区基于非磁盘存储技术运行，其中也包含了整合区中数据的镜像。近线区通过人工或者一种跨媒介
存储管理方法与整合连接。近线区的工作流主要是不频繁的数据读取。但是数据的读取都是集中进行的。当数据的访问概率下降时就被放入
近线区。
    当数据的访问概率显著下降，数据被放入归档区。归档区包含了自主式的数据包。这些数据包像时代文物迷藏器一样，在未来的某个
特定时间被打开，为归档区创建被动索引时一个不错的想法。通常归档区有大量的数据，通常数据的时间会很久。为了实用，归档数据必须
和软件版本嗯哼产品约束无关，这是因为当需要数据的时候，相同版本的产品不太可能继续实用。
    非结构化数据只有先被整合后才能对文本进行分析。在进入非机构化DW2.0环境前非结构化数据必须通过ETL层。非结构化数据通常有大

量数据。对于非结构化数据来说可能没有归档区和近线区。

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/26613085/viewspace-1318511/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/26613085/viewspace-1318511/