版权声明:
该系列文章(DW2.0下一代数据仓库架构)内容系作者学习用笔记,
欢迎共同学习,所载内容版权归原书作(译)者所有,请勿转载商用。
DW2.0环境一个基本要素是数据与时间的关系。不像其他环境中数据与时间是无关的那样,在DW2.0环境中,所有数据都以这样或那样的
方式与时间相关。
DW2.0中的所有数据--与时间相关
在访问任何数据单元时,需要知道数据在什么时间是最精确的。一些数据表示从1995年开始的信息。另外一些数据表示从1月份开始的
信息,还有的数据表示从今天早上开始的信息。在DW2.0中,不论是明确的还是暗含的,所有的数据均有一个描述了它的精确性和相关性的
相关时间。有两种记录类型。一种是用来建立数据在某一时刻的快照。这种类型数据的主键结构中包含日期和时间信息。另一类型含有一个
开始日期和结束日期,这表示其代表了一个时间块而不是时间点。这两种情况,时间元素都是主键结构的一部分。主键是复合键,而时间
部分是复合键中的一个组成部分。
交互区中的时间相关性
在交互区中,数据的相关性有些不同。在该区中,数据值被假定为当前访问的时间。交互区数据用来表示访问时刻的精确值,所以交互
区中不包含日期信息。
DW2.0其他部分中的数据相关
在整合区、近线区和归档区中的每一条记录均表示一个时间点或一个时间段。这种数据与时间的相关的概念产生了一些完全不同的处理
方式。在交互环境中,完成数据更新。在这种情况下数据的更新是指数据值的实际改变。
整合区中的事务处理
让我们考虑整合区中的一个情况。在上午10点31分时,整合区数据库中有一个2000美元的记录。然后执行了一个交易,在上午10点32分
一个新的记录被放到数据库中。这样在数据库中有两个不同的记录,分别显示了不同时间下的不同数据。因为数据与时间的不同关联方式,
不同环境下的数据库中的数据内容完全不同。
离散数据
离散数据对于大量的快速变化的变量很实用。
连续时间段数据
连续时间段数据有一个不同的特征集。典型地,记录中的连续时间段数据仅有很少的变流量,并且这些变量并不经常改变。造成这种
特性的原因是每次有一个值改变时,会重新写入一个新的连续时间段记录。在设计连续时间段记录时要十分小心,因为如果数据没有被适当
地组合在一起,就可能导致切实的混乱。
姓名、出生日期、地址和性别等属性适合存入连续时间段记录:1、在内容上更改缓慢;2、全部都与个人的描述信息相关。
一个记录序列
多个记录形成了一个连续的序列。尽管可以利用多个连续时间段记录建立一个连续记录,但是这并不允许重叠。如果存在记录的重叠,
将导致逻辑上的不一致。例如,在重叠的时间上有两个不同的居住地址,这在逻辑上说不通。
非重叠记录集
虽然多个连续时间段记录不允许重叠,但是他们的时间可以是不连续的。
开始和结束一个记录序列
存在多种选择来开始和结束连续时间段记录的序列。一个记录序列可以在任意时间点开始和结束。序列中第一个记录的开始时间可以是
一个实际值,也可能是负无穷小,这时表明记录包含了从一开始的数据。如果是一个时间点,对任意一个比这个开始日期更早的时间点,都
只是不存在数据的定义。记录序列的结束操作也和上面的一样。一个连续时间段记录的序列中的结束记录的结束时间可以是具体值,也可以
是无穷大。无穷大时表明这个记录中的值将会一直被应用,知道在写入新的记录。
数据的连续性
离散数据的一个局限就是在数据的两个测量值之间没有连续性。而连续时间段数据没有上述局限。借助连续时间段数据,可以对数据的
时间连续做一个判断。
时间瓦解数据
在时间瓦解数据中,存在着多种对数据的变量的形式。当数据写入系统时,其一小时来度量。然后当一天结束时,会把这一天24小时的
值都加起来形成一个一个一天的值的记录,并将这24小时的度量值清零;在一周结束时,会建立一个一周的总值并将每天的值清零;在一个
月结束时,会建立一个一月的总值并将每周的值清零;在一年结束时,建立一个一年的总值并将月的值清零。在完成这些后,对于小时
日、周等都仅有一个记录集合。因此会节省大量的存储空间。在基于数据越新,需要的数据细节就越多这样的假设下,时间瓦解数据表现得
很好。如果某人要找今天的某个小时的数据,很容易找到,但是如果要寻找6个月之前某个小时的数据,就无法找到了。
归档区中的时间相关变量
在归档区中通常以年为党文存储数据。一年的数据被存储,紧接着又一年的数据被存储。以这种方式分割数据有很多充分的原因。最具
有说服力的原因是数据的语义每年都会有细微的变化。某年假如一条新的数据元素。第二年会加入一个不同定义的数据元素。第三年会有
一种不同的计算方式。每年总会与之前的年份有细微的变化。
总结:
DW2.0中的所有数据以这样或那样的形式与某个时刻相关。
交互区数据都是当前数据,其在访问时刻是准确的。DW2.0其他形式的数据记录都带有时间标记。
时间标记有两种形式。一种附加了一个日期信息,另一种附加了一个开始日期和结束日期。第一种数据是离散数据,后一种是连续时间
段数据。
连续时间段数据可以串成一个更长的时间段。多个连续时间段记录中定义的时间段可以是不连续的但不能够重叠。
DW2.0中还存在其他形式的时间相关。例如时间瓦解数据。仅当当前数据需要被访问且在细节上进行分析的时候,时间瓦解数据是非常
有用的。随着时间推移,对于细节的需求就会减少。
在DW2.0中还有一种时间相关刑事就是归档数据所用的形式,通常,归档数据按照每年不同的数据定义将数据组织起来。这就允许数据
随着时间推移有语义上的细微的变化。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26613085/viewspace-1320018/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/26613085/viewspace-1320018/