汇编语言如何在rom中写入数据_数据仓库中数据如何准备,处理,发布,展现

子系统十三:事实表生成系统

事实表拥有组织的度量。维度模型将围绕这些数字度量构建。事实表生成系统关注ETL结构化需求以有效地建立三种主要的事实表类型:事务、周期快照和累积快照。在加载事实表时一个主要的需求是维护相关维度表之间的参照完整性。

事务事实表生成注意事项

1,事务粒度表示一种以特定时刻定义的度量时间。即在什么时刻发生了什么事情。

2,事务事实表的时间戳要么是一种简单的日历粒度外键,要么是一种包含日期/时间戳的日期粒度的外键,取决于具体的分析需求。

3,事务事实表描述的事实必须和粒度吻合。并且进应该描述在哪个时刻发生了什么。

4,通畅事实表应该是时间进行分区,包含审计键,序列化ID,或者日期、时间戳列以方便备份或者重新开始加载工作。

周期快照表

1,周期快照粒度表示一种常规重复的度量或者度量集合。类似周报,月报,年报。

2,周期快照表应该一个单一日期列,表示整个周期。

3,周期快照表的事实必须满足粒度的要求,仅仅描述适合于所定义周期的时间范围的度量。

4,周期快照通常具有与事务事实表类似的加载特性,插入和更新的过程相同。

累积快照事实表

1,累积快照粒度表表示一个有明确的开始和结束的过程的当前发展状态。这些过程持续时间较短,无法将他归类到周期快照中。例如订单 就是典型的累积快照示例。

2,累积快照事实表是一种表示具有良好定义的开始和结束的有限过程的有效方式。

子系统十四:代理建适配系统

所有ETL系统都包含一个将输入事实表行的操作型自然键替换为适当的维度代理键的步骤。

9823d21a2d1ba6878732b032b0dda7da.png

维度代理键替换事实记录的操作型自然键

1,键查找过程中应对每个输入的自然键或默认值进行匹配。如果查询过程中,存在一个无法解决的参照完整性错误,则需要反馈这些错误到负责处理的ETL过程去解决。

2,在处理过程中,输入事实记录的每个自然键备用正确的当前代理键替换。不要将自然键保存在事实表行中,事实表仅需要保留唯一的代理键。在所有事实行经过全部处理步骤之前不要将输入数据写入磁盘。如果可能,所有需要的维度表应当被固定在内存中,这样每个输入记录的自然键都能够随机访问相关事实行。

子系统十五:多值维度桥接表适配系统

某些场景下,事实表必须支持具有多值的最低粒度事实表维度。当无法直接改变事实表的粒度来支持这种维度,则必须要用桥接表来实现多值维度与事实表的连接。用于支持可变深度层次。

子系统十六:迟到数据处理系统

数据仓库通通常建立于一种理想的状态下,数据会按照预定时间到达。然而各种各样的原因会导致数据延迟到达。这个时候就需要针对迟到数据设计一套处理系统。

当用户无法接受延迟数据的时候,ETL系统需要额外的能力以支持此类需求。ETL需要支持两种环境。第一种是支持迟到的类型2维度更新。此时,需要在维度中增加一个具有新代理键的修订客户行,然后更新所有后续事实行与客户表关联的外键。受影响维度行的有效日期也需要被重置。此外需前向扫描维度以观察在客户维度中是否存在任何后续类型2行,并修改受影响行中的列。

第二中情况当接受数据延迟的时候,如果认为数据是有效的,但是尚未处理的数据,则应当分配一个新的包含一系列哑元属性值的新客户维度行的客户代理键。

子系统十七:维度管理系统

维度管理系统负责为数据仓库准备和发布一致性维度。一致性维度是一种被集中管理的资源:每一个一致性维度必须具有单一的、一致性的来源。维度管理系统包括以下ETL处理:

1,实现在维度设计期间由数据管理人员和利益共同体许可的公共描述性标识

2,在新源数据产生后,在一致性维度中增加新行,建立新的代理键

3,当已经存在的维度条目发生类型2变化时,建立新的代理键

4,在类型1和类型3变化发生时候,修改涉及到的行,但是不需要改变代理键

5,在类型1和类型3变化发生时候,更新维度的版本号

6,将更新的维度同事复制到所有事实表提供者

子系统十八:事实提供者系统

事实提供者负责从维度管理器接受一致性维度。事实提供者的责任更为复杂,具体包括:

1,从维度管理器接受或下载复制的维度

2,当维度无法被简单复制而必须采用本地更新方法的时候,事实提供者必须处理标识为新的和当前的维度记录,并在代理键流水线中更新当前键映射,同时需要处理标识为新的但包含迟填日期的维度记录

3,将自然键替换为正确的代理键后,在事实表中增加新行

4,将那些因为发生改变而失效的聚集删除

5,重新计算受影响的数据集

6,确保所有基本和聚集事实表的质量,这取决于聚集表的正确计算

7,将更新后的事实和维度表在线发布

8,通知用户数据已经更新了

子系统十九:数据聚集系统

聚集是影响性能最富有戏剧性的方式。ETL系统需要在不造成重大干扰或消耗大量资源及处理周期的情况下,有效地建立并使用聚集

聚集的建立需要加入并维护聚集事实表行并缩减聚集事实表需要的维度表。最快的更新策略是增量式更新,单对维度属性的主要挑战可能是需要删除并重建聚集

子系统二十:OLAP多维数据库建立系统

OLAP服务器以一种更直观的方式展现维度数据,确保一些分析用户能够对数据进行切片和切块操作。不要将OLAP服务器当成关系数据仓库的竞争者,但是也不要仅仅将其当成是对关系数据仓库的扩展。

子系统二十一:数据传播管理器

负责将一致的、集成的企业数据从数据仓库展现服务器发送到器他环境中以应对特殊目的的ETL过程。多数组织需要从展现层获取数据供业务合作方、客户以及特定目的的供应商共享。他们需要数据仓库的数据能够满足特定格式需要的数据挖掘工具

我是数据僧(微信:13716544417) ,谢谢大家关注。以下是关于数据仓库的历史文章

数据仓库-读书笔记一

数据仓库-DW/BI架构对比-读书笔记二

数据仓库-事实表/维度表技术-读书笔记三

数据仓库-高级事实表技术-读书笔记五

数据仓库-高级维度表技术-读书笔记六

数据仓库-零售业务举例维度模型设计4步骤-读书笔记(七)

数据仓库-零售业务举例维度表设计细节-读书笔记(八)

数据仓库-零售业务举例如何提高仓库扩展能力-读书笔记(九)

数据平台建设整体思路阐述和总结

数据仓库-零售业务中库存如何设计-读书笔记(十)

数据仓库中如何使用缓慢变化维技术

ETL系统相关技术和注意事项

ETL中前期数据分析、变化数据探测,数据获取 注意事项

数据仓库基础概念分享

ETL过程的数据清洗和整合

数据的准备展现过程中如何处理维度

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值