C. 数据仓库 — Kimball架构
Kimball关键性概念
- 总线架构:多维体系结构主要包括后台(Back Room)和前台(Front Room)两部分。
- 后台也称为数据准备区(Staging Area),是MD架构的最为核心的部件。在后台,是一致性维度的产生、保存和分发的场所。同时,代理键也在后台产生。
- 前台是MD架构对外的接口,包括两种主要的数据集市,一种是原子数据集市,另一种是聚集数据集市。
- 原子数据集市保存着最低粒度的细节数据,数据以星型结构来进行数据存储。
- 聚集数据集市的粒度通常比原子数据集市要高,和原子数据集市一样,聚集数据集市也是以星型结构来进行数据存储。
- 总线矩阵:矩阵的行表示业务过程、列表示维度
- 一致性维度
- 一致性事实:一致性事实 在建立多个数据集市时,完成一致性维度的工作就已经完成了一致性的80%-90%的工作量。余下的工作就是建立一致性事实。 一致性事实和一致性维度有些不同,一致性维度是由专人维护在后台(Back Room),发生修改时同步复制到每个数据集市,而事实表一般不会在多个数据集市间复制。需要查询多个数据集市中的事实时,一般通过交叉探查(drill across)来实现。 为了能在多个数据集市间进行交叉探查,一致性事实主要需要保证两点。第一个是KPI的定义及计算方法要一致,第二个是事实的单位要一致性。如果业务要求或事实上就不能保持一致的话,建议不同单位的事实分开建立字段保存。
操作型源系统
ETL
- 特点
- 源到目标的转换
- 一致性维度
- 规范化选择
- 不支持用户查询
- 设计目标
- 吞吐率
- 完整性和一致性
- 步骤
- 从操作型系统导入获取数据
- 清洗数据(消除拼写错误、解决领域冲突、处理错误的元素、解析为标准格式)
- 实际构建和加载数据到展示区域的目标维度模型中
数据展示
- 展示区
- 维度(星型模式或OLAP多维数据库)
- 原子数据及汇总数据
- 按业务过程组织
- 使用一致性维度
- 设计目标
- 方便实用
- 查询性能
商业智能应用
- BI应用
- 随意查询
- 标准报表
- 分析应用
- 数据挖掘及模型
其他架构方法
- 独立数据集市架构
- 关键点:以部门为单位,构建数据集市
- 辐射状企业信心工厂Inmon架构
- 操作型系统
- ETL
- 企业数据仓库(EDW)
- 规范化表(第3范式)
- 原子数据
- 用户可查询
- 数据发布
- 数据集市
- 维度
- 通常被汇总
- 通常是部门级
- BI应用,数据来源:1. 数据集市2. 企业数据仓库
- 混合辐射架构与Kimball架构
- 操作型系统
- ETL
- 企业数据仓库(EDW)
- 规范化表(第3范式)
- 原子数据
- ETL
- 展示区/企业数据仓库总线结构
- 维度(星型模式或OLAP多维数据库)
- 原子数据及汇总数据
- 按业务过程组织
- 使用一致性维度
- BI应用