- 数据调研、划分主题域
通过与业务部门的交流,了解建立数仓要解决的问题,确定数据分析或前端展现的主题和各个主题下的查询分析要求。主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系。
2) 明确统计指标
确定主题后,需要考虑分析的各种指标。它们一般为数据值型数据,量度是要统计的指标,必须事先选择恰当,基于不同的度量可以进行复杂关键性指标(KPI)的设计和计算。
3) 构建总线矩阵
明确业务过程和维度所属主题域、明确维度与业务过程的关系,最后形成一个总线矩阵图表。
- 构建明细模型
DIM公共维度层 (DIM)公共维度层由维度表构成,基于维度建模理念,建立整个企业的一致性维度。维度是逻辑概念,是衡量和观察业务的角度。在划分数据域、构建总线矩阵时,需要结合对业务过程的分析定义维度。
构建明细事实表DWD,将原始数据表和各个维度表进行关联,生成事实表。
5) 构建汇总模型
根据衍生指标和派生指标构建DWS
6) ETL以及代码实现
数据清洗转换和传输。业务系统中的数据加载到数据仓库之前,必须进行数据的清洗和转换,保证数据仓库中数据的一致性。
7) 数仓应用、结果验证
开发数据仓库的分析应用。满足业务部门对数据进行分析的需求。
8) 数仓管理
元数据治理、数据质量监控、数据血缘管理
创建流程如下图所示