大体流程为***业务模型->概念模型->逻辑模型->物理模型***
。
业务建模
解决业务层面的分解和程序化
。就是和业务部门聊聊需求,熟悉一下业务。了解一下你们需要啥数据(指标和维度
),你们有啥数据。这过程中,将业务部门的需求和实际情况记录汇总,依据此来大概确定未来数仓的技术选型
和数据主题域
搞清楚系统边界,确定好主题域
,说白了就是确定这个数仓要干什么,不干什么。
概念模型(领域建模)
就是和业务部门把业务理清楚之后,根据现有数据整理出实体表都有什么,维度表都有什么,事件表都有什么,关系表都有什么,这些表的关联性。将所有数据整理为ER图,计划好这些数据怎么存放,如何关联使用。
逻辑模型
其实就是设计表结构,根据上一步整理的ER图,设计具体的表的表结构和etl方法。
比如什么字段做主键,数据怎么维护,怎么更新,怎么调用。
比如拉链表等。
物理建模
具体的开发,结合业务数据位置、业务数据结构、ETL工具、集群性能等开发具体的代码或者建立具体的ETL工作流程。
常见名词解释
- 指标
用户需要的结果字段,比如年总产量、人平均工资
- 维度
计算指标的依据,比如时间、机构