- 总览
- 数据建模
- 数据开发
- 数据监控
- 元数据
- 数据治理
一、总览
本文尝试从搭建数据仓库的角度来分析数据仓库的核心生产要素。从开始建立数据模型,再到搭建完成后的数据监控,以及后期进行的元数据建设和数据治理,即形成了一个完整的数据仓库生命周期。下文针对每个部分进行分析。
在搭建数据仓库之前,应该先明确数据规范。数据规范常常包括以下这些部分。
- 库表规范:库规范、表命名规范、字段命名规范、字段类型规范、字段备注规范、TTL规范
- 开发规范:项目目录规范、项目任务名称规范、任务队列规范、任务代码规范等
二、数据建模
在进行数据开发之前,通常需要进行系统的数据建模。在常用的lambda架构下,实时数仓和离线数仓只是计算引擎和储存介质不一致,其数据模型是一致的,因此数据建模极其重要。
- 高层建模:深入并抽象业务
数据模型来源于业务,我们应该首先深入了解业务的逻辑,再抽象业务横向的主题域。例如短视频可以抽象为视频、用户、音乐、道具、行为、社交、电商等等,主题域依赖业务实体而存在,而又因为业务不同可以区分出边界。
- 中层建模:明确主题域之间和之内关系
首先应该明确每个主题域的唯一主键,并由此得到主题域之间主键的连接关系。再明确主题域内的层次结构,例如视频日志明细信息、视频明细信息、视频统计信息、视频维度属性等等明细和统计层结构。
- 底层建模:明确表关系和字段
针对