一、元数据管理系统
元数据管理系统是外部了解数仓的门户入口,一个好的元数据系统至少包含如下信息:
1. 表信息
表英文名、中文注释、表状态(在线/下线)
2. 字段信息
字段类型、英文名、中文名、字段注释、保密级别(机密/保密/一般)、统计逻辑说明
3. 负责人信息
业务/开发负责、所在部门
4. 分区信息
分区名、分区大小、分区记录条数、生成分区的时间
5. 血缘信息
表上游、下游节点信息
6. 代码信息
生成该表对应的代码地址超链接
7. 存储信息
总表大小、波动情况
8. 热度信息
标识被下游依赖的数
9. 权限信息
申请访问超链接、权限审批到单人单表单字段粒度、不同保密级别字段对应不同审批流程
10. 使用注意事项QA
二、数据质量监控
数据质量监控系统主要基于规则判断达到数据监控的目的,系统建设一般分为三个阶段:
1. 表级别的监控:
表的总条数、总大小、分区数据、各分区条数、各分区大小、条数/大小同环比、日增长情况
2. 字段级别的监控:
枚举值异常判断、特殊值判断、范围判断
3. 全链路数据监控:
主要依赖于上下游血缘分析,自动判断跟踪故障点,并及时告知相关负责人。
其中,表级别和字段级别的监控是比较常规且易实现的监控方式;全链路数据监控比这两者要复杂很多,涉及到从源数据——》数据通道——》数据ETL——》数据展示的全过程