数据治理
数据治理字面上就是把数据管理好,为啥还要这么重视。原因就是开发同学为了实现产品功能,有的把数据存储在mysql/oracle这样的数据库里,有的直接log日志文件里,有的怼到redis,还有搞到kafka等等。比如为了解决大量用户同时访问的问题,有可能分库分表了。a同学支持了一下数据需求,b同学支持了另外一个数据需求。ab同学互相不懂对方逻辑,业务方也只能指定的找ab。数据支持变成了人肉支持,而且一个人的力量还是有限的。
专业的来说,数据主要有两大块,一块是历史已经有了的数据-存量数据,一块是每天要接入的数据-增量数据。数据治理就是对存量数据由乱到正,建章立制。对增量的数据,严格把控,行不出规。
一般公司发展阶段
- 第一阶段业务发展初期
快速响应业务的数据需求,主要规范技术和指标口径。(其实就是技术选型和业务拍板一个口径,给结果就完事) - 第二阶段数仓迭代期
开始步入正题,架构上的话用维度建模,把指标,安全,权限,生命周期,血缘关系,元数据等打包成一个产品。这个数据产品做完后,就有一套系统了。
如何开启治理
数据治理,主要是对两部分数据进行规范,存量上由乱到治,增量上行不逾矩。
对内实现
- 指标体系管理
- 离线数仓(维度建模)
- 数据安全(权限管理,脱敏)
- 元数据管理(包含生命周期等)
对外展示
- 数据查找
数据地图
功能1:元数据管理(主要是查找元数据,通过维度,指标,表)
功能2:通过主题查找(数据域-主题)
功能3:血缘关系
功能4:生命周期管理
功能5:权限管理
功能6:数据安全 - 数据可视化
- 任务管理