浅谈数据治理方法
数据治理的目的
数据治理的目的是要构建更好用的数据仓库,下图为数据仓库好坏的衡量标准
数据治理的方法
根据上图可知数据治理可以分为以下两个方面入手
优化模型设计(完善度、复用度、规范度、扩展性)
-1、建立数据指标字典wiki,将各层(尤其dws) 模型字段和etl流程详细记录下来,可以让使用者通过查阅wiki就能够轻易上手
-2、让数仓工程师专心负责少数主题(避免所有主题都接触,但是了解都不深),以提高业务熟悉度。每个人对自己负责的几个业务方向精通,整个团队的业务熟悉水平就能得到提高。
完善数据平台
数据平台的以下几个点可辅助数据治理
- 1、任务调度的管理(数据血缘、任务延迟检测)
- 2、任务资源的监控(cpu占用率、gc频率、磁盘占用)
- 3、小文件的管理(可开启小文件合并开关,必要时对任务产出结果进行合并)
管理权限
权限管理可保护企业的重