数据治理目的:清晰企业数据资产,对资产进行全面梳理
数据治理这一块做过的实际项目
-
原生集群
专项治理
采集集群元数据信息:
1)对表的元数据和业务元数据进行合并,一方面做成数据字典,方便数仓之外人员查看,另一方面可以监控到资源占用较多的任务和表,分别处理小文件和清除僵尸数据,做ddl控制
2)对集群元数据进行合并,监控资源使用情况,峰值,合理安排任务运行时间,错峰,削峰,监控任务运行情况
3)数据质量,老生常谈,数据服务SLA基本靠数据质量来保证,必做空值,重复值,枚举值验证,交叉验证
在做:
1)血缘,快速追踪任务上下游,修数据,字段级别和表级别
2)热力图,访问情况 -
阿里云dataworks一站式开发平台
1)针对公司开发规范落地情况进行校验(事中校验),标准sop执行
使用py脚本对提交任务进行检查
2)数据安全(字段等级划分 -> 动态、静态加密)