【数据治理】方法论

1、数据治理定义

数据治理是一种组织内部的规范体系,通过组织内各相关方的治理协同,以实现数据资源治理、数据成本治理、数据质量治理、数据稳定性治理,从而保障组织内低成本、高治理的数据资产管理和使用,进而赋能组织业务策略和目标。


2、数据治理框架

![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/832dcaa023d843f48bce0d73a8419673.png


2.1、治理目标

1)合理的数据资源分配和使用
2)洞察无用的数据资产,减少数据用量以控制数据成本
3)提升数据的准确性和可靠性,保障高数据质量
4)确保数据准时,稳定产出,数据稳定支撑业务

2.2、治理组织

数据治理是一项组织内的协同活动,需要各数据相关方通力协作。
2.2.1、数据计算与治理小组
负责公司统一的数据治理规范、数据治理基本策略和治理工具。
2.2.2、各业务团队数据治理小组
基于数据治理规范,结合业务数据问题,对业务团队数据资源、数据成本、数据质量和稳定性负责。

2.3、治理领域

2.3.1、数据资产管理
数据资产管理是指数据资产的归属及基础属性进行配置,确保数据资产正确归属、配置合理,从而避免数据资产安全问题,减轻成本压力。
2.3.2、数据成本治理
数据成本治理是指通过一系列策略和流程,从事前、事中、事后多个环节对数据资源额度及用量进行有效管理和控制,实现数据资源的健康使用,避免数据资产成本爆炸式增长。
2.3.3、数据质量治理
数据质量治理是指对数据从计划、获取、共享、维护、应用、消亡每个阶段可能引发的各类质量问题,进行识别、度量、监控、预警等一系列活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高
2.3.4、 数据稳定治理
数据稳定性治理是通过合理的人力协作及治理工作,高效保障业务所需的重点数据全链路平稳运行和按憾产出,让数据稳定支持业务。

2.4、 治理职责

2.4.1、业务数据治理接口人
业务数据接口人需要为业务团队的数据资源、成本、质量、稳定性负责,结合数据治理规范和业务数据特定,制定业务自身的数据资产治理策略和细则,推动业务的数据资产低成本、高可用,主要包括:
1)预算和成本 2)资产治理 3)数据稳定性 4)数据安全
2.4.2、项目空间/队列等owner
owner需要为项目空间的新建、管理,直至下线做全生命周期的维护,具体如下:
1)新建 2)资源优化 3)下线 4)资产运维 5)owner变更 6)安全
2.4.3 数据资产责任人(数据资产owner)
数据资产责任人需要对自己名下的数据资产起到管理和治理的责任,配合各业务数据治理接口人和项目空间owner推进数据资产治理工作,具体内容包括:
1)资产管理 2)资产治理 (包含不局限于:①0DPS表生命周期缩减:②元效表下线;⑨元效节点替停或下线;②00PS节点代码优化;⑤数据质量保障:⑥节点稳定性风险处理等)


3、数据资产健康

3.1、数据资产健康度标准

3.2 数据资产健康衡量标准

3.2.1 健康分介绍
健康分以元数据为依托,通过数据处理、算法等方式对各类型数据进行综合处理和评估,对数据资产进行刻画的综合分偵。目前,新版本健康分包括汁算健康分、存储健康分、规泡分、治理分和贡献分构成:
其中,存储健康分、计算健康分和规范分是扣分運辑,从100分往下扣分。治理分和贡献分加分逻辑,从0分往上加分。
3.2.2 健康分治理框架
在这里插入图片描述

3.2.3 健康分计算模型
1)个人健康分总分
个人健康分=【计算健康分a】+【存储健康分b】+【规范分c】+【治理分d】+【贡献分*e】
一般 a%+b%+c%+d%+e%=1。默认情况:a=40%、b=40%、c=10%、d=5%、e=5%
具体系数可在「治理接口人工作台」调整:
• 计算分:按计算类治理项的浪费量算分,从100分往下扣;
• 存储分:按存储类治理项的浪费量算分,从100分往下扣;
• 规范分:按规范类治理项的资产数算分,从100分往下扣;
• 治理分:按30天内治理率算分,从0分往上加;
• 贡献分:按治理节省金额占比算分,从0分往上加;

3.3 资产健康保障工具

为了保障业务数据资产健康,建设 现状分析-资产管理-治理优化-效果分析全链路分析与治理工具,进数据资产治理活动。
1)现状分析;2)资产管理;3)治理优化;4)效果分析


4、数据成本治理

4.1、 数据分层治理原则

在这里插入图片描述

1)在用户视角来看治理:明确治理责任主体;浪费治理;优化治理。
2)在独立经营单元视角上,业务数据治理负责人重点需要完成资源额度合理需求评估、分配及监控。
3)在集群资源运维视角,应该主要聚焦在资源利用率的提升。

4.2、 治理策略

通常我们在治理执行过程会区分事前、事中、事后三个阶段来推进治理。
在这里插入图片描述

常见的治理策略有:

类型策略
存储治理重分布+压缩
冷存
无/低频访问数据删
计算治理连续报错节点治理
产出数据无访问节点
回刷任务管控
暴力扫描优化
数据倾斜治理
UDF优化
任务降频治理
公共子查询治理
简单查询治理
资源不合理配置
输入/输出为空

4.3、 数据成本治理方案及工具

治理方案和工具,主要介绍自动化治理、事前及事后治理这三方面。

4.3.1、自动化治理方案
1)错峰调度;2)物化视图;3)闲时存储治理
4.3.2 事前规范治理
1)节点生命周期管理;2)任务变更管理;3)回刷管控
4.3.3事中治理
1)资源配置优化;2)资源健康查杀


5、数据质量治理

5.1、 数据质量治理原则

数据质量管理原则我们最关注依次是:重要性、预防、标准驱动、系统执行、客观测量和透明度、与服务级别关联。

5.2、数据质量治理策略

通常要先确立业务数据治理的目标(标准模型和高保模型),面向业务场景简历全流程的质量管理体系,在日常、大促和特殊高保场景中引入专项解决方案。
在这里插入图片描述

5.3、数据质量治理工具

5.3.1、数据对比(一致性)
5.3.2、指标检测(指标正确性)
5.3.3、标签/资产质量(一键监管可用性)
5.3.4、数据资损/故障防控(高保)
5.3.5、分析/用数产品自动化测试(产品)
5.3.6、大促备战解决方案(质量&稳定性)
1)实时数据压测 2)离线数据压测 3)数据预案 4)数据预演


6、数据稳定性治理

6.1数据稳定性治理原则

1)标准拉齐与保障共识 2)权益和责任对等 3)风险前置预防 4)事中协同应急 5)问题持续改进 6)度量和监控 7)全面的治理框架

6.2 数据稳定性治理策略

1)事前:重点是拉齐标准和规范,尽可能让更多业务认可并参与协同保障。
2)事中:围绕具体的业务场景保障时效。
3)事后:问题发生后改进措施。

6.3、数据稳定性治理工具

6.3.1 握手保障
对节点owner而言,能够清晰感知自己的节点被纳入基线,并查看近期全量被纳入基线的节点,同时拥有表态不愿保障能力。
对基线owner而言,通过握手机制确保上游owner接受通知,同时了解节点owner不愿保障意愿,通过定点沟通协同保障基线稳定性。
6.3.2 当日产出
6.3.3 次日预测
6.3.4 诊断工具
6.3.5 资源成本异动归因

  • 25
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值