数据治理之数据质量


一、前言

之前我们介绍了数据资产治理类工具——数据资产管理产品架构规划设计思路,本期,我们来聊聊数据质量检测和监控的核心工具——DQC和SLA。


二、基本概念


DQC,即Data Quality Control,数据质量检测/数据质量控制,一般我们称为数据质量监控。

SLA,即Service Level Agreement,也就是服务等级协议,指的是系统服务提供者(Provider)对客户(Costomer)的一个服务承诺,我们通常称为数据产出分级运维服务。

由定义可知,DQC关注数据口径,负责数据准不准的监测,而SLA关注产出及时性和稳定性,这两者有机结合,共同保障了数据质量。


三、问题分析

常见数据资产,如埋点、数据表、数据字段、数据指标,往往存在同字段不同表之间,相同维度下居然结果不一致,或者不同维度下比例失调不符合实际,此类常见问题,我们一把可以通过DQC设置表内字段监控,或者表间字段监控,或者指标波动监控来实时感知数据质量,及时发现并及时处理。

除了质量之外,一些核心报表资产,由于面向用户的级别较高,业务关注度较广,对产出的及时性要求较高,而如果这类报表上游较复杂,往往会出现上游一个任务节点重启超时,甚至重启失败,造成整个下游任务挂起,最终报表产出严重超时,在业务侧引发事故,此时,我们就需要第一时间感知到各个任务节点的产出结果、作业执行情况等数据,有问题第一时间报警处理,SLA便能解决这类问题。

当然,除了以上DQC和SLA主要面向的业务场景外,还有一类场景,举个例子,我的前三期数据治理系列文章,分别从数据治理的策略,数据安全治理工具和数据资产治理工具入手。

其实我们很容易发现,无论是数据安全治理,还是数据资产治理,我们的治理目标其实相对容易设定,整体都是围绕着安全性、完整性、规范性、唯一性设计指标,比如数据资产安全等级一致率(即同一个数据字段,在上下游各数据表间的安全等级一致性的比率)、数据资产安全达标率、数据资产重复率、数据资产元信息完整率等等。

但以上这些指标,常常都是各自团队负责出报表或者出监控去处理,其实,如果我们从平台化的思维去设计,本来数据治理中心就是一个整体,安全中心可以为其他中心提供权限服务,资产中心可以为其他中心提供资产托管和追查服务,同样,DQC和SLA也能为其他中心提供指标监控、产出运维服务。

所以,此时,DQC和SLA就不单单只是一个表级、字段级的质量监控工具了,我更愿意把他们称为一个整体,即数据质检中心,统一提供各类表、指标、字段的监控服务。


四、产品目标


综上,数据质检监控中心,包含DQC和SLA两套工具,其中DQC主要面向三类人群:负责监控数据质量数据产品、负责处理数据质量的数仓工程师、使用数据服务的数据分析师、业务产品经理。而SLA关注的是ETL产出时效治理,主要面向数仓工程师。

而在需求场景上,DQC主要负责对数据资产质量和波动的监控,SLA主要负责对数据产出和任务调度结果和时长的监控。进一步细分需求场景,其中主要面向一次性实时数据质量测评,希望获得数据质量评分,或者进行数据质量抽检,获得质量报告需求的,我们通过质量检测模块来满足。

同理,面向具体数据资产,希望通过配置定时调度任务,监控每天数据或者业务波动,并根据报警等级跟进治理任务的,我们通过质量监控模块来满足:

质量检测:面向数据资产评分、数据质量测评,能实时获得质量评估报告的需求场景,主要功能包括检测目标选定,检测规则配置,质量评估报告生成等。
质量监控:面向具体数据资产,通过配置定时调度监控任务,分级报警处置,主要功能包括监控规则配置,分级预警配置,报警任务处置等。


五、产品架构


图表1:质检监控中心产品架构设计图

 


六、产品设计

1. DQC


1.1 数据质检

数据资产质量检测一共分为三步,首先是按照数据资产类型,按照质检监控中心统一规范,将数据接入质检平台,质检平移台支持对离线数仓和实时数仓提供资产规范性和安全性检测。

完成数据接入,接下来选择需要检测的目标项目,可以按照库粒度,也可以按照项目组粒度,对选定目标范围内的数据资产进行检测评分,完成检测后,如图表2所示,给出检测评分。

图表2:数据资产测评示意图

 

1.2 质量监控

① 监控配置

质检监控中心支持对埋点、ETL离线表、指标和资源成本提供监控服务,如图表3和图表4所示,支持新建监控任务,查看检测详情,临时开/关任务,关联资产下游调度并执行分级阻断等功能。

图表3:ETL离线表资产监控任务列表

 

图表4:ETL离线表资产监控任务配置


② 报警处置

 

质检监控中心支持对监控阈值设置红、黄、蓝三级报警,如图表5所示,其中针对红色报警,需要专人专项跟进并反馈进度和处理结论。

图表5:报警任务处置

2. SLA

① SLA列表

SLA负责对报表和数据表产出任务完成情况的监控报告,如图表6和图表7所示,SLA列表展示了监控任务的执行情况,提供SLA新建和配置,执行日志查询以及下游ETL关联的能力。

图表6:SLA列表页


图表7:SLA详情页

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据治理数据质量体系(参考表格)》是一份关于数据质量治理的参考资料。数据质量是指数据能够满足使用者的需求,包括准确性、完整性、一致性、可靠性等方面。数据质量的提高是数据治理的中心任务之一,这份参考资料提供了一个系统和全面的数据质量体系框架。 该参考表格分为两个部分:数据质量维度和数据质量治理要素。数据质量维度包括准确性、完整性、一致性、时效性、可靠性、可用性和安全性七个方面。数据质量治理要素包括数据质量管理、数据质量监控、数据质量评估、数据质量改进、数据质量培训和数据质量文化六个方面。这些维度和要素构成了数据质量体系的基本框架。 数据质量体系的建立需要全面考虑企业的实际情况,采用科学的方法和工具来进行数据质量管理。数据质量管理要到规范、统一和集中管理,使用标准化的数据质量指标和数据质量评估工具,建立数据质量管理制度,确保数据的准确性、完整性和一致性。数据质量监控要对数据质量的变化进行实时监控,及时发现和解决数据质量问题,确保数据质量不断提高。数据质量评估可以对数据质量进行定量和定性评估,找出数据质量的问题和症结,采取相应的措施来改善数据质量数据质量改进需要对数据质量的问题进行针对性的处理,制定改进方案,并采取有效措施来改善数据质量数据质量培训要对数据使用者进行数据质量教育,提高数据使用者的数据质量意识,提高数据质量管理水平。数据质量文化是数据质量体系的基础,要建立良好的数据质量文化,提高全体员工的数据质量管理水平,促进数据质量的不断提高。 总之,《数据治理数据质量体系(参考表格)》提供了一个科学、系统的数据质量体系框架,对于企业建立有效的数据质量管理制度和提高数据质量水平具有重要的参考意义

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值