数据质量检测标准

背景

为支持数据仓库全局的数据质量管控,需做好风险点监控,确保数据的完整性、准确性、及时性、一致性。为此,拟定DQC配置方案&规则,评审通过后落地实施。

目标

  • 核心任务dqc覆盖率100%,质量问题及时知晓
  • 非核心任务运行情况知晓概貌

方案

基于数据质量中心提供的能力,实现时效性和数据质量监控。时效监控和etl任务绑定,数据质量监控和数仓中的物理表绑定。

出错监控

工作流中任务出错会阻断下游任务,因此任务出错需立即发出预警,此功能由平台提供,无需配置。

时效性监控

任务延迟监控,对超时未完成的任务,及时发出预警。

  1. 在调度平台(az/dophlin)上线任务后,在工作流级别配置调度表达式cron
  2. 在数据质量中心,新建时效性规则,绑定对应任务,设定最大运行时长
  3. 数据质量质量中心后台调度,每2分钟扫描时效性规则,并根据工作流cron表达式,当前时间计算任务运行时间是否超出“最大运行时长”,超出即报警

数据质量监控

不同于时效性监控,数据质量监控需要主动触发执行。即数据质量监控需要在etl任务执行后,check文件生成前,主动触发数据质量规则校验。规则校验未通过则报警,并且根据强弱规则,判定是否生成check文件和执行下游任务,弱规则生成check文件和继续执行下游任务,强规则不生成check文件和执行下游任务。

  1. 改造run_sql.sh脚本,在生成check文件前,触发规则校验(@郭奎
  2. 在数据质量中心,配置表/字段监控规则(@物理表owner)
  3. 切换azkaban任务中run_sql.sh脚本到run_sql_with_rule.sh

数据质量监控规则

规则 = 逻辑 + 期望值

逻辑用于检测统计,期望值用于预警。统计结果不符合期望值即规则校验不通过

规则类型

规则明细类型

规则

逻辑

比较方式(>、

期望值

字段规则

规范

主键唯一

主键重复的条数

=

0

非空校验

字段值为空的条数

=

0

枚举值校验

枚举值不在所给的枚举值列表中的条数

=

0

范围

最大值

所选字段最大值

自选

自填

最小值

所选字段最小值

自选

自填

平均值

所选字段平均值

自选

自填

总和

所选字段总和

自选

自填

同比/环比

同比/环比

所选字段同比/环比

自选

自填

表规则

数据行数

行数

数据行数

自选

自填

同比/环比

数据行数同比/环比

自选

自填

数据文件

文件大小

数据文件大小

自选

自填

同比/环比

数据文件大小同比/环比

自选

自填

自定义规则

自定义

自定义规则

自定义sql(正则、业务校验)

自选

自填

监控细则

Y-必须监控;

T-电话告警;

S-钉钉or飞书告警;

F强规则/W弱规则

空格-可选

风险点监控

风险点描述

规则

数据资产等级

A1

A2

A3

A4

A5

出错监控

任务出错

平台提供

Y&T

Y&T

Y&T

Y&S

Y&S

延迟监控

任务延迟

时效性监控

Y&T

Y&T

Y&T

Y&S

Y&S

表监控

分区数据行数波动

同比/环比

Y&T&F

Y&T&F

自定义

字段监控

主键重复

主键唯一

Y&T&F

Y&T&F

Y&T&F

Y&S&F

Y&S&F

核心指标,重要维度为空

非空校验

Y&T

Y&T

字段值不在所给的枚举值列表中

枚举值校验

核心指标波动

同比/环比

自定义

  • 配置规则时,每张表分别配置强、弱两个规则,强规则下增加规则明细类型统一为“强”,若规则下增加规则明细类型统一为“弱”。
  • 除上述必须配置的监控外:
    • A1~A2任务:3+表/字段规则,1+自定义业务校验规则,其中2+强规则
    • A3~A5任务:3+表/字段规则,其中2+强规则

规则统计

数据质量规则统计

节奏

  • 时效性监控测试,2021-04-14 ~ 2021-04-16
  • 数据质量监控测试,2021-04-19 ~ 2021-04-23
  • 规则细化 @郭奎
  • 核心任务时效性和数据质量监控配置覆盖率100% @物理表owner
  • 非核心任务,时效规则、数据质量规则配置

期待

数据质量中心功能已经非常强大,非常丰富。但是规则配置略微繁琐,且需要二次跳转。期待平台做一些微调,提升易用性

  • 出错监控
  • 数据开发界面嵌入数据质量配置
  • 核心任务,时效性监控默认配置,包括出错监控,延迟监控
  • 规则配置语义更清晰
  • 监控大盘
  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: CSDN 数据质量文档是一份涵盖数据质量标准和指南的文件,旨在确保CSDN平台上的数据具有高质量、可靠和准确。 该文档首先明确了数据质量的定义和重要性。它解释了数据质量对于CSDN平台用户和内容创建者的影响,以及数据质量不佳可能导致的问题和风险。 接下来,文档列出了一些数据质量标准和指引,以帮助CSDN平台用户和内容创建者提供高质量数据。其中包括以下几个方面: 1. 数据准确性:文档指出了数据准确性的重要性,并提供了一些准确性控制的建议,比如核对数据、验证来源、设立数据监控等。 2. 数据完整性:文档介绍了数据完整性的定义,并提供了一些确保数据完整性的建议和策略,如避免数据遗漏、确保数据更新等。 3. 数据一致性:文档指明了数据一致性的重要性,并列出了一些确保数据一致性的措施,如使用标准格式、统一命名等。 4. 数据可靠性:文档强调了数据可靠性的必要性,并提供了一些确保数据可靠性的方法,如确保数据来源可信、建立数据备份等。 此外,文档还可能包括数据处理流程和数据质量的监控和改进方案等内容,以确保数据质量的持续提升和监控。 总之,CSDN 数据质量文档是一份有助于提高平台数据质量的指南文件,它通过明确数据质量的重要性和定义,并提供了一些具体的标准和建议,帮助CSDN平台用户和内容创建者提供可靠和准确的数据。这有助于增强用户对平台的信任度,并提供更优质的用户体验。 ### 回答2: CSDN 数据质量文档主要是指CSDN平台上的数据信息的准确性、完整性、一致性以及及时性等方面的标准和规范,以确保数据质量和可靠性。 首先,CSDN 数据质量文档需要明确数据的来源和采集方式,确保数据的真实性和可信度。这可以通过明确数据的获取途径和采集时间等来实现。 其次,文档还应该规定数据的存储方式和结构,确保数据的完整性和一致性。这包括约定数据的命名规则和格式,以确保所有数据都能按照统一的规范进行存储。 此外,文档还需要规定数据的更新频率和时间要求,以保证数据的及时性。这可以通过设定数据更新的周期或要求数据提供者在一定时间内提交更新来实现。 在数据质量文档中,还需要制定一套数据清洗和校验的方法规则,对数据进行审核和验证,以确保数据的正确性和可用性。这可以通过设定数据清洗的步骤和标准来实现。 最后,文档还应该制定数据监控和纠错的机制,及时检测并纠正数据中的问题和错误。这可以通过定期进行数据检查和监控,及时发现数据质量问题并采取相应的纠正措施来实现。 总之,CSDN 数据质量文档对于保证数据的准确性、完整性、一致性和及时性非常重要,通过明确数据的来源和采集方式、规定数据的存储方式和结构、制定数据清洗和校验的规则、设定数据更新频率和时间要求,以及建立数据监控和纠错的机制等,可以有效地提高CSDN平台上数据质量和可靠性,提升用户对平台的信任度。 ### 回答3: CSDN数据质量文档是一个提供详细信息和指导的文档,用于确保CSDN平台上的数据质量达到一定标准。该文档主要包括以下几个方面的内容: 1. 数据采集标准:该部分规定了数据采集的标准和流程,确保数据的准确性和完整性。例如,要求数据采集者经过专业培训,了解数据的来源和采集方法,并按照统一的规范和流程进行工作。 2. 数据清洗规则数据清洗是指对采集到的数据进行处理和优化,以消除数据中的错误、冗余和不一致性。文档中会明确规定数据清洗的标准和步骤,确保数据质量和一致性。 3. 数据验证方法:为了验证数据的准确性和有效性,文档中会介绍一些常用的数据验证方法,如数据对比、数据抽样和统计分析等。这些方法对于发现数据异常和错误非常重要,有助于提高数据质量。 4. 数据管理规范:文档中会对数据的管理规范进行详细说明,包括数据的存储方式、备份策略和权限控制等。这些规范有助于保护数据的安全性和完整性,防止数据遭到意外删除或篡改。 5. 数据质量指标:文档中应包含一些数据质量指标,用于衡量和评估数据质量的好坏。这些指标可用于监控和改进数据质量,例如数据的准确性、一致性和及时性等。 通过建立和遵循CSDN数据质量文档,我们能够确保CSDN平台上的数据质量得到有效管理和改进,提供给用户更准确、可靠的数据资源,从而提升用户的体验和满意度。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值