数据质量监控

数据质量监控与保障:数据质量保障的学习,包括方法,数据测试,DQC配置,能发现数据问题,排查问题,解决问题,总结问题

简介

数据质量是数据开发里面非常重要的,错误的数据可能还会带来错误的决策。我们主要是监控数据的准确性、完成行、一致性、及时性。采取的措施是三步法:事前-事中-事后。事前主要通过自测,sqlscan,事中主要通过dqc进行监控,事后主要是处理分析,沉淀方法。

如何监控数据质量

监控数据质量的哪些方面:

准确性:数据信息是否存在存在错误或异常,是否符合业务预期,如号码位数是否正确,统计指标是否正常
完整性:数据记录和信息是否完整,如数据记录缺失、字段信息缺失等
一致性:数据是否遵循了统一的规范,数据集合是否保持统一的格式
及时性:数据产出时间是否及时、准时,符合预期

采取的哪些措施:

事前:sqlSCAN、自测、codeReview
事中:DQC+摩萨德
DQC:
表级监控,Auto-DQC,基于DQC-API实现自动批量配置表级数据质量监控,
字段级别监控, Column-hunt,字段级别批量并自动配置数据质量监控,包括空值率、枚举值检查、最大值、最小值等
指标级别波动监控,基于历史波动情况,采用四分位统计法计算合理阈值,自动进行异常值检测
业务规则异常监控,依据业务专家设定的经验值,对数据进行异常检测
运行日志级别监控,通过调用ODPS API,解析运行日志,进行运行过程中的输入输出监控
事后:
处理、分析、策略、沉淀至质量库

碰到数据质量问题是怎么解决的:

以枚举值限定为例
问题1:
现象:原先正确的代码,突然发现某一天的数据不对了。
原因分析:代码里面通过写死了限定某些枚举值,当上游业务系统发生变更,新增了枚举值或者枚举值修改时,数据加工的代码没有做相应的修改,就有可能产生质量问题。
解决方式:通过质量工具监控枚举值的新增和修改变化,异常告警时及时分析影响。
问题2:
加工逻辑bug,数据不符合业务预期。业务规则级别监控工具,根据业务专家的经验值对某一指标(对应于表里的一个字段)设定的数据取值范围,比如 仓库的面积一般会在 1000平方米以上,在20万平方米以下。如果数据中出现,一条记录:A仓库面积为5平方米,那么就应该被识别为异常。不同的用户,被探查的表不同,被探查的字段不同,探查的规则不同,都可以统一通过这一套流程进行探查

通过对表设置监控,设置校验方式和阈值,比如表行数1,7,30天波动率,空值率过高,枚举值异常等情况,异常时进行告警。

数据监控对卡点校验怎么做的,波动监控如何确定具体的范围

单量是我们统计的一个核心指标,以单量为例,计算某一个月的月均单量,然后以此为基准,在此基础上上浮或者下浮一定的幅度。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值