数据仓库质量建设及DQC配置

1. 数据质量保证原则

  • 完整性
  • 准确性
  • 一致性
  • 及时性

2. 数据质量建设方法论

1.** 知晓消费场景**
通过数据资产等级和基于元数据的应用链路分析解决知晓消费场景问题。
2.数据生产加工各环节卡点校验
根据资产等级的不同,当对应的业务系统变更时,决定是否将变更通知下游;高资产等级的业务,当出现新业务数据时,是否纳入数据中,需要卡点审批。
离线卡点校验主要有数据开发、测试、发布和历史或错误回刷等环节的卡点校验。
3.风险点监控
可能出现的数据质量和数据时效性(摩萨德)的监控。
摩萨德是离线任务的监控报警,它会根据离线任务的运行情况实时决策是否告警、何时告警、告警方式、告警给谁等。摩萨德提供了两个最主要的功能:强保障监控和自定义告警。

4.强保证监控
监控范围:上游所有任务
监控的异常:任务出错、任务变慢、预警业务延迟
告警对象
何时告警:实时任务一般一小时校验一次,离线任务一般在数据执行完马上校验
告警方式:短信、电话、飞书消息、邮件等

3. 数据校验规则

规则1. 主键重复校验

业务主键重复校验
Select 业务主键,count(1) as num
From table
Group by 业务主键
Having num>2

处理指导:
业务发生变化,曾经的业务主键发生改变
业务数据有问题
数据同步有问题

规则2. 数据量校验

每个周期全量数据量范围
select count(1) from table where dt=xxxx-xx-xx
每个周期增量数据量范围
select count(1) from table where dt=xxxx-xx-xx and 时间=具体某一天

规则3. 重要字段校验

枚举值校验
枚举值个数 : count distinct
非空校验
null 、空字符串等

规则4. 指标校验

指标交叉验证
范围校验
eg:xx率 范围 0-1 (xx_rate<0 or xx_rate>1)

规则5. 字段总数校验

业务表字段个数校验
防止出现加重要字段未通知的情况

规则6. 数据及时性校验

在预定的时间,数据有没有计算出来

4. ods层数据校验

一般情况下,ods层数据需要检查:规则1+规则2+规则3+规则5+规则6

5. dw层数据校验

一般情况下,dw层数据需要检查:规则1+规则2+规则3+规则4+规则6

  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值