数据质量监控规划


版权
数据质量监控规划
一、项目背景

数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据的恰当使用。

 

二、数据质量产生的原因

       

数据质量问题产生的原因有三大类:

一是源数据问题。

二是数据ETL处理过程中产生的问题。

三是业务需求发生了改变或者没有满足需求。

 

 

 

三、数据质量战略

大多数企业都没有一个数据战略,因为他们不理解其数据的价值,并且他们不认为数据是一个组织的资产,而把数据看作创建它的部门领域内的东西。

缺乏数据战略将导致脏数据、冗余数据、数据不一致、性能低下、可用性差、责任缺失、用户日益不满意数据的性能。

数据质量战略指令:指令主要分为三组,第一组着眼于数据在企业内的重要性,并需要由高级管理层来推动。第二组把制造实物产品的概念应用到数据上,它们应该由数据质量项目团队推动。第三组的重点是建设质量文化,以应对数据的流体性质并满足战略管理的持续挑战。

 

 

 

 

四、数据质量评估流程

数据质量的评估流程: 对所有数据进行一个大而全的梳理,将数据仓库各层的数据按照重要性进行排期,分期分级别进行进行监控。

1.定期测量 

针对非关键性数据和不适合持续测量的数据,定期重新评估为数据所处状态符合预期提供一定程度的保证。定期评估可以确保参考数据保持最新,关系依然稳定,并且业务和技术演进不会导致意外的数据更改。 

 

2.持续监控

持续测量的重点是关键的或有风险的数据,并且以自动化的方式进行,持续测量的目标是: 

1)监控数据的状况,并为数据在何种程度上符合预期提供保障。

2)对数据或处理过程中的变化进行检测

3)制定改进数据的机会

 

 

五、数据质量系统架构

数据仓库是由调度系统来调度的,数据质量系统主要保证数据仓库ETL生成的数据质量。所以数据质量系统也和数据仓库、调度系统息息相关。

 

 

六、数据质量监控维度

1、完备性:数据存在,属性和数据量符合预期

2、完整性:数据关系和规则的符合程度

3、有效性:数据对业务规则的符合程度

4、及时性:关键数据是否能够及时传递到目标位置

5、一致性:数据集内部以及数据集之间的数据变异或则变更程度

 

七、数据质量报告

在做数据分析之前一般都应该初步对数据进行评估。初步数据评估通过数据报告来完成的,它描述了数据结构、内容、规则、和关系的概况。通过应用统计方法返回一组关于数据的标准特征,包括数据类型、字段长度、列基数、粒度、值、格式、模式、规则、跨列和跨表的数据关系,以及这些关系的基数。初步评估报告的目的是获得对数据和环境的了解,并对数据的状况进行描述。数据质量报告规则应该如下:

八、数据质量排期
 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值