数据质量保证和数据质量检测

 

数据质量保证和数据质量检测:

数据质量保证:无论是检测原始库或者是数据仓库,都是要有一个有质量保证的数据库。

以检测数据仓库的质量为例:

原始数据在抽取进入数据仓库后,通过检测数据仓库质量问题来修正原始库,从新抽取进入数据仓库。

检测数据仓库的数据质量:

第一层:保证数据的正确性,全面性,唯一性;

第二层:进行数据的转换,得到符合要求的数据值

第三层:对转换的数据进行分析+结果展示

第四层:对结果进行人工的交流,查找,得出结论。

保证数据的正确性的方法:格式验证,最大,。最值限制等

保证全面性:可以通过记录总数来确保。

保证唯一性:通过账期唯一值来确保。

一个数据可能的问题:没插入,多插入,插入错误,插入正确,

123可能的质量问题:12,1233,12W

通过正确性验证(格式等)的为1234,12,123,124,

通过全面性(个数):不会个数不够122,142

通过唯一性验证(拒绝重复,如果是冗余的话,重复的算作一个):不会是存在的错误为124,123

 

 

对剩余的情况:124,123

124无法验证,123为正确的。124可通过分析比较历史得出为预警的,123通过分析比较历史得出为正常值。

第二层:转换:要对环比进行分析,需要得到本账期和上一账期的数据

要进行最值分析:可以得到在限定的最值之内和之外的值

第三层:分析:获取环比值,

将环比值通过图表的方式展示,超过预警值的124被自动记录下来

,提供人工分析的可能。

只有对比历史记录才能分析,

举例:8月环比,可以通过查看7月,6月的环比来进行比较

也可以通过限制值的范围来提醒超值列。

在通过第二层第三层的分析错误数据的过程最好可以保存下来。

再次分析不用建立

开源工具的功能:

过滤,转换 分析 分析结果展示  原因跟踪  

当前工具:datacleaner

功能:可以分析多种源.

可以过滤,转换 分析 分析结果展示

分析形式固定:只有空,最大,最小,波动等,无法定制分析形式

优点:提供分析过程保存,分析结果展示,分析结果保存。

 

感觉分析和质量检测混合在一起了,以分析结果得出数据的质量问题情况,不提供错误的原因。

对数据质量的检测提供了总记录数,数据分布波形,重复记录数的检测,和格式过滤 ,基本可以完成第一层的功能。

无法分析展示环比在某个区间的行和某个区间之外的行.

数据分析:保证了数据偏差得质量问题的同时也进行了数据质量分析.

 

 

 

 

 


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值