数据仓库中数据质量保证的常用方法

本文介绍了在数据仓库中确保数据质量的两个阶段——ETL前和ETL后的方法。ETL前涉及数据摸底、数据调研以及模型选择;ETL后包括检查行数一致性、主键重复、关键字段及组合字段条数的一致性。这些步骤旨在确保数据的准确性和完整性。
摘要由CSDN通过智能技术生成

ETL前

一、数据摸底,数据调研
对于业务库中的数据要弄清表里字段的类型以及comment释义,以及字段出现null或者comment释义之外的码值的原因,与开发和业务沟通判断是否需要补充还是过滤
二、模型的选择
现在我自己常用的是拉链和快照,首先这是根据业务以及数据规模的大小确定的,不管是那种模型,我们都应该支持回溯历史,也就是可重复执行。

ETL之后

一、比较行数是否一致

一般我们会比较ETL操作之后行数是否一致的情况,如果出现不一致要进行明细的比较,看缺失的数据的原因

select count(1) from table a

二、判断是否主键重复
主键重复是很常见的数据质量问题

select count(<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值