数据仓库中数据质量保证的常用方法

最新推荐文章于 2024-09-26 10:22:13 发布

少心

最新推荐文章于 2024-09-26 10:22:13 发布

阅读量1.6k

点赞数 1

分类专栏：数据仓库大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41595282/article/details/103794070

版权

本文介绍了在数据仓库中确保数据质量的两个阶段——ETL前和ETL后的方法。ETL前涉及数据摸底、数据调研以及模型选择；ETL后包括检查行数一致性、主键重复、关键字段及组合字段条数的一致性。这些步骤旨在确保数据的准确性和完整性。

摘要由CSDN通过智能技术生成

ETL前

一、数据摸底，数据调研
对于业务库中的数据要弄清表里字段的类型以及comment释义，以及字段出现null或者comment释义之外的码值的原因，与开发和业务沟通判断是否需要补充还是过滤
二、模型的选择
现在我自己常用的是拉链和快照，首先这是根据业务以及数据规模的大小确定的，不管是那种模型，我们都应该支持回溯历史，也就是可重复执行。

ETL之后

一、比较行数是否一致

一般我们会比较ETL操作之后行数是否一致的情况，如果出现不一致要进行明细的比较，看缺失的数据的原因

select count(1) from table a

二、判断是否主键重复
主键重复是很常见的数据质量问题

select count(<

最低0.47元/天解锁文章

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。