一、大数据的数据仓库数据质量
源端业务系统数据库 ---- > 数据仓库
中间有可能丢数据: 源端(100条) 数据仓库(90条)
中间有可能多数据: 源端(90条) 数据仓库(100条)
不丢数据: 源端(100条) 数据仓库(100条)
二、数据质量管理
1、数据量的比对 select count(1)
2、数据内容全字段比对,很难比较,只能做数据抽查工作
3、抽查数据时间: 依据业务周期性
4、复盘 每月做一次全量
三、方法
利用sparkSQL
补数据 或 删数据 full join
补数据: select * from t where bid is null 拿到a表字段的 数据 拼接sql插入数据仓库
删数据: select * from t where aid is null --> bid --delete 语句
数据仓库的的数据质量管理思路
最新推荐文章于 2024-04-21 22:32:01 发布