ETL前
一、数据摸底,数据调研
对于业务库中的数据要弄清表里字段的类型以及comment释义,以及字段出现null或者comment释义之外的码值的原因,与开发和业务沟通判断是否需要补充还是过滤
二、模型的选择
现在我自己常用的是拉链和快照,首先这是根据业务以及数据规模的大小确定的,不管是那种模型,我们都应该支持回溯历史,也就是可重复执行。
ETL之后
一、比较行数是否一致
一般我们会比较ETL操作之后行数是否一致的情况,如果出现不一致要进行明细的比较,看缺失的数据的原因
select count(1) from table a
二、判断是否主键重复
主键重复是很常见的数据质量问题
select count(<