做过大数据的伙伴应该都清楚,数据的质量是直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量。质量不高的数据不仅仅是数据本身的问题,还会影响着企业经营管理决策;错误的数据还不如没有数据,因为没有数据时,我们还会基于经验和基于常识的判断来做出不见得是错误的决策,而错误的数据会引导我们做出错误的决策。因此数据质量是企业经营管理数据治理的关键所在。
而最近我们在所进行的数据治理项目的过程中就对数据质量标准和质量规则进行了梳理,数据的质量是从六个维度进行衡量,每个维度都从一个侧面来反映数据的品相。
根据检验复杂的程度由低到高,这六个维度分别是:完整性、及时性、唯一性、一致性、规范性和准确性。
那么,相应的每一个检核维度又可以参考以下的质量规则来对数据进行校核:
完整性
- 空值或者无效:检查字段是否为空;检查数值是否为0
- 记录数异常:检查源表和目标表的记录条数是否一致
及时性
- 时间切片缺失:检查是否有缺失日期数据
唯一性
- 存在冗余:检查是否有重复数据(技术主键和业务