目录
在当今这个大数据时代,数据质量对于数据的价值有着至关重要的意义。它是数据有效影响业务并驱动业务发展的基础。对于企业级的数据治理项目,数据质量管理是其中重要的一环。
数据质量保障原则
如何评价数据质量的好坏,目前业界已基本达成共识。主要从以下四个方面进行评估:
完整性、准确性、一致性和及时性。
-
完整性
完整性是指数据的记录和信息是否完整、不缺失。数据的缺失包括数据记录的缺失(表行数异常)和记录中某字段信息的缺失(字段出现空值)。需要重点关注数据的生产环节(原始数据的数据同步)和加工环节(数仓ETL)中表行数是否大于0、表行数波动是否正常以及字段是否出现空值或重复的情况。例如,电商交易中的每日交易数据量,(除了双11特殊情况)一般不会出现大幅波动;订单ID、商品ID、卖家ID、买家ID等都是必然不为空的。
-
准确性
准确性是指数据记录中信息和数据是否准确、不存在明显的错误或异常。例如,在用户行为数据分析场景中,UV、PV这类指标数值小于0,则明显是错