数据质量建设的意义,在于数据质量问题的解决和保障数据质量。通过成立数据质量管理组织,明确成员的职责以及分工。建立基于数据仓库质量问题定义、发现、分析、反馈、整改的闭环流程。最后通过抓手将数据质量与kpi考核挂钩,提升每一个人的数据质量意识。
1.数据质量定义
数据质量主要是指数据满足使用需要的适用程度。这一般可以从以下四个方面进行评估。
准确性
准确性是指数据的信息和数据是否准确,是否存在异常或者错误的信息。比如说下单金额为负数,转化率大于1等等,这种一看就说明数据不准。
一致性
一致性是指同一个指标在不同的表中命名,取数口径(逻辑)等必须保持一致。保持一致性是为了让我们能更好的管理和使用。避免出现同一个指标多个出口结果不一致,谁对谁错的问题。
及时性
及时性是指数据能否按照需求及时产出。数据是有时效性的,及时产出给下游才体现的出数据的价值。而现在随着需求越来越精细化,业务对实时的需求也越来越迫切。对数据及时性的产出要求也越来越高。
完整性
完整性是指数据记录和信息是否完整,是否存在缺失的情况。数据缺失主要包括整条记录的缺失和单个字段的缺失。可能原因是在加工过程中出现被过滤,多表关联没有对应上或者上游同步过来的数据本身存在的问题等等。
2.数据质量建设方案
设立负责人:
首先需要设立一个负责人,主要职责是 问题确立、制定规范