数据质量管理
原则
对于数据质量的评估从四个方面进行:完整性、准确性、一致性和及时性。
-
完整性
完整性是指数据的记录和信息是否完整,是否存在缺失的情况。数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失。
-
准确性
准确性是指数据中记录的信息和数据是否准确,是否存在异常或者错误。
-
一致性
一致性一般体现在跨度很大的数据仓库体系中,比如不同分支的业务数仓,对于同一份数据,必须保证一致性。
-
及时性
在确保数据的完整性、准确性和一致性后,接下来就要保障数据能够及时产出,这样才能体现数据的价值。
方法概述
-
消费场景知晓
消费场景知晓部分主要通过数据资产等级和基于元数据的应用链路分析解决消费场景知晓的问题。根据应用的影响程度,确定资产等级;根据链路血缘,将资产等级上推至数据生产加工的各个环节,确定链路上所涉及的数据资产等级和在各加工环节上根据资产等级不同所采取的的不同处理方式。
-
数据生产加工各个环节卡点校验
数据生产加工各个环节卡点校验部分主要包括在数据生产加工各个环节的卡点校验。根据资产等级的不同,当对应的业务系统变更时,决定是否将变更通知下游;对于高资产等级的业务,当出现新业务数据时,是否纳入统计,需要卡点审批。
-
风险点监控
风险点监控部分主要是针对在数据日常运行过程中可能出现的数据质量和时效等问题进行监控。
-
质量衡量
对质量的衡量既有事前的衡量,比如DQC覆盖率,也要有事后的衡量,用于跟进质量问题,确定质量问题原因、责任人、解决情况等。
消费场景知晓
-
数据资产等级定义
针对大数据平台的海量数据,如果一概而论势必会造成精力无法集中、保障无法精确,因此需要给数据划分等级,即毁灭性质、全局性质、局部性质、一般性质和未知性质,不同性质的重要性依次降低,具体定义如下:
- 毁灭性质,即数据一旦出错,将会引起重大资产损失,面临重大收益损失,甚至重大公关风险,
- 全局性质,即数据直接或者间接用于集团级业务和效果的评估、重要平台的运营,对外数据产品的透露,影响用户在公司网站的行为。
- 局部性质,即数据直接或间接用于内部一般数据产品或者运营、产品报告,如果出现问题会给事业部或者业务线造成影响或工作效率损失。
- 一般性质,即数据主要用于员工的日常数据分析,出现问题几乎不会带来影响或带来影响极小。
- 未知性质,不能明确说出数据的应用场景,则标注为未知。
如果一份数据出现在多个应用场景,则遵循就高原则。
-
等级落地方法
通过业务场景,判断这个业务场景属于什么等级的应用,再溯源这个业务场景所用表的链路,给所有的表打上标签。
数据加工过程卡点校验
-
线上系统校验
使用工具与人员并行,在工具上捕获每一次业务的变化,通知要求开发人员在意识上自动进行业务变更通知。
首先通过发布平台对业务发生重大变更时将变更同步给离线开发人员,而离线开发人员要根据本次业务更新影响的资产等级来判断跟进。
其次是数据库表的变化感知,无论是随着业务发展而做的数据库扩容还是表的DDL变化,都必须主动通知到离线开发人员。
而数据资产等级打通的过程必须给到在线开发人员,让其明白哪些资产重要,哪些还是内部使用。
-
离线系统校验
离线系统校验对于不同等级数据关联的作业执行的测试流程不同,低等级的数据通过线下测试即可上线,之后进行线上测试;较高等级就需要Co Review 和回归测试,高等级作业发布后,则采用强阻塞的形式,必须进行在彼岸完成回归测试。