000 数据质量
数据质量的保证,是数仓的重中之重。数据质量主要从四个方面进行评估,即,完整性,准确性,一致性和及时性
通过本文,你将获得如下几方面的知识点:
1,数据质量核心关注的要点
2,从数据计算链条理解,每一个环节会出现哪些数据质量问题
3,从业务逻辑理解,数据质量监控能带来的帮助
4,实现数据质量监控系统时要关注的点
5,数据质量监控面临的一些难点和解决思路
001,四大关注点
一,完整性:
数据的记录和信息是否完整,是否存在缺失的情况。数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成统计结果不准确,所以完整性是数据质量最基础的保证
简单来说,如果要做监控,考虑两个方面
①数据条数是否少了
②某些字段的值是否缺失
完整性的监控,多出现在日志级别的监控上,一般在数据接入的时候来做数据完整性校验
二,准确性
准确性是指数据记录的信息和数据是否准确,是否存在异常或者错误的信息。
一般准确性的监控多集中在对业务结果数据的监控,比如日活等数据是否正常
三,一致性
一致性是指同一指标下不同地方的结果是否一致
数据不一致的情况,多出现在数据系统到达一定的复杂度后,同一指标会在多出进行计算,由于计算口径或者开发人员的不同,容易造成同一指标出现不同结果
四,及时性
保障数据能够及时产出
在数据监控中主要体现在结果数据是否在制定时间点前计算完成