作者 | 蒋珍波
本文是数据治理系列文章的第三篇,主要讲数据治理中的重要工作:数据质量管理。
我将从数据质量管理的目标,质量问题产生的根源,讲到如何评估数据质量,如何贯彻数据质量管理流程,最后从取与舍两个角度谈谈我对质量问题的一些个人观点。
一、数据质量管理的目标
数据质量管理主要解决「数据质量现状如何,谁来改进,如何提高,怎样考核」的问题。
为什么这篇文章的标题中有“不忘初心方得始终”这几个字呢。因为最开始的关系型数据库时代,做数据治理最主要的目的,就是为了提升数据质量,让报表、分析、应用更加准确。时至今日,虽然数据治理的范畴扩大了很多,我们开始讲数据资产管理、知识图谱、自动化的数据治理等等概念,但是提升数据的质量,依然是数据治理最重要的目标之一。
为什么数据质量问题如此重要?
因为数据要能发挥其价值,关键在于其数据的质量的高低,高质量的数据是一切数据应用的基础。
如果一个组织根据劣质的数据分析业务、进行决策,那还不如没有数据,因为通过错误的数据分析出的结果往往会带来“精确的误导”,对于任何组织来说,这种“精确误导”都无异于一场灾难。
根据统计,数据科学家和数据分析员每天有30%的时间浪费在了辨别数据是否是“坏数据”上,在数据质量不高的环境下,做数据分析可谓是战战兢兢。可见数据质量问题已经严重影响了组织业务的正常运营。通过科学的数据质量管理,持续地提升数据质量,