背景
在近期的项目当中,我们为客户落地实施了数据资产平台。随后,在数据平台中接入了客户子公司的一个业务系统的明细数据。客户希望在我们的数据平台上通过数据探索和数据分析,来挖掘一些业务价值和业务创新点。
当我们拿到数据开始进行一些初步探索的时候,发现导入平台的数据质量存在一定的问题:例如一些用于数据分析的关键字段的值为空、一些本应该有主从关系的数据对应不上、数据分类混乱等。这些问题直接影响到了对业务数据的分析和价值挖掘。因此,我们决定先对这份业务数据进行一次质量评估。如果评估的结果太差,不能做太多有价值的数据分析,那么我们的工作方向可能就需要转变为帮助客户制定整改数据质量的计划和方案。
数据质量问题
什么是质量
关于质量是有个一个标准定义的:一组固有特性满足明示的、通常隐含的或必须履行的需求或期望(要求)的程度。这里面包含了两层意思,一个是说质量其实是一组特性,另一个是说质量需要满足需求或期望。所以如果从数据分析的角度来说数据质量,就是看当前数据的特性能否满足我们做数据分析或挖掘这个需求。
质量问题的来源
数据问题的来源可能产生于从数据源头到数据存储介质的各个环节。在数据采集阶段,数据的真实性、准确性、完整性、时效性都会影响数据质量。除此之外,数据的加工、存储过程都有可能涉及对原始数据的修改,从而引发数据的质量问题。所以,技术、流程、管理等多方面的因素都有可能会影响到数据质量。
在企业中,随着企业业务的增长,数据也是一个增量积累