数据质量管理的一些思考

本文探讨了数据质量管理的重要性,特别是在数据分析中的作用。作者指出数据质量问题来源于数据采集、加工和存储等多个环节,并提出数据质量评估模型,包括完整性、规范性、一致性、准确性、唯一性和关联性等指标。此外,文章还讨论了数据质量管理流程,包括实时监控、定期校验和审核制度,以及数据生命周期管理,强调了构建完整数据质量管理体系对企业的重要性。
摘要由CSDN通过智能技术生成

背景

在近期的项目当中,我们为客户落地实施了数据资产平台。随后,在数据平台中接入了客户子公司的一个业务系统的明细数据。客户希望在我们的数据平台上通过数据探索和数据分析,来挖掘一些业务价值和业务创新点。

当我们拿到数据开始进行一些初步探索的时候,发现导入平台的数据质量存在一定的问题:例如一些用于数据分析的关键字段的值为空、一些本应该有主从关系的数据对应不上、数据分类混乱等。这些问题直接影响到了对业务数据的分析和价值挖掘。因此,我们决定先对这份业务数据进行一次质量评估。如果评估的结果太差,不能做太多有价值的数据分析,那么我们的工作方向可能就需要转变为帮助客户制定整改数据质量的计划和方案。

数据质量问题

什么是质量

关于质量是有个一个标准定义的:一组固有特性满足明示的、通常隐含的或必须履行的需求或期望(要求)的​程度。这里面包含了两层意思,一个是说质量其实是一组特性,另一个是说质量需要满足需求或期望。所以如果从数据分析的角度来说数据质量,就是看当前数据的特性能否满足我们做数据分析或挖掘这个需求。

质量问题的来源

数据问题的来源可能产生于从数据源头到数据存储介质的各个环节。在数据采集阶段,数据的真实性、准确性、完整性、时效性都会影响数据质量。除此之外,数据的加工、存储过程都有可能涉及对原始数据的修改,从而引发数据的质量问题。所以,技术、流程、管理等多方面的因素都有可能会影响到数据质量。

在企业中,随着企业业务的增长,数据也是一个增量积累

  • 4
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值