1 基本概念
- 数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高
- 数据质量管理不是一时的数据治理手段,而是循环的管理过程。其终极目标是通过可靠的数据,提升数据在使用中的价值,并最终为企业赢得经济效益
2 影响因素
数据问题的来源可能产生于从数据源头到数据存储介质的各个环节。在数据采集阶段,数据的真实性、准确性、完整性、时效性都会影响数据质量。除此之外,数据的加工、存储过程都有可能涉及对原始数据的修改,从而引发数据的质量问题。所以,技术、流程、管理等多方面的因素都有可能会影响到数据质量。
数据的生命周期:
数据产生–>数据接入–>数据存储–>数据分析–> 数据处理–> 数据输出–> 数据展现
3 评估维度
- 完整性
数据完整性问题包含数据条目不完整,数据属性不完整等 - 一致性
多源数据的数据模型不一致,如命名不一致,数据编码不一致,含义不一致,生命周期不一致等 - 准确性
准确性也叫可靠性,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策 - 唯一性
用于识别和度量重复数据,冗余数据,重复数据是导致业务无法协同,流程无法追溯的重要因素,也是数据治理需要解 决的最基本的数据问题 - 关联性
数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。 - 真实性
数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的 原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,是经 营 者进行正确经营决策必不可少的第一手 资料。 - 及时性
数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。 - 逻辑检查
不同表字段之间可能会有逻辑关联,需要稽核 - 离群值检查
部分数据可能会偏离其他数据,比如同一个商品金额大家都是100元,而有一条数据是1W - 自定义规则
由需求方自定义相关规则 - 波动稽核
与上周环比稽核波动情况 - 强弱规则
每个规则的权重应该是不一样的,需要配置优先级,这对后续的告警方式是有帮助的
4 实施流程
4.1 事前定义质量规则
- 梳理表,字段等信息
- 确定资产等级
- 制定检验规则
4.2 事中监控数据质量
- 在数据抽取过程中,可以对数据进行数据量稽核及唯一性,非空性稽核
- etl过程对脏数据进行清洗,保证数据质量
- 指标计算过程中,可以对指标进行波动值稽核,保证指标变化在合理范围内
4.3 事后分析和问题跟踪
每周定时跑一次程序,对全局数据进行质量稽核控制,如唯一性,非空性等
对于程序跑出来的数据:
数据质量概览在数据质量管理系统查询
数据质量明细数据在数据质量管理系统查询
根据异常数据统计出来的各种数据质量报表也可以在数据质量管理系统查询,包括表覆盖率,历史趋势,综合分析,排名分析等(质量报告支持导出为word,pdf,excel)
对异常进行评估、严重程度、影响范围、问题分类等
可以订阅自己比较关心的主题,表或者规则,邮件只会发送订阅内容
对于打分比较低的表或者业务,可以反推业务方进行整改
4.4 重大问题告警
5 总结
数据质量管理贯穿数据生命周期的全过程,覆盖质量评估、数据监控、数据探查、数据清洗、数据诊断等方面。数据源在不断增多,数据量在不断加大,新需求推动的新技术也不断诞生,这些都对大数据下的数据质量管理带来了困难和挑战。因此,数据质量管理要形成完善的体系,建立持续改进的流程和良性机制,持续监控各系统数据质量波动情况及数据质量规则分析,适时升级数据质量监控的手段和方法,确保持续掌握系统数据质量状况,最终达到数据质量的平稳状态,为业务系统提供良好的数据保障。