数据质量管理是所有数据类项目重点关注的领域,从20多年前的数据仓库到如今的数据湖、数据中台,企业都试图将通过对改善数据质量来提升数据的价值。但是在追求新技术、新概念的过程中不能盲目,更不能过度迷信平台和工具。数据项目还是应该回归到其本质上来,那就是提高数据质量,提升数据价值。
关于如何做好数据质量的管理,以下有10条最佳实践,希望对您有所启发。
1、对其业务目标
企业的数据治理不是为治理数据而治理数据,背后都是为了支持业务和管理目标的实现。提升数据质量的主要目的是推动业务发展:
(1)将企业的业务目标映射到数据质量管理计划中来。
(2)让业务人员深度参与甚至主导数据质量管理,作为该数据主要用户的业务部门可以更好地定义数据质量参数。
(3)将业务问题定义清楚,只有在业务问题定义清楚之后,才能分析出数据质量问题的根本原因,以及制定出更合理的解决方案。
2、评估数据质量
(1)数据质量评估以数据质量问题对业务的影响分析为指导,清楚的定义出待评估数据的范围和优先级等重要参数。
(2)采用自上而下和自下而上相结合的策略识别数据中的异常问题。自上而下是以业务目标为出发点,对待评估的数据集进行评估和衡量。自下而上的方法是基于数据概要分析,识别数据问题并将其映射到对业务目标的潜在影响。
(3)形成数据治理评估报告,通过该报告清楚列出数据质量的评估结果,该报告可以在利益相关者,决策者之间分发,从而推动数据质量改进行动。
3、分析根本原因
要做好数据质量的管理,应抓住影响数据质量的关键因素,设置质量管理点或质量控制点,从数据的源头抓起,从根本上解决数据质量问题。对于数据质量问题采用量化管理机制,分等级和优先级进行管理,严重的数据质量问题或数据质量事件可以升级为故障,并对故障进行定义、等级划分、预置处理方案和Review。
4、制定解决方案
企业数据质量的治理需要结合数据问题对业务的影响程度以及数据问题发生的根本原因制定数据质量管理的解决方案。明确数据质量的改进目标,制定数据质量问题处理策略,并立即付诸行动。
5、控制数据质量
数据质量控制是在企业的数据环境中设置一道数据质量的“防火墙”,以预防不良数据的发生。
数据质量“防火墙”就是根据数据问题的根因分析和问题处理策略,在发生数据问题的入口点设置的数据问题测量和监控程序,在数据环境的源头或者上游进行数据问题的防治,从而避免不良数据向下游传播并污染后续的存储,进而影响业务。
6、纠正数据问题
尽管有效数据质量控制可以在很大程度上起到控制和预防不良数据发生的作用,但事实上,再严格的质量控制也无法做到100%数据问题防治,甚至有时候严格的数据质量控制还会引出其他更多的数据问题。
因此,企业还需要不时进行主动的数据清理和处理补救,以纠正现有的数据问题。
7、组织体系保障
企业需要建立一种文化,以让更多的人认识到数据质量的重要性,这离不开组织体系的保障。
建立数据质量管理的组织体系并为具有适当技能的人员分配角色以确保数据质量。
在整个企业中实施数据质量管理时,应考虑以下角色:数据治理委员会、数据分析师、数据管理员。
8、质量考核体系
数据质量考核建立数据质量KPI,通过专项考核计分的方式对各企业各业务域、各部门的数据质量管理情况进行评估。
以数据质量的评估结果为依据,并将问题数据归结到相应的分类,并按所在分类的权值进行量化。
总结发生数据质量问题的规律,利用数据质量管理工具定期对数据质量进行监控和测量,及时发现存在的数据质量问题,并督促落实改正。
9、先进技术赋能
数据质量管理的速度必须与数据生成的速度相匹配才能保证干净、完整、可靠、一致的数据。
传统的数据质量方法很难实现这一结果,但先进的现代技术为数据质量管理提供了更好的解决方案。
我们可以利用机器学习技术来进行数据质量的监控,评分和改善数据质量,以应对不断增加的数据速度和日趋复杂的数据环境等挑战。
10、在数据生命周期中关注数据质量
数据的生命周期从数据规划开始,中间是一个包括设计、创建、处理、部署、应用、监控、存档、销毁这几个阶段并不断循环的过程。企业的数据质量管理应贯穿数据生命周期的全过程。
数据质量管理需要的是工匠精神,需要不断地对企业拥有的数据进行反复“打磨”,循环迭代,将数据治理“常态化”,而不是指望实施一个项目就能实现数据质量的百分百提升。