背景简介
随着信息技术的迅猛发展,企业内部积累的数据量呈指数级增长。然而,数据质量却常常因为多种因素而逐渐退化。本篇博客将基于《数据质量评估》一书的第15章内容,探讨数据质量管理的挑战、影响因素以及应对策略,并着重分析数据生命周期中的关键环节和数据退化的根本原因。
数据质量退化的普遍性
数据质量的退化并非偶然,而是随着时间推移企业不断变化的必然结果。企业的发展阶段如启动、增长、收购、更名、破产及拆分,都伴随着数据需求和结构的变化。这些变化若不加以控制,数据质量将不可避免地下降。据第3章所述,平均而言,公司数据质量每月下降2%至7%。
数据质量改进的短暂性
在企业持续演进的过程中,如果不对数据质量进行定期监控和控制,数据质量的改善只能是短暂的。数据治理在保持数据质量方面扮演了至关重要的角色。在DARS方法论的Sustain阶段,数据治理的细节被详细讨论。
数据转换与迁移的挑战
企业数据库很少能从空无一物开始。数据转换和迁移是从遗留数据库开始的数据捕捉和捕获的常见起点。数据转换和迁移项目通常风险高、耗时且复杂。在这些项目中,往往过分关注数据库的填充,而忽视了数据质量的其他方面,如业务规则、数据规则和用户界面层。
接口数据流的影响
OLTP系统间定期的大规模数据交换,即接口数据流,是导致数据质量差的另一个重要原因。数据源系统的变化直接影响数据流,而自动化过程的接口数据流会迅速传播低质量数据,进一步恶化目标系统的数据质量。
系统升级与手动错误
在手动数据录入过程中,用户往往试图通过调整数据规则来强行输入数据,从而导致数据质量问题。系统升级时,尤其是在COTS(商业现成软件)系统上,程序设计和测试通常是基于数据应如何,而非数据实际如何。
手动错误的普遍性
人为数据录入是导致数据质量差的最常见原因。手动数据录入通常涉及从各种文件转移到事务性应用程序。手动错误可能源于不一致的数据录入表单、纸质文档以及缺乏培训或疏忽。
数据库设计问题
如果数据库设计本身存在缺陷,那么数据完整性就无法得到保障。自定义数据库在定制系统中普遍存在设计不良的问题。不良的设计将影响数据定义、消除重复组和不必要的依赖关系,进而影响数据质量。
不当的数据清除和清洗
数据清除是指从存储空间中擦除和移除数据。在大多数情况下,数据元素的使用和用户可能没有明确的定义。因此,数据清除和清洗计划可能只咨询了部分利益相关者,而忽略了大多数。
总结与启发
在数据管理的全周期内,数据质量问题无处不在,从数据的产生到最终的归档和清除,每一个阶段都可能成为数据质量下降的节点。企业必须认识到,对数据质量的维护是一个持续的过程,需要定期的数据验证和治理。通过根源分析技术,如亲和图、故障模式和影响分析(FMEA)、鱼骨图和五问法等,可以帮助企业识别和解决数据质量问题的根源,从而避免问题的重复发生。数据质量管理不仅是技术问题,更是组织文化和战略决策的一部分。通过持续改进数据质量,企业可以提高决策效率,增强竞争力,并最终实现业务的持续优化和成功。
关键词
- 数据质量管理
- 数据生命周期
- 数据退化
- 数据治理
- 根源分析