DAMA数据管理知识体系指南-读书笔记13

第13章 数据质量

一、引言

数据质量管理包括在整个生命周期制定标准,在数据创建、转换和存储过程中完善质量,以及根据标准度量数据来管理数据。数据质量管理不是一个项目,而是一项持续性工作。它包括项目和维护工作,以及承诺进行沟通和培训。

1.1 业务驱动因素

  • 提高组织数据价值和数据利用的机会
  • 降低低质量数据导致的风险和成本
  • 提高组织效率和生产力
  • 保护和提高组织的声誉

1.2 目标和原则

(1)目标

  • 根据数据消费者的需求,开发一种受管理的方法,使数据适合要求。
  • 定义数据质量控制的标准和规范,并作为这个那个数据生命周期的一部分。
  • 定义和实施测量、监控和报告数据质量水平的过程。

(2)原则

  • 重要性。数据质量管理应关注对企业及其客户最重要的数据,改进的优先顺序应根据数据的重要性以及数据不正确的风险水平来判定。
  • 全生命周期管理。数据质量管理应覆盖从创建或采购直至处置的数据全生命周期,包括其在系统内部和系统之间流转时的数据管理。
  • 预防。数据质量方案的重点应放在预防数据错误和降低数据可用性等情形上,不应放在简单的纠正记录上。
  • 根因修正。提高数据质量通常需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决。
  • 治理。数据质量活动必须支持高质量数据的开发,数据质量规划活动必须支持和维护受治理的数据环境。
  • 标准驱动。对于可量化的数据质量需求应以可测量的标准和期望的形式来定义。
  • 客观测量和透明度。数据质量水平需要得到客观、一致的测量。
  • 嵌入业务流程。业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准。
  • 系统强制执行。系统所有者必须让系统强制执行数据质量要求。
  • 与服务水平关联。数据质量报告和问题管理应纳入服务水平协议(SLA)。

1.3 基本概念

1.3.1 数据质量

数据质量用于衡量或改进数据质量的过程。数据质量取决于使用数据的场景和数据消费者的需求。

1.3.2 关键数据

数据质量管理的一个原则是将改进的重点集中在对组织及其客户最重要的数据上,这样可以明确项目范围,并使其能够对业务需求产生直接的、可测量的影响。根据以下要求评估关键数据:

  • 监管报告
  • 财务报告
  • 商业政策
  • 持续经营
  • 商业战略,尤其是差异化竞争战略。

1.3.3 数据质量维度

数据质量纬度提供了定义数据质量要求的一组词汇,通过这些纬度定义可以评估初始数据质量和持续改进的成效。数据质量的6个核心纬度:

  • 完备性。存储数据量与潜在数据量的百分比。
  • 唯一性。在满足对象识别的基础上不应多次记录实体实力
  • 及时性。数据从要求的时间点代表现实的程度。
  • 有效性。如数据符合其顶一顶饿语法,则数据有效。
  • 准确性。数据正确描述所描述的“真实世界”对象或事件的程度。
  • 一致性。比较失误多种表述与定义的差异。

1.3.4 数据质量和元数据

元数据对于管理数据质量至关重要。元数据定义数据所代表的的内容,拥有一个强大的数据定义流程,有助于组织正式确定和记录用于衡量数据质量的标准和要求。

1.3.5 数据质量ISO标准

ISO将质量数据定义为“符合规定要求的可移植数据”。ISO 22745是定义和交换主数据的标准,支持ISO 8000。ISO 22745定义了如何构造数据需求语句,并以XML为例定义了编码数据交换的格式。

ISO 8000的目的是帮助组织定义什么事符合质量的数据、什么事不符合质量的数据,使他们能使用标准约束要求符合质量的数据,并检核他们已经收到了符合同一质量标准的数据。当遵循标准时,就可以通过计算机程序确认数据是否已经满足需求。

1.3.6 数据质量改进生命周期

(1)计划(Plan)阶段。

数据质量团队评估已经问题的范围、影响和优先级,并评估解决这些问题的备选方案。这一阶段应简历在分析问题根源的坚实基础上,从问题产出的原因和影响的角度了解成本/效益,确定优先顺序,并制定基本计划以解决这些问题。

(2)执行(Do)阶段。

数据质量团队负责努力解决引起问题的根本原因,并做出对持续监控数据的计划。对于非技术流程类的根本原因,数据质量团队可与流程所有者一起实施更改。对于需要技术变更类的根本原因,数据质量团队应与技术团队合作,以确保需求得到正确实施,并且技术变更不会引发错误。

(3)检查(Check)阶段。

这一阶段包括积极监控要求测量的数据质量。只要数据满足定义的质量阈值,就不需要采取其他行动,这个过程将处于控制之中并能满足商业需求。如果数据低于可接受的质量阈值,则必须采取额外措施使其达到可接受的水平。

(4)处理(Act)阶段。

这一阶段是指处理和解决新出现的数据质量问题的活动。随着问题原因的评估和解决方案的提出,循环将重新开始。通过启动一个新的周期来实现持续改进。新周期开始于:

  • 现有测量值低于阈值
  • 新数据集正在调查中
  • 对现有数据集提出新的数据质量要求
  • 业务规则、标准或期望变更。

1.3.7 数据质量业务规则类型

数据质量业务规则描述了组织内有用数据和可用数据的存在形式。这些规则需要符合质量维度要求,并用于描述数据质量要求。常见的业务规则类型有:

  • 定义一致性。确认对数据定义的理解相同,并在整个组织过程中得到实现和正确使用;确认包括对计算字段内任意时间或包含局部约束的算法协议,以及汇总和状态相互依赖规则。
  • 数值存在和记录完备性。定义数值缺失的情况是否可接受的规则。
  • 格式符合性。按指定模式分配给数据元素的值,如设置电话号码格式的标准。
  • 值域匹配性。指定数据元素的赋值须包含在某数值域的枚举值中。
  • 范围一致性。数据元素赋值必须在定义的数字、词典或时间范围内。
  • 映射一致性。表示分配给数据元素的值,必须对应与映射到其他等效对应值域中的选择值。
  • 一致性规则。根据这些属性的实际值,在两个或多个属性之间关系的条件判定。
  • 准确性验证。将数据值与记录系统或其他验证来源中的相应值进行比较,以验证值是否匹配。
  • 唯一性验证。指定哪些实体必须具有唯一表达,以及每个表达的真实世界对象有且仅有一个记录的规则。
  • 及时性验证。表明与数据可访问性和可用性预期相关特征的规则。

其他类型的规则可能涉及应用于数据实例集合的聚合函数。聚合检查的示例包括:

  • 验证文件中记录数量的合理性。这需要基于一段时间内的统计量,以得到趋势信息。
  • 验证从一组交易中计算出的平均金额的合理性。这需要建立比较阈值,并基于一段时间内的统计数据。
  • 验证制定时间内交易数量的预期差异。这需要基于一段时间内的统计数据,并通过他们来建立阈值。

1.3.8 数据质量问题的常见原因

从创建到处置,数据质量问题在数据生命周期的任何节点都可能出现。

(1)缺乏领导力导致的问题

在大多数组织中,数据差异是一个比简单错误严重的问题,可能是数据集成的主要障碍。有效管理数据质量的障碍包括:

  • 领导和员工缺乏意识
  • 缺乏治理
  • 缺乏领导力和管理能力
  • 难以证明改进的合理性
  • 测量价值的工具不合适或不起作用

(2)数据输入过程引起的问题

  • 数据输入接口问题。如果数据输入接口没有编辑或控件防止不正确的数据被录入系统,则数据处理人可能会采取快捷方式处理数据,如跳过强制字段和不更新有默认值的字段。
  • 列表条目放置。如下拉列表中的值顺序,也可能导致数据输入错误。
  • 字段重载。随着时间的推移,有些组织会处于不通的商业目的的重复字段,而不是更改模型和用户界面。
  • 培训问题。如果数据处理人不知道错误数据的影响,或者鼓励数据处理人提高录入效率而忽视录入准确性,则他们可能会根据数据质量以外的驱动因素做出选择。
  • 业务流程的变更。业务流程随着时间的推移而变化,在变化过程中引入了新的业务规则和数据质量要求。如果接口未升级以适应新的或更改的需求,将导致数据错误。
  • 业务流程执行混乱。通过混乱的流程创建的数据很可能不一致。

(3)数据处理功能引起的问题

  • 有关数据源的错误假设。错误或变更、系统文档不完整或过时,或知识转移不充分。
  • 过时的业务规则。随着时间的推移,业务规则会发生变化,应定期对业务规则进行审查和更新。
  • 变更的数据结构。源系统可以在不通知下游消费者或没有足够时间让下游消费者响应变更的情况下变更结构。这可能会导致无效的值或阻止数据传送和加载,或导致下游系统无法立即检测到的更细微的改变。

(4)系统涉及引起的问题

未能执行参照完整性

如果没有强制执行参照完整性,或者关闭了验证,则有可能出现各种数据质量问题:

  • 生成破坏唯一性约束的重复数据。
  • 既可以包含,哟可以排除在某些报表中的孤儿数据,导致同样的计算生成多个值
  • 由于参照完整性要求已还原或更改,无法升级。
  • 由于丢失的数据被分配为默认值而导致数据准确性。
未执行唯一性约束表或文件中的多个数据实例副本预期包含唯一实例
编码不准确和分期如果数据映射或格式不正确,或处理数据的规则不准确,处理过的数据就会出现质量问题,如计算错误、数据被链接或分配到不匹配的字段、键或关系等。
数据模型不准确如果数据模型内的假设没有实际数据的支持,则会出现数据质量问题。
字段重载随时间推移,为了其他目的重用字段,而不是更改数据模型或代码,可能会导致混淆的值集、不明确的含义,以及潜在的结构问题,如分配错误的键值。
时间数据不匹配在没有统一数据字典的情况下,多个系统可能会采用不通的日期格式或时间,当不通源系统之间的数据同步时,反过来会导致数据不匹配和数据丢失。
主数据管理薄弱不成熟的主数据管理可能为数据选择不可靠的数据源,导致数据质量问题,在数据来源准确地假设被推翻之前很难找到这些问题。
数据复制不必要的数据复制通常是数据管理不善造成的。

(5)解决问题引起的问题

手动修复是直接对数据库中的数据进行更改,而不是通过应用接口或业务处理规则进行更改实现。

1.3.9 数据剖析

数据剖析使用统计技术来发现数据集合的真实结构、内容和质量。剖析引擎生成统计信息,分析人员可使用这些统计信息识别数据内容和结构中的模式。

  • 空值数。标识空值存在,并检查是否允许空值。
  • 最大/最小值。识别异常值,如负值。
  • 最大/最小长度。确定具有特定长度要求的字段的异常值或无效值。
  • 单个列值的频率分布。能够评估合理性。
  • 数据类型和格式。识别不符合格式要求的水平,以及意外格式识别。

剖析还包括跨列分析,它可以识别重叠或重复的列,并暴露值的内在依赖关系。

1.3.10 数据质量和数据处理

(1)数据清理

数据清洗或数据清洗,可通过数据转换使其符合数据标准和域规则。清理包括检测和纠正数据错误,使数据质量达到可接受的水平。数据清理需求可通过以下方式解决:

  • 实施控制以防止数据输入错误。
  • 纠正源系统中的数据。
  • 改进数据录入的业务流程。

(2)数据增强

数据增强或丰富是给数据集天机属性以提高其质量和可用性的过程。

(3)数据解析和格式化

数据解析是使用预先确定的规则来解释其内容或值的分析过程。首先,数据分析人员定义一组模式;然后,把这些模式录入用于区分有效和无效的数据值的规则引擎内,规则引擎匹配特定模式触发操作。

(4)数据转移与标准化

数据转换通过将原始格式和模式中的数据值映射到目标表述形势来指导基于规则的转换。模式中经解析的组件将按照知识库中的规则进行重新排序、更正或任何更改。

二、活动

2.1 定义高质量数据

要全面了解组织中数据质量的当前状态,需要从不同的角度来探讨这个问题:

  • 了解业务战略和目标
  • 与利益相关方面谈,以识别痛点、风险和业务驱动因素
  • 通过资料收集和其他剖析形式直接评估数据。
  • 记录业务流程中的数据依赖关系。
  • 记录业务流程的技术架构和系统支持。

上述评估过程可以揭示大量的机会,这需要根据对组织的潜在利益进行优先排序。利用利益相关方的输入,数据质量团队应定义数据质量的含义并提出项目优先级。

2.2 定义数据质量战略

采纳或开发一个框架及方法论将有助于知道战略和开展战术,一个框架应包括以下方法:

  • 了解并有限考虑业务需求。
  • 确定满足业务需求的关键数据。
  • 根据业务需求定义业务规则和数据质量标准。
  • 根据预期评估数据。
  • 分享调查结果,并从利益相关方那里获得反馈。
  • 优先处理和管理问题。
  • 确定并有限考虑改进机会。
  • 测量、监控和报告数据质量。
  • 管理通过数据质量流程生成的元数据。
  • 将数据质量控制集成到业务和技术流程中。

2.3 识别关键数据和业务规则

数据质量改进工作从主数据开始,根据定义,主数据是任何组织中最重要的数据之一。重要性分析结果是一个数据列表,可以从该结果聚焦工作。

在确定关键数据之后,数据质量分析人员需要识别能描述或暗示有关数据质量特征要求的业务规则。通常,规则本身并没有明确的文档记录,他们可能需要通过分析现有的业务流程、工作流、规则、政策、标准、系统编辑、软件代码、触发器和过程状态代码分配和使用以及简单的常识进行逆向还原。

2.4 执行初始数据质量评估

数据质量评估的最重要部分就是实际查看数据、查询数据,以了解数据内容和关系,以及将实际数据与规则和期望进行比较。第一次这样做时,分析人员会发现很多实时:数据中未被记录的依赖关系、隐含规则、冗余数据、矛盾数据等。步骤包括:

  • 定义评估的目标。这些目标将推动工作进展。
  • 确定要评估的数据。重点应放在一个小的数据集,甚至一个数据元素,或一个特定的数据质量问题上。
  • 识别数据的用途和数据使用者。
  • 利用待评估的数据识别已知风险,包括数据问题对组织过程的潜在影响。
  • 根据已知和建议的规则检查数据。
  • 记录不一致的级别和问题类型。
  • 根据初步发现进行额外的深入分析,以便量化结果、根据业务影响优化问题、提出关于数据问题根本原因的假设。
  • 与数据管理专员、领域专家和数据消费者会面,确认问题和优先级。
  • 使用调查结果作为规划的基础。解决问题,最后是找到问题的根本原因;控制饿改进处理流程,以防止问题重复发生;持续控制和汇报。

2.5 识别改进方向并确定优先排序

识别可以通过对较大的数据集进行全面的数据分析来完成,以了解现有问题的广度;也可以通过其他方式实现,如就数据的影响问题与利益相关方进行沟通,并跟踪分析这些问题的业务影响。最终,需要结合数据分析人员以及利益夏宁官方的讨论排定最终优先顺序。

执行全面的数据剖析和分析的步骤基本上与执行小规模评估的步骤相同:定义目标、了解数据使用和风险,根据规则衡量、记录并与领域专家确认结果,利用这些信息确定补救和改进工作的优先级。

2.6 定义数据质量改进目标

数据质量提升可采取不同的形式,从简单的补救到根本原因的改进。补救和改进计划应考虑可以快速实现的问题和长期的战略性的变化。当发生问题时,根据一下内容确定改进的投资回报率:

  • 受影响数据的关键性(重要性排序)。
  • 受影响的数据量。
  • 数据的龄期。
  • 受问题影响的业务流程数量和类型。
  • 受问题影响的消费者、客户、供应商或员工数量。
  • 与问题相关的风险。
  • 纠正根本原因的成本。
  • 潜在的工作成本。

2.7 开发和部署数据质量操作

2.7.1 管理数据质量规则

规则的获取应构建到系统开发和增强过程中,预先定义规则将:

  • 对数据质量特征设定明确的期望。
  • 提供防止引入数据问题的系统编辑和控制要求。
  • 向供应商和其他外部方提供数据质量要求。
  • 为正在进行的数据质量测量和报告创建基础。

数据质量规则和标准是元数据的一种关键行驶。为了提高效率,需要将它们作为元数据进行管理。规则应该是:

  • 记录一致性。建立记录规则的标准和模板,使其具有一致的格式和含义。
  • 根据数据质量维度定义。质量纬度帮助人们了解正在测量的内容。维度的一致应用将有助于度量和管理问题的过程。
  • 与业务影响挂钩。标准和规则应该与它们对组织成功的影响直接相关。不应采取与业务流程无关的度量。
  • 数据分析支持。规则将显示数据存在的问题,但有关分析也表明规则本身通常并不完整。
  • 由领域专家确认。需要通过组织过程的知识确认规则正确地描述了数据。
  • 所有数据消费者都可以访问。所有数据消费者都应该能够访问记录的规则,这样既可以让他们更好地理解数据,同时也有助于确保规则正确和完整,确保使用者能够就规则提出问题并提供反馈。

2.7.2 测量和监控数据质量

业务数据质量度量的原因:

  • 向数据消费者通报质量水平
  • 管理业务或技术流程,改变引入的变更风险

测量结果可分为两个层次进行描述:执行单个规则相关的详细信息和规则汇总的总体结果。数据质量规则为数据质量的操作管理提供了基础。无论是通过现成的商业组成组件数据质量工具、用于监视和报告的规则引擎和报告工具,还是自定义开发的应用程序,局可以将规则集成到应用程序服务和数据服务中,以补充数据生命周期。

通过控制和度量过程纳入信息处理流程进行持续地监控,可以通过流程或批处理的方式对数据质量规则的一致性进行自动监控,在三个粒度级别上进行度量:数据元素值、数据实例和记录、数据集。将控制和测量过程的结果纳入操作程序和报告框架,可以持续监测数据质量水平,以便对数据生成/收集活动进行反馈和改进。

2.7.3 制定管理数据问题的操作过程

(1)诊断问题

目的是审查数据质量事件的症状,根据相关数据的血缘,确定问题及其来源,并查明问题的根本原因。

  • 在适当的信息处理流程下查看数据问题,并隔离出现缺陷过程的位置。
  • 评估是否存在任何可能导致错误的环境变化。
  • 评估是否有其他过程问题导致了数据质量事件。
  • 确定外部数据是否存在影响数据质量的问题。

(2)制定补救方案

根据诊断结果,评估解决问题的备选方案。可能包括:

  • 纠正非技术性根本原因,如缺乏培训、缺乏领导支持、责任和所有权不明确等。
  • 修改系统以消除技术类的根本原因。
  • 制定控制措施以防止问题发生。
  • 引入额外的检查和监测。
  • 直接修正有缺陷的数据。
  • 基于变更的成本和影响对比更正后的数据的价值分析,不采取任何操作。

(3)解决问题

  • 评估替换方案的相对成本和优点。
  • 推荐计划中的一个备选方案。
  • 提供开发和实施该解决方案的计划。
  • 实施该解决方案。

在问题管理过程中做出的决定应在事件跟踪系统中进行记录跟踪。事件跟踪系统将收集与解决问题、分配工作、问题数量、发生频率,以及做出响应、给出诊断、计划解决方案和解决问题所需事件相关的性能数据。进行有效沟通需要做到以下几点:

  • 标准化数据质量问题和活动。标准化可使衡量问题和活动的数量、确定系统和参与者之间的模式和相互依赖关系以及报告数据质量活动的总体影响等变得更加容易。
  • 提供数据问题的分配过程。操作过程知道分析人员将数据质量事件分配给个人进行诊断,并提供解决方案。
  • 管理问题升级过程。数据质量问题处理需要根据问题的影响、持续时间或紧急程度制定明确的升级机制,明确规定数据质量服务级别协议(SLA)中的升级顺序。事件跟踪系统将执行升级过程,这有助于加快有效处理和解决数据问题的速度。
  • 管理数据质量解决方案工作流。SLA规定了监控、控制和解决的目标,所有这些定义了操作工作流的集合。事件跟踪系统可以支持工作流管理,以跟踪问题诊断和解决的进度。

2.7.4 制定数据质量服务水平协议

数据质量服务水平协议(SLA)规定了组织对每个系统中的数据质量问题进行响应和补救的期望。数据质量SLA中定义的数据质量控制操作包括:

  • 协议涵盖的数据元素。
  • 与数据缺陷相关的业务影响。
  • 与每个数据元素相关的数据质量指标。
  • 从每个已确定指标的数据元素出发,识别数据价值链上每个应用程序系统中的质量期望。
  • 测量这些期望的方法。
  • 每次测量的可接受阈值。
  • 如果不满足可接受性阈值,应通知数据管理专员。
  • 预期解决或补救问题的时间和截止日期。
  • 升级策略,以及可能的奖励和惩罚。

2.7.5 编写数据质量报告

报告应着重于:

  • 数据质量评分卡。可从高级别的视角提供与各种指标相关的份数,并在既定的阈值内向组织的不同级别报告。
  • 数据质量趋势。随时间显示数据质量是怎样被测量的,以及数据质量趋势是向上还是向下。
  • 服务水平协议(SLA)指标。
  • 数据质量问题管理。监控问题和解决方案的状态。
  • 数据质量团队与治理策略的一致性。
  • IT和业务团队对数据质量政策的一致性。
  • 改善项目带来的积极影响。

报告应尽可能与数据质量SLA中的指标保持一致,以便团队的目标与客户的目标保持一致。数据质量方案还应报告改进项目带来的积极影响,最佳的做法是持续地提醒组织数据为客户带来的直接影响。

三、工具

3.1 数据剖析工具

数据剖析工具生成高级别的统计信息,分析人员能够据此识别数据中的模式并对质量特征进行初始评估。剖析工具对数据发现工作特别重要,通过它能够实现大型数据集的评估。

3.2 数据查询工具

数据剖析只是数据分析的第一步,它有助于识别潜在问题。数据质量团队成员还需要查询数据,以回答分析结果提出的问题。

3.3 建模和ETL工具

用户数据建模和创建ETL过程的工具对数据质量有直接影响。数据质量团队英语开发团队合作,以解决数据质量风险,并充分利用有效建模和数据处理工具,确保组织能够得到更高质量的数据。

3.4 数据质量规则模板

规则模板给予分析人员机会捕获客户对数据期望,还有助于弥合业务团队和技术团队之间的交流鸿沟。持续制定一致性的规则可简化将业务需求转化为代码的过程,无论该代码是嵌入在规则引擎中还是数据分析工具的剖析组件或数据集成工具中。

3.5 元数据存储库

定义数据质量需要元数据,而高质量数据的定义是元数据的一种价值呈现方式。

四、方法

4.1 预防措施

创建高质量数据的最佳方式是防止低质量数据进入组织。预防措施可阻止已知错误的发生,在事后对数据进行检查并不能提高其质量。预防方法包括:

  • 建立数据输入控制。创建数据输入规则,防止无效或不准确的数据进入系统。
  • 培训数据生成者。确保上游系统的员工了解其数据对下游用户的影响,对数据的准确性和完整性进行激励或基础评估,让其不仅仅追求录入速度。
  • 定义和执行规则。创建一个“数据防火墙”,一个包含用于检查数据质量是否良好的所有业务数据质量规则的表,然后用于应用程序中。数据防火墙可以检查应用程序处理数据的质量级别,如果质量级别低于可接受的级别,分析人员将得到通知。
  • 要求数据提供商提供高质量数据。检查外部数据供应商的流程,以检查其结构、定义、数据源和数据出处。
  • 实施数据治理和管理制度。确保定义并执行以下内容的角色和责任:参与规则、决策权和有效管理数据和信息资产的责任。
  • 制定正式的变量控制。确保在实施之前对存储数据的所有变更进行定义和测试。

4.2 纠正措施

数据质量问题应系统地、从根本上解决,最大限度地降低纠正措施的成本和风险。“就地解决问题”是数据质量管理中的最佳实施,这通常意味着纠正措施应包括防止产生质量问题的原因再次发生。执行数据修正一般有三种方法:

  • 自动修正。自动更正技术包括基于规则的标准化、规范化和更正。修改后的值是在没有人工干预的情况下获取或生成和提交的。自动更正需要一个环境:具有定义良好的标准、普通接受的规则和已知的错误和模式等。
  • 人工检查修正。使用自动工具矫正和纠正数据,并在纠正提交到持久存储之前进行人工检查。
  • 人工修正。在缺乏工具、自动化程序不足或确定通过人工监控能更好地处理变更的情况下,人工更正是唯一的选择。

4.3 质量检查和审核代码模块

创建可共享、可链接和可重用的代码模块,开发人员可从存储库中拿到它们,重复执行数据质量检查和审计过程。如果模块需要更改,那么链接到该模块的所有代码都将得到更新。

4.4 有效地数据质量指标

管理数据质量的一个重要组成部分是开发度量指标,以告知数据消费者对其数据使用非常重要的质量特征。数据质量分析人员应考虑以下特征:

  • 可度量行。必须是可被量化的东西。
  • 业务相关性。如果指标不能与业务操作或性能的某些方面相关,那么它的价值是有限的。
  • 可接受性。根据指定的可接受性阈值确定数据是否满足业务期望。
  • 问责/管理制度。关键利益相关方应理解和审核指标。当度量的测量结果显示质量不符合预期时,会通知关键利益相关方。业务数据所有者对此负责,并由数据管理专员采取适当的纠正措施。
  • 可控制性。指标应反映业务的可控方面。如果度量超出范围,它应该触发行动来改进数据。
  • 趋势分析。跟踪有助于数据质量团队成员监控数据质量SLA和数据共享协议范围内的活动,并证明改进活动的有效性。

4.5 统计过程控制

统计过程控制(SPC)是一种通过分析过程输入、输出或步骤的变化测量值来管理过程的方法。SPC是基于一个假设:当一个具有一致性输入的过程被一致执行时,它将产生一致的输出。它使用集中趋势(变量的值接近其中心值的趋势,如平均值、中值或模式)和围绕中心值可变性(如范围、方差和标准偏差)的度量来确定过程中的偏差公差。

SPC使用的主要工具是控制图,它是一个时间序列图,包括平均值的中心线(集中趋势的度量),以及描述测算的上下控制界限(围绕中心值可变性)。在一个稳定的过程中,超出控制范围的度量结果表明了异常状况的存在。

4.6 根本原因分析

根本原因分析师一个理解导致问题发生的因素及其作用原理的过程。其目的是识别潜在的条件,这些条件一旦消除,问题也将消失。常见的根因分析技术包括帕累托分析、鱼骨图分析、跟踪和追踪、过程分析以及五个为什么等。

五、实施指南

5.1 就绪评估/风险评估

组织采用数据质量的实践准备情况,可通过以下特征进行评估:

  • 管理层承诺将数据作为战略资产进行管理。要获得管理员对数据管理的支持,就要明确高级管理人员能否理解数据在组织中扮演的角色。
  • 组织对数据质量的当前理解。了解这些很重要,低质量数据可以直接与组织的负面影响关联在一起,包括直接和间接成本;对痛点的理解也有助于确定和优先考虑改进项目。
  • 数据的实际情况。以客观的方式描述导致痛点的数据情况是改进数据的第一步。通过剖析和分析,以及对已知问题和痛点的量化来度量和描述数据。
  • 与数据创建、处理或使用相关的风险。识别数据可能出现的问题以及质量不佳的数据对组织造成的潜在损害,为降低风险提供了基础。
  • 可扩展数据质量监控的文化和技术就绪。提高数据质量取决于业务和IT团队之间的合作,如果业务和IT团队之间的关系不是写作的状态,将来难取得进展。

5.2 组织和文化变革

数据质量不是通过一些工具和口号就能改进的,让一个组织认真对待数据质量,通常需要进行重大的文化变革。首先是提高数据对组织作用和重要性的认识。所有员工都必须负责任地提出数据质量问题,从消费者角度要求高质量数据,并向他人提供质量信息。最终让员工生成更高质量的数据并以确保质量的方式管理数据。

六、数据质量和数据治理

数据质量问题是建设企业规范数据治理的原因。将数据质量工作纳入整体治理工作,使数据质量方案团队能够与一系列利益相关方和推动者合作。

  • 风险与安全人员可帮助识别与数据相关的组织弱点。
  • 业务流程工程和培训人员,可以帮助团队实施流程改进。
  • 业务和运营数据专员以及数据所有者,他们可以识别关键数据、定义标准和质量期望,并优先处理数据问题。

治理组织科通过以下方式加快数据质量方案的工作:

  • 设定优先级
  • 确定和协调有权参与各种数据质量相关决定和相关活动的人。
  • 制定和维护数据质量标准
  • 报告企业范围内数据质量的相关测量。
  • 提供有助于员工参与的指导。
  • 建立知识共享的沟通机制。
  • 制定和应用数据质量和合规政策。
  • 监控和报告绩效。
  • 共享数据质量检查结果,以提高认知,确定改进机会,并就改进达成共识。
  • 解决变化和冲突,提供方向性指导。

6.1 数据质量制度

各项制度应包括:

  • 制度的目的、范围和适用性
  • 术语定义
  • 数据质量团队的职责
  • 其他利益相关方的责任
  • 报告
  • 策略的实施,包括与之相关的风险、预防措施、合规性、数据保护和数据安全性等。

6.2 度量指标

数据质量的高阶指标包括:

  • 投资回报。关于改进工作的成本与改进数据质量的好处的声明。
  • 质量水平。测量一个数据集内或多个数据集之间的错误或不满足甚至违反需求情况的数量和比率。
  • 数据质量趋势。随着时间的推移,针对阈值和目标的质量改进,或各阶段的质量事件。
  • 数据问题管理指标。按数据质量指标对问题分类与计数;各业务智能部门及其问题状态(已解决、未解决、已升级);按优先级和严重程度对问题排序;解决问题的时间。
  • 服务水平的一致性。包括负责人在内的组织单位对数据质量评估项目干预过程的一致性。
  • 数据质量计划示意图。现状和扩展路线图。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值