本章重点内容:
1.重要的数据先开始处理
2.要知道PDCA(计划-执行-检查-行动)
3.知道数据质量的评估维度
4.进行根因分析以找出数据质量问题的根源
5.数据质量报告
1. 概述
-
与数据治理和整体数据管理一样,数据质量管理不是一个项目,而是一项持续性工作。
-
重要的数据先开始。
-
高质量数据:达到数据消费者的期望和需求
2. 业务驱动因素
-
提高组织数据价值和数据利用的机会
-
降低低质量数据导致的风险和成本
-
提高组织效率和生产力
-
保护和提高组织的声誉
注:高质量数据本身并不是目的,它只是组织获取成功的一种手段
3. 目标和原则
目标:
-
根据数据消费者的需求,开发一种受管理的方法,使数据适合要求
-
定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分
-
定义和实施测量、监控和报告数据质量水平的过程
原则:
-
1)重要性
-
数据治理管理应关注对企业及其客户重要的数据,改进的优先顺序应根据数据的重要性以及数据部正确的风险水平来判定
-
-
2)全生命周期管理
-
3)预防
-
4)根因修正
-
常见的根因分析技术包括帕累托分析(80/20规则)、鱼骨图分析、跟踪和追踪、过程分析以及五个为什么等(McGilvray,2008)。
-
-
5)治理
-
6)标准驱动
-
7)客观测量和透明度
-
8)嵌入业务流程
-
9)系统强制执行 系统所有者必须让系统强制执行数据质量要求。
-
10)与服务水平关联
4. 基本概念
评估关键数据
个人关键数据包括:
PII、财务数据、PHI和教育记录等
企业关键数据有:
-
监管报告
-
财务报告
-
商业政策
-
持续经营
-
商业战略,尤其是差异化竞争战略
5. 数据质量维度
数据质量6个核心维度(DAMA)
-
1)完备性。存储数据量与潜在数据量的百分比。
-
2)唯一性。在满足对象识别的基础上不应多次记录实体实例(事物)。
-
3)及时性。数据从要求的时间点起代表现实的程度。
-
4)有效性。如数据符合其定义的语法(格式、类型、范围),则数据有效。
-
5)准确性。数据正确描述所描述的“真实世界”对象或事件的程 度。
-
6)一致性。比较事物多种表述与定义的差异。
(自我可以定义)
三个最具影响力的人物:
需要知道的三个名字以及它们各自的特性
Strong-Wang
Thomas Redman
Larry English
6. 数据治理改进生命周期
戴明环:是一个呗称为 "划-执行-检查-处理" 的问题的解决模型
-
PDCA:计划(Plan)阶段,执行(Do)阶段,检查(Check)阶段,处理(Act)阶段
PDCA循环用于持续改进数据质量,通过不断分析、修改和验证来提高数据质量
什么情况下需要开启PDCA:
-
现有的数据质量评估没有达到目标阈值
-
新的数据集正在调查中
-
对现有的数据集提出新的数据质量要求
-
业务规则、标准或者期望变更
问:如果
7. 数据质量业务规则类型
-
定义一致性
-
数值存在和记录完备性
-
格式符合性
-
值域匹配性
-
范围一致性
-
映射一致性
-
一致性规则
-
准确性验证
-
唯一性验证
-
及时性验证
8. 数据质量问题的常见原因
调查根本原因时,分析师应该寻找潜在的原因,如数据输入、数 据处理、系统设计,以及自动化流程中的手动干预问题。
-
(1)缺乏领导力导致的问题和企业文化不到位(数据质量低下最最最常见的原因(反映了企业对数据重要性的认识不足))
-
(2)数据输入过程引起的问题
-
(3)数据处理功能引起的问题
-
(4)系统设计引起的问题
-
(5)解决问题引起的问题
9. 数据剖析
数据剖析(Data Profiling)是一种用于检查数据和评估质量的数据分析形式。
但不是解决数据质量问题的根本方法。
2.数据剖析可以看到数据那些内容:
-
空值数 标识空值存在,并检查是否允许空值。
-
最大/最小值 识别异常值,如负值。
-
最大/最小长度 确定具有特定长度要求的字段的异常值或无效值。
-
单个列值的频率分布 能够评估合理性(如交易的国家代码分布、频繁或不经常发生的值的检查,以及用默认值填充的记录百分比)。
-
数据类型和格式 识别不符合格式要求的水平,以及意外格式识别(如小数位数、嵌入空格、样本值)。
10.数据质量和数据处理
-
数据清理
-
数据增强
-
时间戳
-
审计数据
-
参考词汇表
-
语境信息
-
地理信息
-
人口统计信息
-
心理信息
-
心理信息
-
-
数据解析和格式化
-
数据转换与标准化
11. 活动
11.1 定义高质量数据
11.2 定义数据质量战略
11.3 识别关键数据和业务规则
11.4 执行初始数据质量评估
-
定义评估的目标
-
确定要评估的数据
-
识别数据的用途和数据的使用者
-
利用待评估的数据识别已知风险,包括数据问题对组织过程的潜在影响
-
根据已知和建议的规则检查数据
-
记录不一致的级别和问题类型
-
量化结果
-
与数据管理专员、领域专家和数据消费者会面,确认问题和优先级
-
使用调查结果作为规划的基础
11.5 识别改进方向并确定优先顺序
11.6 定义数据质量改进目标
11.7 开发和部署数据质量操作
-
管理数据质量规则
-
测量和监控数据质量
-
制定管理数据问题的操作过程
-
制定数据质量服务水平协议
-
编写数据质量报告.
数据质量值指标例子
12. 纠正措施
-
自动修正
-
人工检查修正
-
人工修正
13. 有效的数据质量指标
-
可度量性
-
业务相关性
-
可接受性
-
问责/管理制度
-
可控制性
-
趋势分析
13.2根本原因分析
-
常见的根因分析技术包括帕累托分析(80/20规则)、鱼骨图分 析、跟踪和追踪、过程分析以及五个为什么等(McGilvray,2008)。
14. 度量指标
-
投资回报
-
质量水平
-
数据质量趋势
-
数据问题管理指标
-
服务水平的一致性
-
数据质量计划示意图
15. 例题
-
依据 DBMOK2 数据质量语境关系图中的内容,数据质量分析师属于哪类角色。(A)
-
A. 参与者
-
B. 供给者
-
C. 消费者
-
D. 以上都是
-
数据质量领域的很多杰出学者已经发表了一系列质量维度,其中有三个最具影响力的人物/模型。(D) 请从下列选项中选择不是这三位的选项。 如果记不住就记 小王(Wang),小红( Redman),英语(English)
-
A. Strong-Wang
-
B. Thomas Redman
-
C. Larry English
-
D. John Kotter
-
企业需要提升质量的数据范围较大,通常需要分阶段按优先级开展工作,请从下列关于数据质量 工作范围确定的考量维度选项中选择合适的选项。(B)
-
A. 最重要的业务
-
B. 最重要的数据
-
C. 最重要的系统
-
D. 以上都是