DAMA数据管理知识体系
前言
该章节主要是针对DAMA数据管理知识体系的学习笔记中数据质量,思维导图如下(考题10分)
文章目录
数据质量
1. 概述
- 与数据治理和整体数据管理一样,数据质量管理不是一个项目,而是一项持续性工作。
- 高质量数据:达到数据消费者的期望和需求
2. 业务驱动因素
-
提高组织数据价值和数据利用的机会
-
降低低质量数据导致的风险和成本
-
提高组织效率和生产力
-
保护和提高组织的声誉
注:高质量数据本身并不是目的,它只是组织获取成功的一种手段
3. 目标和原则
3.1 目标
- 根据数据消费者的需求,开发一种受管理的方法,使数据适合要求
- 定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分
- 定义和实施测量、监控和报告数据质量水平的过程
3.2 原则
- 重要性
- 全生命周期管理
- 预防
- 根因修正
- 治理
- 标准驱动
- 客观测量和透明度
- 嵌入业务流程
- 系统强制执行
- 与服务水平关联
4. 基本概念
4.1 数据质量
- “数据质量”一词既指高质量数据的相关特征,也指用于衡量或改进 数据质量的过程
4.2 评估关键数据
- 监管报告
- 财务报告
- 商业政策
- 持续经营
- 商业战略,尤其是差异化竞争战略
4.3 数据质量维度(DAMA)
- 完备性
- 唯一性
- 及时性
- 有效性
- 准确性
- 一致性
需要知道的三个名字以及它们各自的特性:
Strong-Wang
Thomas Redman
Larry English
5. 数据质量改进生命周期
- 戴明环
- 计划-执行-检查-处理(行动)
- PDCA:计划(Plan)阶段,执行(Do)阶段,检查(Check)阶段,处理(Act)阶段
这里的英文单词注意与语境关系图的PCDO区分开来,常考
6. 数据质量业务规则类型
- 定义一致性
- 数值存在和记录完备性
- 格式符合性
- 值域匹配性
- 范围一致性
- 映射一致性
- 一致性规则
- 准确性验证
- 唯一性验证
- 及时性验证
7. 数据质量问题的常见原因
- 缺乏领导力导致的问题
- 数据输入过程引起的问题
- 数据处理功能引起的问题
- 系统设计引起的问题
- 解决问题引起的问题
8. 数据剖析
数据剖析(Data Profiling)是一种用于检查数据和评估质量的数据分析形式。
- 空值数
- 最大/最小值
- 最大/最小长度
- 单个列值的频率分布
- 数据类型和格式
9. 数据质量和数据处理
- 数据清理
- 数据增强
- 时间戳
- 审计数据
- 参考词汇表
- 语境信息
- 地理信息
- 人口统计信息
- 心理信息
- 心理信息
- 数据解析和格式化
- 数据转换与标准化
10. 活动
10.1 定义高质量数据
10.2 定义数据质量战略
10.3 识别关键数据和业务规则
10.4 执行初始数据质量评估
- 定义评估的目标
- 确定要评估的数据
- 识别数据的用途和数据的使用者
- 利用待评估的数据识别已知风险,包括数据问题对组织过程的潜在影响
- 根据已知和建议的规则检查数据
- 记录不一致的级别和问题类型
- 量化结果
- 与数据管理专员、领域专家和数据消费者会面,确认问题和优先级
- 使用调查结果作为规划的基础
10.5 识别改进方向并确定优先顺序
10.6 定义数据质量改进目标
10.7 开发和部署数据质量操作
- 管理数据质量规则
- 测量和监控数据质量
- 制定管理数据问题的操作过程
- 制定数据质量服务水平协议
- 编写数据质量报告
11. 纠正措施
- 自动修正
- 人工检查修正
- 人工修正
12. 数据质量指标
- 可度量性
- 业务相关性
- 可接受性
- 问责/管理制度
- 可控制性
- 趋势分析
13. 度量指标
- 投资回报
- 质量水平
- 数据质量趋势
- 数据问题管理指标
- 服务水平的一致性
- 数据质量计划示意图
14.例题
- 依据 DBMOK2 数据质量语境关系图中的内容,数据质量分析师属于哪类角色。(A)
A. 参与者
B. 供给者
C. 消费者
D. 以上都是 - 数据质量领域的很多杰出学者已经发表了一系列质量维度,其中有三个最具影响力的人物/模型。(D)
请从下列选项中选择不是这三位的选项。
A. Strong-Wang
B. Thomas Redman
C. Larry English
D. John Kotter - 企业需要提升质量的数据范围较大,通常需要分阶段按优先级开展工作,请从下列关于数据质量
工作范围确定的考量维度选项中选择合适的选项。(B)
A. 最重要的业务
B. 最重要的数据
C. 最重要的系统
D. 以上都是