DAMA数据管理知识体系-数据质量

DAMA数据管理知识体系

在这里插入图片描述

前言

该章节主要是针对DAMA数据管理知识体系的学习笔记中数据质量,思维导图如下(考题10分)
在这里插入图片描述


数据质量

1. 概述

  • 与数据治理和整体数据管理一样,数据质量管理不是一个项目,而是一项持续性工作。
  • 高质量数据:达到数据消费者的期望和需求

2. 业务驱动因素

  • 提高组织数据价值和数据利用的机会

  • 降低低质量数据导致的风险和成本

  • 提高组织效率和生产力

  • 保护和提高组织的声誉

    注:高质量数据本身并不是目的,它只是组织获取成功的一种手段

3. 目标和原则

3.1 目标

  • 根据数据消费者的需求,开发一种受管理的方法,使数据适合要求
  • 定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分
  • 定义和实施测量、监控和报告数据质量水平的过程

3.2 原则

  • 重要性
  • 全生命周期管理
  • 预防
  • 根因修正
  • 治理
  • 标准驱动
  • 客观测量和透明度
  • 嵌入业务流程
  • 系统强制执行
  • 与服务水平关联

4. 基本概念

4.1 数据质量

  • “数据质量”一词既指高质量数据的相关特征,也指用于衡量或改进 数据质量的过程

4.2 评估关键数据

  • 监管报告
  • 财务报告
  • 商业政策
  • 持续经营
  • 商业战略,尤其是差异化竞争战略

4.3 数据质量维度(DAMA)

  • 完备性
  • 唯一性
  • 及时性
  • 有效性
  • 准确性
  • 一致性

需要知道的三个名字以及它们各自的特性:

Strong-Wang

Thomas Redman

Larry English

5. 数据质量改进生命周期

  • 戴明环
    • 计划-执行-检查-处理(行动)
    • PDCA:计划(Plan)阶段,执行(Do)阶段,检查(Check)阶段,处理(Act)阶段

这里的英文单词注意与语境关系图的PCDO区分开来,常考

6. 数据质量业务规则类型

  • 定义一致性
  • 数值存在和记录完备性
  • 格式符合性
  • 值域匹配性
  • 范围一致性
  • 映射一致性
  • 一致性规则
  • 准确性验证
  • 唯一性验证
  • 及时性验证

7. 数据质量问题的常见原因

  • 缺乏领导力导致的问题
  • 数据输入过程引起的问题
  • 数据处理功能引起的问题
  • 系统设计引起的问题
  • 解决问题引起的问题

8. 数据剖析

数据剖析(Data Profiling)是一种用于检查数据和评估质量的数据分析形式。

  • 空值数
  • 最大/最小值
  • 最大/最小长度
  • 单个列值的频率分布
  • 数据类型和格式

9. 数据质量和数据处理

  • 数据清理
  • 数据增强
    • 时间戳
    • 审计数据
    • 参考词汇表
    • 语境信息
    • 地理信息
    • 人口统计信息
    • 心理信息
    • 心理信息
  • 数据解析和格式化
  • 数据转换与标准化

10. 活动

10.1 定义高质量数据

10.2 定义数据质量战略

10.3 识别关键数据和业务规则

10.4 执行初始数据质量评估

  • 定义评估的目标
  • 确定要评估的数据
  • 识别数据的用途和数据的使用者
  • 利用待评估的数据识别已知风险,包括数据问题对组织过程的潜在影响
  • 根据已知和建议的规则检查数据
  • 记录不一致的级别和问题类型
  • 量化结果
  • 与数据管理专员、领域专家和数据消费者会面,确认问题和优先级
  • 使用调查结果作为规划的基础

10.5 识别改进方向并确定优先顺序

10.6 定义数据质量改进目标

10.7 开发和部署数据质量操作

  • 管理数据质量规则
  • 测量和监控数据质量
  • 制定管理数据问题的操作过程
  • 制定数据质量服务水平协议
  • 编写数据质量报告

11. 纠正措施

  • 自动修正
  • 人工检查修正
  • 人工修正

12. 数据质量指标

  • 可度量性
  • 业务相关性
  • 可接受性
  • 问责/管理制度
  • 可控制性
  • 趋势分析

13. 度量指标

  • 投资回报
  • 质量水平
  • 数据质量趋势
  • 数据问题管理指标
  • 服务水平的一致性
  • 数据质量计划示意图

14.例题

  • 依据 DBMOK2 数据质量语境关系图中的内容,数据质量分析师属于哪类角色。(A)
    A. 参与者
    B. 供给者
    C. 消费者
    D. 以上都是
  • 数据质量领域的很多杰出学者已经发表了一系列质量维度,其中有三个最具影响力的人物/模型。(D)
    请从下列选项中选择不是这三位的选项。
    A. Strong-Wang
    B. Thomas Redman
    C. Larry English
    D. John Kotter
  • 企业需要提升质量的数据范围较大,通常需要分阶段按优先级开展工作,请从下列关于数据质量
    工作范围确定的考量维度选项中选择合适的选项。(B)
    A. 最重要的业务
    B. 最重要的数据
    C. 最重要的系统
    D. 以上都是
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值