DAMA数据管理知识体系
前言
该章节主要是针对DAMA数据管理知识体系的学习笔记中元数据管理,思维导图如下(考题10分)
文章目录
元数据管理
1. 定义
- 关于数据的数据
- 例如图书馆的目录卡片
- 如果没有可靠的元数据,组织就不知道它拥有什么数据、数据表示什么、数据来自何处、它如何在系统中流转,谁有权访问它,或者对于数据保持高质量的意义。如果没有元数据,组织就不能将其数据作为资产进行管理。
- 技术:元数据 业务: 数据资源目录 不等于:数据资产目录
2. 业务驱动因素
-
数据管理需要元数据,元数据本身也需要管理
-
元数据管理不善导致的问题
- 冗余的数据和数据管理流程
- 重复和冗余的字典、存储库和其他元数据存储
- 不一致的数据元素定义和与数据滥用的相关风险
- 元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心
- 怀疑元数据和数据的可靠性
-
好处
- 通过提供上下文语境和执行数据质量检查提高数据的可信度
- 通过扩展用途增加战略信息(如主数据)的价值
- 通过识别冗余数据和流程提高运营效率
- 防止使用过时或不正确的数据
- 减少数据的研究时间
- 改善数据使用者和IT专业人员之间的沟通
- 创建准确的影响分析,从而降低项目失败的风险
- 通过缩短系统开发生命周期时间缩短产品上市时间
- 通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响
- 满足监管合规
3. 目标和原则
3.1 目标
- 记录和管理与数据相关的业务术语的知识体系,以确保人们理解和使用数据内容的一致性
- 收集和整合来自不同来源的元数据,以确保人们了解来自组织不同部门的数据之间的相似与差异
- 确保元数据的质量、一致性、及时性和安全
- 提供标准途径,使元数据使用者(人员、系统和流程)可以访问元数据
- 推广或强制使用技术元数据标准,以实现数据交换
3.2 原则
- 组织承诺
- 战略
- 企业视角
- 潜移默化
- 访问
- 质量
- 审计
- 改进
4. 元数据的类型
-
业务元数据
业务元数据包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义
1)数据集、表和字段的定义和描述。
2)业务规则、转换规则、计算公式和推导公式。
3)数据模型。
4)数据质量规则和检核结果。
5)数据的更新计划。
6)数据溯源和数据血缘。
7)数据标准。
8)特定的数据元素记录系统。
9)有效值约束。
10)利益相关方联系信息(如数据所有者、数据管理专员)。
11)数据的安全/隐私级别。
12)已知的数据问题。
13)数据使用说明
-
技术元数据
提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息
注:带有物理字眼的均为技术元数据,如物理数据库表名和字段名,字段属性,物理数据模型,包括数据表名、键和索引
1)物理数据库表名和字段名。
2)字段属性。
3)数据库对象的属性。
4)访问权限。
5)数据CRUD(增、删、改、查)规则。
6)物理数据模型,包括数据表名、键和索引。
7)记录数据模型与实物资产之间的关系。
8)ETL作业详细信息。
9)文件格式模式定义。
10)源到目标的映射文档。
11)数据血缘文档,包括上游和下游变更影响的信息。
12)程序和应用的名称和描述。
13)周期作业(内容更新)的调度计划和依赖。
14)恢复和备份规则。
15)数据访问的权限、组、角色。
-
操作元数据
描述了处理和访问数据的细节
1)批处理程序的作业执行日志。
2)抽取历史和结果。
3)调度异常处理。
4)审计、平衡、控制度量的结果。
5)错误日志。
6)报表和查询的访问模式、频率和执行时间。
7)补丁和版本的维护计划和执行情况,以及当前的补丁级别。
8)备份、保留、创建日期、灾备恢复预案。
9)服务水平协议(SLA)要求和规定。
10)容量和使用模式。
11)数据归档、保留规则和相关归档文件。
12)清洗标准。
13)数据共享规则和协议
14)技术人员的角色、职责和联系信息。
5. 非结构化数据的元数据
-
描述元数据
如目录信息和同义关键字
-
结构元数据
如标签、字段结构、特定格式
-
管理元数据
如来源、更新计划、访问权限和导航信息
-
书目元数据
如图书馆目录条目
-
记录元数据
如保留策略
-
保存元数据
如存储、归档条件和保存规则
6. 元数据来源
- 应用程序中元数据存储库
- 业务术语表
- 商务智能工具
- 配置管理工具
- 数据字典
- 数据集成工具
- 数据库管理和系统目录
- 数据映射管理工具
- 数据质量工具
- 字典和目录
- 事件消息工具
- 建模工具和存储库
- 参考数据库
- 服务注册
- 其他元数据存储
7. 元数据架构的类型
- 集中式元数据架构
- 分布式元数据架构
- 混合式元数据架构
- 双向元数据架构
8. 活动
8.1 定义元数据战略
- 元数据战略实施步骤
- 启动元数据战略计划
- 组织关键利益相关方的访谈
- 评估现有的元数据资源和信息架构
- 开发未来的元数据架构
- 制订分阶段的实施计划
8.2 理解元数据需求
- 具体内容:需要哪些元数据和哪种详细级别
- 元数据综合解决方案
- 更新频次
- 同步情况
- 同步情况
- 访问权限
- 存储结构
- 集成要求
- 运维要求
- 管理要求
- 质量要求
- 安全要求
8.3 定义元数据架构
- 创建一个元数据存储库的数据模型,也叫元模型
- 应用元数据标准
- 管理元数据存储
- 控制活动
- 质量控制活动
- 满足监管合规
- 数据更新频率——与时间表匹配
- 缺失元数据报告
- 未更新的元数据报告
- 元数据管理活动
8.4 创建和维护元数据
-
管理元数据质量方法
-
责任
认识到元数据通常通过现有流程产生,因此流程的执行者对元数据的质量负责
-
标准
制定、执行和审计元数据标准,简化集成过程,并且适用
-
改进
建立反馈机制保障用户可以将不准确或 已过时的元数据通知元数据管理团队
-
-
整合元数据
-
分发和传递元数据
8.5 查询、报告和分析元数据
- 变更影响分析
- 数据血缘关系报告
9. 数据血缘和影响分析
- 基于程序编码的当前版本的血缘称为“实现态血缘”
- 映射规范文档中描述的血缘称为“设计态血缘”
- 元数据管理系统通过可以提供数据血缘详情的工具导入“实现态血缘”,并从无法自动抽取的“设计态血缘”文件中获取实施细节加以补充
10. 度量指标
- 元数据存储库完整性
- 元数据管理成熟度
- 专职人员配备
- 元数据使用情况
- 业务术语活动
- 主数据服务数据遵从性
- 元数据文档质量
- 元数据存储库可用性
11.例题
- 元数据通常分为业务元数据、技术元数据和操作元数据,请从下列选项中选择不属于操作元数据
的选项。(B)
A. 抽取历史和结果
B. 源到目标的映射文档
C. 调度异常处理
D. 数据共享规则和协议 - 元数据架构一般包括集中式元数据架构、分布式元数据架构、混合式元数据架构和双向元数据架
构,请从下列选项中选择不属于分布式元数据架构优势的选项。(A)
A. 高可用性
B. 提供响应和处理效率
C. 减少批处理
D. 保持最新且有效的元数据 - 请从下列选项中选择关于管理元数据质量方法的描述不正确的选项(B)
A. 认识到元数据通常通过现有流程产生,因此流程的执行者对元数据质量负责。
B. 对所有的元数据进行剖析和质量检查,保证质量问题能够及时发现和解决。
C. 制定、执行和审计元数据标准,简化元数据集成过程,为使用提供便利。
D. 建立反馈机制,保证用户可以将不准确或已过时的元数据通知元数据管理团队。