第12章 元数据管理
一、引言
元数据描述了数据本身(eg:数据库、数据元素、数据模型),数据表示的概念(eg:业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。元数据可以帮助组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量,对数据库与其他应用程序的管理不可或缺。
1.1 业务驱动因素
元数据管理用途:
- 通过提供上下文语境和执行数据质量检查提高数据可信度
- 通过扩展用途增加战略信息价值
- 通过识别冗余数据和流程提高运营效率
- 防止使用过时或不正确的数据
- 减少数据的研究时间
- 改善数据使用者和IT专业人员之间的沟通
- 创建准确的影响分析,从而降低项目失败的风险
- 通过缩短系统开发生命周期时间缩短产品上市时间
- 通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响
- 满足监管合规
1.2 目标和原则
元数据管理目标:
- 记录和管理数据相关的业务属于的知识体系,以确保理解和使用数据内容的一致性
- 收集和整合来自不同来源的元数据,以确保了解来自组织不同部门的数据之间的相似与差异
- 确保元数据的质量、一致性、及时性和安全
- 提供标准途径,使元数据使用者可访问元数据
- 推广或强制使用技术元数据数据标准,以实现数据交换
元数据管理应遵循指导原则:
- 组织承诺。确保组织对元数据的管理,将元数据管理作为企业整体战略的一部分,将数据作为企业资产进行管理。
- 战略。制定元数据战略,考虑如何创建、维护、集成和访问元数据。
- 企业视角。从企业视角确保未来的可扩展性,但要通过迭代和增量交付来实现,以带来价值。
- 潜移默化。宣导元数据的必要性和每种元数据的用途;潜移默化其价值将鼓励业务使用单元数据,同时也为业务提供知识辅助
- 质量。认识到元数据通过现有流程生成的,所以流程所有者应对元数据及的质量负责
- 审计。制定、实施和审核元数据标准,以简化元数据的集成和使用
- 改进。创建反馈机制,以便数据使用者可将错误或过时的元数据反馈给元数据管理团队。
1.3 基本概念
1.3.1 元数据的类型
(1)业务元数据
关注数据的内容和条件,包括与数据治理相关的详细信息
- 数据集、表和字段的定义和描述
- 业务规则、转换规则、计算公司和推导公式
- 数据模型
- 数据质量规则和检核结果
- 数据的更新计划
- 数据溯源和数据血缘
- 数据标准
- 特定的数据元素记录系统
- 有效值约束
- 利益相关方联系信息
- 数据的安全/隐私级别
- 已知的数据问题
- 数据使用说明
(2)技术元数据
提供有关数据的技术细节、存储数据的系统以及在系统内核系统之间的数据流转过程的信息
- 物理数据库表命和字段名
- 字段属性
- 数据库对象的属性
- 访问权限
- 数据CRUD(增、删、改、查)规则
- 物理数据模型,包括数据表名、键和索引
- 记录数据模型和十五资产之间的关系
- ETL工作详细信息
- 文件格式模式定义
- 源到目标的映射文档
- 数据血缘文档,包括上游和下游变更影响的信息
- 程序和应用的名称和描述
- 周期作业的调度计划和依赖
- 恢复和备份规则
- 数据访问的权限、组、角色
(3)操作元数据
- 批处理程序的作业执行日志
- 抽取历史和结果
- 调度异常处理
- 审计、平衡、控制度量的结果
- 错误日志
- 报表和查询的访问模式
- 频率和执行时间
- 补丁和版本的维护计划和执行情况,以及当前的补丁级别
- 备份、保留、创建日期、灾备恢复预案
- 服务水平协议(SLA)要求和规定
- 容量和使用模式
- 数据归档、保留规则和相关归档文件
- 清洗标准
- 数据共享规则和协议
- 技术人员的角色、职责和联系信息
1.3.2 ISO/IEC 11179元数据注册标准
该标准提供了用于定义元数据注册的框架,旨在基于数据的精确定义,从数据元素开始,实现元数据驱动的数据交换。该标准由以下几部分组成:
- 数据元素生成和标准化框架
- 数据元素分类
- 数据元素的基本属性
- 数据定义的形成规则和指南
- 数据元素的命名和识别原则
- 数据元素的注册
1.3.3 非结构化数据的元数据
非结构化数据的元数据包括:
- 描述元数据,如目录信息和同义关键字;
- 结构元数据,如标签、字段结构、特定格式;
- 管理元数据,如来源、更新计划、访问权限和导航信息;
- 书目元数据,如图书馆目录条目;
- 记录元数据,如保留策略;
- 保存元数据,如存储、归档条件和保存规则。
1.3.4 元数据来源
(1)应用程序中的元数据存储库
元数据存储库指元数据的物理表,这些表通常内置在建模工具、BI工具和其他应用程序中。
(2)业务术语表
业务术语表作用是记录和存储组织的业务概念、术语、定义以及这些术语之间的关系。业务术语表应满足三个核心用户功能需求:
- 业务用户。数据分析师、研究分析师、管理人员和使用业务术语表来理解术语和数据的其他人员。
- 数据管理专员。数据管理员使用业务术语表管理和定义术语的生命周期,并通过将数据资产与术语表相关联增强企业知识,如将术语与业务指标、报告、数据质量分析或技术组件相关联。
- 技术用户。技术用户使用业务术语表设计架构、设计系统和开发决策,并进行影响分析。
业务术语表应包含业务术语属性:
- 术语名称、定义、缩写或简称,以及任何同义词
- 负责管理与术语相关的数据的业务部门或应用程序
- 维护术语的人员姓名和更新日期
- 术语的分类或分类减的关联关系
- 需要解决的冲突定义、问题的性质、行动时间表
- 常见的误解
- 支持定义的算法
- 血缘
- 支持该术语的官方或权威数据来源
(3)商务智能工具
商务智能工具生成与商务智能设计相关的各类元数据,包括概述信息、类、对象、衍生信息和计算的项、过滤器、报表、报表字段、报表展示、报表用户、报表发布频率和报表发布渠道。
(4)配置管理工具
配置管理工具或数据库提供了管理和维护与IT资产、它们之间关系以及资产的合同细节相关的元数据功能。
(5)数据字典
数据字典定义数据集的结构和内容,通常用于单个数据库、应用程序或数据仓库。数据字典可用于管理数据模型中每个元素的名称、描述、结构、特征、存储要求、默认值、关系、唯一性和其他属性,还应包含表或文件定义。
(6)数据集成工具
许多数据集成工具用于可执行问价将数据从一个系统移动到另一个系统,或在同一个系统中的不同模块之间移动。数据集成工具提供了API,允许爱步元数据存储库提取血缘关系信息和临时文件元数据。还提供有关各种数据集成作业执行的元数据,包括上次上工运行、持续时间和作业状态。
(7)数据库管理和系统目录
数据库目录是元数据的重要来源,它们描述了数据库内容、信息大小、软件版本、部署状态、网络正常运行时间、基础架构正常运行时间、可用性,以及许多其他操作元数据属性。
(8)数据映射管理工具
映射管理工具用于项目的分析和设计阶段,它将需要转换为映射规范,然后从数据集成工具直接使用或由开发人员用来生成数据集成代码。
(9)数据质量工具
数据质量工具通过验证规则来评估数据质量,其中的大多数工具提供了与其他元数据存储库交换质量分数和质量概况的功能,使元数据存储库能将质量分数附加到相关物理资产上。
(10)字典和目录
数据字典和术语表包含有关术语、表和字段的详细信息,但字典或目录包含有关组织内数据的系统、源和位置的信息。
(11)事件消息工具
事件消息工具在不同系统之间移动数据,需要大量的元数据,并生成描述此移动的元数据。
(12)建模工具和存储库
数据建模工具用于构建各种类型的数据模型:概念模型、逻辑模型和物理模型。这些工具生成与应用程序或系统模型设计相关的元数据,如主题域、逻辑实体、逻辑属性、实体和属性关系、父类型和子类型、表、字段、索引、主键和外键,完整性约束以及模型中其他类型尚需经。元数据存储库可提取由这些工具创建的模型,并将导入的元数据整合到存储库中。
(13)参考数据库
参考数据记录各种类型的枚举数据的业务价值和描述,在系统中的上下文中使用。用于管理参考数据工具,还能管理相同或不同业务类型内不同编码值之间的关系。
(14)服务注册
服务数据从面相服务的架构(SOA)角度管理和存储有关服务和服务终端的技术信息,如定义、接口、操作、输入和输出参数、制度、版本和示例使用场景。
(15)其他元数据存储
其他元数据的种类繁多,大多是制定格式清单、如事件注册表、源列表或接口、代码集、词典、时空模式、空间参考、数字地理数据集的分发、存储库的业务规则。
1.3.5 元数据架构的类型
元数据也有生命周期,所有元数据管理解决方案都包含于元数据生命周期向对应的架构层次,可采用不同架构方法获取、存储、集成和维护元数据,供消费者访问法元数据。
(1)集中式元数据架构
集中式元数据架构由单一的元数据存储库组成,包含来自各种不同源的元数据副本。
优点 |
|
---|---|
缺点 |
|
(2)分布式元数据架构
一个完全分布式的架构中维护了一个单一的接入点。元数据检索引擎通过实时从源系统检索数据来响应用户请求;分布式元数据架构没有持久化的存储库。
优点 |
|
---|---|
缺点 |
|
(3)混合式元数据架构
混合架构结合了集中式和分布式架构特性,元数据仍然直接从源系统移动到集中式存储库。该架构得益于从源头近乎实时地检索元数据和扩充元数据,可在需要时有效地满足用户需求。混合方法降低了对专有系统级进行手动干预和自定义编码访问功能的工作量。基于用于的优先级和要求,元数据在使用时进可能是最新且有效地。混合架构不会提高系统可用性。
(4)双向元数据架构
另一种高级架构方法是双向元数据架构,它允许元数据在架构的任何部分中进行更改,然后将变更从存储库同步到其原始源以实现反馈。这种方法存在各种跳帧。该设计强制元数据存储库包含最新版本的元数据源,并强调对源的更改管理,必须系统地捕获变更,然后加以解决;必须构建和维护附加的一系列处理结构,以将存储库的内容会写到元数据源。
二、活动
2.1 定义元数据战略
元数据战略包括定义组织元数据架构蓝图和战略目标匹配的实施步骤,包括:
- 启动元数据战略计划:启动和计划的目的是保证元数据战略团队可定义出短期和长期目标。计划包括起草与整体治理措施一致的章程、范围和具体目标,然后开展沟通计划以落实治理措施。
- 组织关键利益相关方访谈:通过对业务人员和技术人员的访谈,可得到元数据战略的基础知识
- 评估现有的元数据资源架构和信息架构:评估确定解决元数据和系统问题的难度、在访谈和文档复查中识别这些问题。
- 开发未来的元数据架构:优化和确认未来愿景,开发可满足管理现阶段元数据环境长期目标的元数据架构
- 制定分阶段的实施计划:从访谈和数据分析中验证、整合、确定结果的优先级,发布元数据战略,并定义分阶段的、可从当前状态迈向未来受控的元数据环境的实施方法。
2.2 理解元数据需求
元数据需求的具体内容:需要哪些元数据和那种详细级别,元数据综合解决方案由以下功能需求点组成:
- 更新频次,元数据属性和属性集更新频率
- 同步情况,数据源头变化后的更新时间
- 历史信息,是否需要保留元数据的历史版本
- 访问全新,通过特定的用户界面功能,谁可以访问元数据,如何访问
- 存储结构,元数据如何通过建模来存储
- 集成要求,元数据从不同数据源的整合程度,整合的规则
- 运维要求,更新元数据的处理过程和规则
- 管理要求,管理元数据的角色和职责
- 质量要求,元数据数据需求
- 安全要求,一些元数据不应公开,因为会泄漏某些高度保密数据的信息
2.3 定义元数据架构
元数据架构应为用户访问元数据存储库提供统一入口,该入口必须向用户透明地提供所有相关元数据资源,这意味着用户可在不关注数据源的差异的情况下访问元数据。
2.3.1 创建元模型
创建一个元数据存储库的数据模型(即元模型),是定义元数据战略和理解业务需求后的第一个设计步骤。可根据需求开发不同级别的元模型;高级别的概念模型描述了系统之间的关系,低级别的元模型细化了各个属性,描述了模型组成元素和处理过程。
2.3.2 因公元数据标准
元数据解决方案应遵循在元数据战略中已定义的对内核对外的标准,组织对内元数据标准包括命名规则、自定义属性、安全、可见性和处理过程文档,组织对外元数据标准包括数据交换格式和应程序接口设计。
2.3.3 管理元数据存储
实施控制活动以管理元数据环境。这些活动本质是可管理的、可监控的、可报告的、可预警的、有作业日志的,同时可解决各种已实施的元数据存储库环境的各种问题。
控制活动 |
|
---|---|
质量控制活动 |
|
元数据管理活动 |
|
培训活动 |
|
2.4 创建和维护元数据
为保证高质量的元数据,应把元数据当作产品来进行管理,元数据管理的几个一般原则描述了管理元数据质量的方法:
- 责任。认识到元数据通常通过现有流程产生,因此流程的执行者对元数据的质量负责。
- 标准。制定、执行和审计元数据标准,简化集成过程,并且使用。
- 改进。建立反馈机制保障用户可以将不准确或已过时的元数据通知元数据管理团队。
2.4.1 整合元数据
集成过程中从整个企业范围内收集和整合元数据,包括从企业外部获取的数据中的元数据。元数据存储库硬蛋将提取的技术元数据与相关的业务、流程和管理元数据集成在一起,可使用适配器、扫描仪、网桥应用程序或直接访问源数据存储中的方式来提取元数据。
对元数据存储库的扫描有两种不同方式:
- 专用接口。采用单步方式,扫描程序从来源系统中采集元数据,直接调用特定格式的装载程序,将元数据加载到元数据存储中。在此过程中,不需要输出任何中间元数据文件,元数据的采集和装载也是一步完成的。
- 半专用接口。采用两步方式,扫描程序从来源系统中采集元数据,并输出到特定格式的数据文件中。扫描程序只产生目标存储库能够正确读取和加载的数据文件。数据文件可被多种方式读取,所以这种接口的架构更加开放。
扫描程序产生和使用多种类型文件:
- 控制文件,包括数据模型的数据源结构信息
- 重用文件,包含数据模型的数据源结构信息
- 日志文件,在流程的每一阶段、每次扫描或抽取操作生成的日志
- 临时和备份文件,在流程中使用或做追溯流程所使用的文件
2.4.2 分发和传递元数据
元数据可传递给数据消费者和需要处理元数据的应用或工具。传递机制包括:
- 元数据内部网站,提供浏览、搜索、查询、报告和分析功能
- 报告、术语表和其他文档
- 数据仓库、数据集市和BI工具
- 建模和软件开发工具
- 消息传送和事物
- Web服务和应用程序接口(API)
- 外部组织接口方案(如供应链解决方案)
2.5 查询、报告和分析元数据
元数据指导如何使用数据资产:在商务之后能、商业决策以及业务语义方面使用元数据。元数据存储库应具有前段应用程序,并支持查询和获取功能,从而满足以上各类数据资产管理的需要。
三、工具
管理元数据的主要工具时元数据存储库。元数据存储库包括整合曾和手工更新的接口。外部和使用元数据的工具集成到元数据存储库中作为元数据来源。
四、方法
4.1 数据血缘和影响分析
发现和记录数据资产的元数据的一个重要意义在于提供了数据如何在系统间转移的信息。要想成功发现数据血缘关系,需要兼顾业务焦点和技术焦点。
- 业务焦点:根据业务优先级寻找数据元的血缘关系。从目标位置回溯到具体数据起源的源系统。通过扫描那些数据迁移、传送或更新的数据元,确保业务数据使用者理解特定数据元在系统间迁移时发生了什么
- 技术焦点:从源系统开始识别直接相关的数据使用者,依次识别间接的数据使用者,直到识别出所有系统为止。许多数据整合工具提供数据血缘分析功能,该功能不仅包括开发大量代码,也设计了数据模型和物理数据库。
记录血缘关系有助于业务和技术人员使用数据,如缺失数据血缘,用户将需要花费大量时间来检查异常现象、潜在的变更影响和其他未知结果。
4.2 应用于大数据采集的元数据
元数据标签应在采集时应用于数据,然后元数据可用来识别可访问的数据湖中的数据内容。大部分采集引擎采集数据后进行数据剖析,数据剖析可识别出数据域、数据关系和数据质量问题,并打上标签。采集数据时,识别到敏感或隐私数据时应添加元数据标签。
五、实施指南
存储库的内容在设计上应该是通用的,而不只是反映源系统的数据库设计。应基于易理解的元数据模型与企业领域专家共同进行设计。
5.1 就绪评估/风险评估
拥有坚定的元数据战略,有助于所有人进行更高效的决策。评估缺失高质量元数据可能带来的影响如下:
- 因不正确、不完整和不合理的假设或缺乏数据内容的知识导致错误判断。
- 暴露敏感数据,使客户或员工面临风险,影响商业信誉和导致法律纠纷。
- 如果了解数据的那些领域专家们离开了,那么他们了解的知识也随之被带走了。
组织准备情况的评估解决方法为:对元数据相关活动现在进行正式的成熟度评估,评估内容应包括重要的业务数据元、可用的元数据术语表、数据血缘、数据剖析和数据质量管理过程、主数据管理成熟度和其他方面。
5.2 组织和文化变革
元数据计划经常遇到文化阻力。元数据管理在许多组织中国是一项低优先级的工作。一组基本的元数据需要组织中各团队的协调和承诺。企业数据治理战略的实现需要高级管理层的支持和参与,要求业务人员和技术人员能够以跨职能的方式紧密合作。
六、元数据治理
组织应确定它们管理元数据生命周期的具体需求,并开展元数据治理工作以满足浙西诶需求。建立正式的角色和职责并分配专用资源,特别是在大型或业务关键领域中。
6.1 过程控制
数据管理团队应负责定义标准和管理元数据的额状态变化,同时可负责组织内的质量提升活动、培训计划或事实培训活动。
6.2 元数据解决方案的文档
元数据的主目录包括当前作用域中的源和目标,告知用户能够满足以下需求:
- 元数据管理事实状态
- 源和目标元数据存储
- 元数据更新的调度计划信息
- 留存和保持的版本
- 内容
- 质量声明或警告
- 记录系统和其他数据源状态
- 相关的工具、架构和人员
- 敏感信息和数据源的移除或敏感策略
6.3 元数据标准和指南
在计划周期的早期采用基于行业的、行业特有的元数据标准,并使用这些标准评估元数据管理技术。指导方针包括模板、相关示例、有关预期输入和更新的培训,以及“不适用术语定义术语”等规则和完整性声明。针对不同类型的元数据开发不同的模板,部分由所选的元数据解决方案驱动。持续监测指导方针的有效性和必要更新是治理责任。
6.4 度量指标
要想测量元数据的影响,就需验证缺少元数据导致的影响。元数据管理实施的有效性可根据元数据本身的完整性、与其关联的日常管理操作以及元数据的使用情况来度量。元数据管理环境的建议指标包括:
- 元数据存储库完整性。将企业元数据的理想覆盖率与实际覆盖率进行比较。
- 元数据管理成熟度。根据能力成熟度模型的成熟度评估方法,开发用于判断企业元数据成熟度的指标。
- 专职人员配备。通过专职人员的任命情况、整个企业的专职人员覆盖范围,以及职位描述中的角色定义说明,来评估的组织对元数据的承诺。
- 原始源呼救使用情况。可通过存储库的访问法次数衡量用户对元数据存储库的使用情况和接受程度。
- 业务术语活动。使用、更新、定义解析、覆盖范围。
- 主数据服务数据遵从性。显示SOA解决方案中数据的重用情况。
- 元数据文档质量。一个质量指标是通过自动和手动两种方式评估元数据文档的质量。自动评估方式包括对两个源执行冲突逻辑的比对、测量二者匹配的程度以及随时间推移的变化趋势。另一个度量指标是度量具有定义的属性的百分比,以及随着时间的推移而发生变化的趋势。手动评估方式包括基于企业质量定义进行随机或完整的调查。质量度量表明存储库中元数据的完整性、可靠性、通用性等。
- 元数据存储库可用性。正常运行时间、处理时间。