第12章 元数据管理
12.1 引言
1.元数据最常见的定义是“关于数据的数据”。这个定义非常简单,但也容易引起误解。可以归类为元数据的信息范围很广,不仅包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等。它描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。元数据可以帮助组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量,对数据库与其他应用程序的管理来说是不可或缺的。它有助于处理、维护、集成、保护和治理其他数据。
为了理解元数据在数据管理中的重要作用,试想一个大型图书馆中有成千上万的书籍和杂志,但是没有目录卡片。没有目录卡片,读者将不知道如何寻找一本特定的书籍甚至一个特定的主题。目录卡片不仅提供了必要的信息(图书馆拥有哪些书籍和资料以及它们被存放在哪里),还帮助读者可以使用不同的方式(主题领域、作者或者书名)来查找资料。如果没有目录,寻找一本特定的书将是一件十分困难的事情。一个组织没有元数据,就如同一个图书馆没有目录卡片。
元数据对于数据管理和数据使用来说都是必不可少的(参阅DAMA-DMBOK中对元数据的多处引用)。所有大型组织都会产生和使用大量的数据,在整个组织中,不同的人拥有不同层面的数据知识,但没有人知道关于数据的一切。因此,必须将这些信息记录下来,否则组织可能会丢失关于自身的宝贵知识。元数据管理提供了获取和管理组织数据的主要方法。
然而,元数据管理不仅是知识管理面临的一个挑战,还是风险管理的一个必要条件。元数据可以确保组织识别私有的或敏感的数据,能够管理数据的生命周期,以实现自身利益,满足合规要求,并减少风险敞口。
如果没有可靠的元数据,组织就不知道它拥有什么数据、数据表示什么、数据来自何处、它如何在系统中流转,谁有权访问它,或者对于数据保持高质量的意义。如果没有元数据,组织就不能将其数据作为资产进行管理。实际上,如果没有元数据,组织可能根本无法管理其数据。
随着技术的发展,数据产生的速度也在加快,技术元数据已经成为数据迁移和集成方法中不可或缺的一部分。ISO的元数据注册标准ISO/IEC 11179旨在基于精确数据定义,在异构环境中实现以元数据为驱动的数据交换。使用数据时,元数据需要以XML或其他格式呈现,其他类型的元数据要求在基于保留所有权、安全要求等属性的基础上进行数据交换(参见第8章)。
与其他数据一样,元数据需要管理。随着组织收集和存储数据能力的提升,元数据在数据管理中的作用变得越来越重要。要实现数据驱动,组织必须先实现元数据驱动。
2.元数据语境关系图如图12-1所示。
图12-1 语境关系图:元数据
12.1.1 业务驱动因素
3.数据管理需要元数据,元数据本身也需要管理,可靠且良好管理元数据有助于:
1)通过提供上下文语境和执行数据质量检查提高数据的可信度。
2)通过扩展用途增加战略信息(如主数据)的价值。
3)通过识别冗余数据和流程提高运营效率。
4)防止使用过时或不正确的数据。
5)减少数据的研究时间。
6)改善数据使用者和IT专业人员之间的沟通。
7)创建准确的影响分析,从而降低项目失败的风险。
8)通过缩短系统开发生命周期时间缩短产品上市时间。
9)通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响。
10)满足监管合规。
元数据有助于采用一致的方式表示信息、简化工作流程以及保护敏感信息,尤其是在已有监管合规要求的情况下。
如果组织的数据质量很高,那么组织可以从数据资产中获得更多价值。高质量的数据和数据治理工作密切相关,因为元数据解释了使组织能够运行的数据和流程,所以元数据对于数据治理至关重要。如果说元数据是组织中数据管理的指南,那么必须妥善管理元数据。
4.元数据管理不善容易导致以下问题:
1)冗余的数据和数据管理流程。
2)重复和冗余的字典、存储库和其他元数据存储。
3)不一致的数据元素定义和与数据滥用的相关风险。
4)元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心。
5)怀疑元数据和数据的可靠性。
良好的元数据管理工作,可以确保对数据资源的一致理解和更加高效的跨组织开发使用。
12.1.2 目标和原则
5.元数据管理的目标包括:
1)记录和管理与数据相关的业务术语的知识体系,以确保人们理解和使用数据内容的一致性。
2)收集和整合来自不同来源的元数据,以确保人们了解来自组织不同部门的数据之间的相似与差异。
3)确保元数据的质量、一致性、及时性和安全。
4)提供标准途径,使元数据使用者(人员、系统和流程)可以访问元数据。
5)推广或强制使用技术元数据标准,以实现数据交换。
6.成功实施元数据解决方案应遵循以下指导原则:
1)组织承诺。确保组织对元数据管理的承诺(高级管理层的支持和资金),将元数据管理作为企业整体战略的一部分,将数据作为企业资产进行管理。
2)战略。制定元数据战略,考虑如何创建、维护、集成和访问元数据。战略能推动需求,这些需求应在评估、购买和安装元数据管理产品之前定义。元数据战略必须与业务优先级保持一致。
3)企业视角。从企业视角确保未来的可扩展性,但是要通过迭代和增量交付来实现,以带来价值。
4)潜移默化。宣导元数据的必要性和每种元数据的用途;潜移默化其价值将鼓励业务使用元数据,同时也为业务提供知识辅助。
5)访问。确保员工了解如何访问和使用元数据。
6)质量。认识到元数据通常是通过现有流程(数据建模、SDLC、业务流程定义)生成的,所以流程所有者应对元数据的质量负责。
7)审计。制定、实施和审核元数据标准,以简化元数据的集成和使用。
8)改进。创建反馈机制,以便数据使用者可以将错误的或过时的元数据反馈给元数据管理团队。
12.1.3 基本概念
1.元数据与数据
如在简介中所述,元数据也是一种数据,应该用数据管理的方式进行管理。一些组织面临的一个问题是,如何在元数据和非元数据之间划分界限。从概念上讲,这条边界与数据所代表的抽象级别有关。例如,在报告美国国家安全局对美国人使用电话的监控情况时,电话号码和通话时间通常被称为“元数据”,这意味着“真实”数据只包括电话交谈的内容,常识是电话号码和通话时间也只是普通数据。
从经验来说,一个人的元数据,可能是另一个人的数据。即使是看似元数据的东西(如一列字段名称),也可能是普通数据。例如,该数据可以作为输入,满足多个不同组织理解数据和分析数据的需求。
为了管理元数据,组织不应该担心理论上的区别,相反他们应该定义元数据需求,重点关注元数据能用来做什么(创建新数据、了解现有数据、实现系统之间的流转、访问数据、共享数据)和满足这些需求的源数据。
2.元数据的类型
7.元数据通常分为三种类型:业务元数据、技术元数据和操作元数据。这些类别使人们能够理解属于元数据总体框架下的信息范围,以及元数据的产生过程。也就是说,这些类别也可能导致混淆,特别是当人们对一组元数据属于哪个类别或应该由谁使用这个类别产生疑问时。最好是根据数据的来源而不是使用方式来考虑这些类别。就使用而言,元数据不同类型之间的区别并不严格,技术和操作人员既可以使用“业务”元数据,也可以使用其他类型元数据。
8.在信息技术之外的领域,如在图书馆或信息科学中,元数据被描述为不同的类别:
1)描述元数据(Descriptive Metadata)。描述资源并支持识别和检索,如标题、作者和主题等。
2)结构元数据(Structural Metadata)。描述资源及其组成组件之间的关系,如页数、章节等。
3)管理元数据(Administrative Metadata)。用于描述管理生命周期的元数据,如版本号、存档日期等。
这些类别有助于了解定义元数据需求的过程。
(1)业务元数据
9.业务元数据(Business Metadata)主要关注数据的内容和条件,另包括与数据治理相关的详细信息。
10.业务元数据包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义。
11.业务元数据的示例包括:
1)数据集、表和字段的定义和描述。
2)业务规则、转换规则、计算公式和推导公式。
3)数据模型。
4)数据质量规则和检核结果。
5)数据的更新计划。
6)数据溯源和数据血缘。
7)数据标准。
8)特定的数据元素记录系统。
9)有效值约束。
10)利益相关方联系信息(如数据所有者、数据管理专员)。
11)数据的安全/隐私级别。
12)已知的数据问题。
13)数据使用说明。
(2)技术元数据
10.技术元数据(Technical Metadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。
11.技术元数据示例包括:
1)物理数据库表名和字段名。
2)字段属性。
3)数据库对象的属性。
4)访问权限。
5)数据CRUD(增、删、改、查)规则。
6)物理数据模型,包括数据表名、键和索引。
7)记录数据模型与实物资产之间的关系。
8)ETL作业详细信息。
9)文件格式模式定义。
10)源到目标的映射文档。
11)数据血缘文档,包括上游和下游变更影响的信息。
12)程序和应用的名称和描述。
13)周期作业(内容更新)的调度计划和依赖。
14)恢复和备份规则。
15)数据访问的权限、组、角色。
(3)操作元数据
12.操作元数据(Operational Metadata)描述了处理和访问数据的细节,例如:
1)批处理程序的作业执行日志。
2)抽取历史和结果。
3)调度异常处理。
4)审计、平衡、控制度量的结果。
5)