1 元数据管理什么
1.1 元数据的概念
元数据最简单的定义是描述数据的数据。这里有两个关键点,一个是数据,一个是描述数据。企业中一般的可进行管理的数据如下表:
元数据分类 | 描述 | 对应的数据 |
业务元数据 | 描述数据=定义的数据 | 数据标准 |
数据质量标准 | ||
数据指标 | ||
数据字典 | ||
数据代码 | ||
数据安全 | ||
技术元数据 | 描述数据物理化的数据 | 关系型数据库物理模型 |
NoSql类数据库存储模型 | ||
MPP类数据库物理模型 | ||
操作元数据 | 描述数据处理过程的数据 | ETL信息 |
数据加工处理策略 | ||
数据处理调度信息 | ||
数据处理异常信息 | ||
管理元数据 | 描述数据管理归属的数据 | 业务归属 |
系统归属 | ||
运维归属 | ||
数据权限归属 |
元数据说明举例:
以一个学生登记表单为例,表单中包含学生基本信息,姓名、学号、班级,以及存在一个列表,存放学生的选课信息,课程编号、名称、学分。对于这个表单,假如我们在数据库中设计成两个表,一个是学生基本信息表,另一个是学生选课信息表,则:
● 姓名、学号、班级、课程、学分都是数据元,这些数据元有自己的元数据,即描述数据,如长度、数据类型、值域等。
● 对学生基础信息表而言,姓名、学号、班级是描述学生基础信息的数据,是它的元数据;同样,对学生选课信息表而言,课程编号、名称、学分是描述学生选课信息表的数据,是它的元数据。
1.2 元数据与元模型的关系
和元数据管理相关的另一个重要概念是元模型,要实现企业元数据管理,需要定义一个符合存储企业数据现状的元数据模型,且这个模型有不同粒度和层次的元模型。如下图:
图1
图2
2 怎么管理元数据
要实现企业元数据管理需从两个方面考虑:
一是盘点企业数据情况,搞清楚要管理哪些元数据以及这些元数据在什么地方,以何种形态存储,他们之间有有着怎样的联系。
二是建模,就是建立元数据的模型及元模型,要抽象出企业的元模型,建立个元模型之间的逻辑关系。
2.1 企业数据资产盘点
首先要把元数据建设的定位搞清楚,短期解决什么问题,长期达到什么目标,基于短期目标要重点细化。
举个例子:实现数据结构变更管理这个短期目标,那么就需要盘点企业有多少应用系统,每个应用系统有多少个数据库,数据库的种类有什么,哪些是业务数据表,哪些是垃圾数据表,每个数据字段的含义是否完整,每个系统那个业务部门使用,企业的数据变更是否有流程驱动等。如下图3:
图3
2.2 元数据建模
元数据建模是对企业要管理的元数据进行结构化、模型化。在构建元模型过程中不但要关心模型的结构更要关系模型间的关系,这些关系的创建往后衍生会支撑数据图谱或知识图谱的构建。再拿数据资产盘点的例子来讲,我们要建立数据库元模型、表元模型、字段元模型、其中库-表-字段是通过组合关系来构建的,而表-表、字段-字段是通过依赖关系来构建的。如下图4:
图4
3、元数据管理的目标
企业元数据管理的本质是有效利用企业数据资产,让数据发挥出尽可能大的价值。元数据管理可以帮助业务分析师、系统架构师、数据仓库工程师和软件开发工程师等相关干系人清楚地知道企业拥有什么数据,它们存储在哪里,如何抽取、清理、维护这些数据并指导用户使用。
3.1. 建立指标解释体系
满足用户对业务和数据理解的需求,建立标准的企业内部知识传承的信息承载平台,建立业务分析知识库,实现知识共享。
能够回答以下问题:
企业有哪些数据?
什么是企业有效客户?有效客户和客户有何区别?
什么是产品的生命周期?
数据仓库中的存储过程是谁写的?它用来干什么?现在还有在用吗?
典型应用:数据资源目录、业务术语表
3.2. 提高数据溯源能力
让用户能够清晰地了解数据仓库中数据流的来龙去脉、业务处理规则、数据转换情况等,提高数据的溯源能力,支持数据仓库的成长需求,降低因员工换岗造成的影响。
3.3. 数据质量稽核体系
通过非冗余、非重复的元数据信息提高数据完整性、准确性。
元数据管理解决的问题是如何将业务系统中的数据,分门别类地进行管理,建立报警、监控机制,出现故障时能及时发现问题,为数据仓库的数据质量监控提供基础素材。
4、元数据管理实施
未完待续