01.什么是元数据?
元数据(Metadata)又称中介数据、中继数据,是描述数据的数据(data about data),主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
概念通常是专业且难懂的,我们来看几个非常易懂的例子:
例子1:元数据相当于字典
字典包含一个字的注音、笔划、部首、含义、组词、举例等基本信息及其字体结构、相关引用、出处等。另外,我们可以通过拼音或偏旁部首查到这个字。
以上图的矿字为例,“矿”字是数据本身,是真实数据,不是元数据。而其他红框标识出来的拼音、笔划、部首等对“矿”字描述的信息才是元数据。
例子2:图书馆中的元数据
图书馆都会用一个叫作“图书目录”的文件夹来管理图书,图书目录包含图书名称、编号、作者、主题、简介、摆放位置等信息,用来帮助图书管理员管理和快速查找图书。元数据就如同图书馆的图书目录一样,能够帮助数据管理员管理数据。
例子3:Excel表格中的元数据
其实对于了解数据库的人来说,元数据理解起来比较简单,元数据就是数据库表的表头、索引、主键、外键等信息。但是不了解数据库也没关系,Excel表格跟数据库是一样的道理。
上图表格中红色框标识出的信息是真实数据,而黄色框标识出的“手机号码”、“机主姓名”、“所属运营商”、“开通套餐”、“填写要求”等信息是对真实数据的描述和要求,这些信息都是元数据。
综合上面三个例子可以看出,元数据就是对真实数据的描述和要求,帮助数据的使用者理解、查找、规范和管理数据。
02.元数据的分类
元数据按用途不同分为技术元数据、业务元数据、操作元数据和管理元数据。
技术元数据(Technical Metadata):描述数据系统中技术领域相关概念、关系和规则的数据;包括数据平台内对象和数据结构的定义、源数据到目的数据的映射、数据转换的描述等;
业务元数据(Business Metadata):描述数据系统中业务领域相关概念、关系和规则的数据;包括业务术语、信息分类、指标、统计口径等;
操作元数据(Operational Metadata):描述了数据的操作属性,比如管理部门、管理责任人等。数据操作属性的明确,有助于将数据管理责任落实到部门和个人,是数据安全管理的基础条件。
管理元数据(Management Metadata):描述数据系统中管理领域相关概念、关系、规则的数据,主要包括人员角色、岗位职责、管理流程等信息。
示例:比如 175 这个数字,它在特定场景下,有如下的元数据:
03.元数据的作用
元数据的作用主要体现在如下几个方面:
1.监控和监管生产数据的规则和标准是否发生变化。
如下图①部分所示,将业务系统生产数据的元数据进行采集、存储和管理,并能实时监控生产数据的规则和标准是否发生变更,以确保后续业务调用的数据与生产数据的一致性;
2.通过数据质量分析,提高数据质量。
如下图②部分所示,数据质量分析将生产数据与元数据进行比对分析,生成数据质量分析报告,可以发现生产数据的质量问题,提高数据质量。
3.帮助理解数据,提供各类业务应用的检索和调用需求。
如下图③部分所示,经过治理后的元数据,可以提供给元数据应用、数据挖掘分析(数据建模)、数据可视化大屏调用,还可以变成数据资产,形成数据目录、API,通过数据共享服务给业务端调用 。
04.元数据的采集和管理
1.元数据采集
元数据采集服务提供各类适配器来满足各种类型和来源的元数据采集需求,并将元数据整合处理后统一存储,实现元数据的统一管理。在这个过程中,数据采集适配器十分重要,元数据采集不仅要能够适配各种数据库、各类ETL、各类数据仓库和报表产品,还需要适配各类结构化或半结构化数据源。
2.元数据管理
从技术的角度看,元数据管理一般包括元模型管理、元数据审核、元数据维护、元数据版本管理、元数据变更管理等功能。
05.元数据的应用场景
5.1 数据资产地图
按数据域对企业数据资源进行全面盘点和分类,并根据元数据字典自动生成企业数据资产的全景地图。该地图可以告诉你有哪些数据,在哪里可以找到这些数据,能用这些数据干什么。数据资产地图支持以拓扑图的形式可视化展示各类元数据和数据处理过程,通过不同层次的图形展现粒度控制,满足业务上不同应用场景的图形查询和辅助分析需要。
5.2 元数据血缘分析
元数据血缘分析会告诉你数据来自哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的血缘关系追根溯源,快速定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度。
5.3 元数据影响分析
元数据影响分析会告诉你数据去了哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的关联关系向下追踪,快速找到有哪些应用或数据库使用了这个数据,从而最大限度地减小数据问题带来的影响。这个功能常用于数据源的元数据变更对下游ETL、ODS、DW等应用的影响分析。血缘分析是向上追溯,影响分析是向下追踪,这是这两个功能的区别。
5.4 元数据冷热度分析
元数据冷热度分析会告诉你哪些数据是企业常用数据,哪些数据属于僵死数据。其价值在于让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰地看到数据的活跃程度,以便他们更好地驾驭数据,处置或激活僵死数据,从而为数据的自助式分析提供支撑。