在谈元数据实施之前,为什么会有元数据这个概念。首先,数据治理的概念是对数据数据管理的管理,那么我们在数据管理的过程中会普遍遇到哪些问题,如下图所示:
那么什么是元数据,抽象一点来说,就是关于数据的数据,对于数据一切信息化的描述,主要包括业务元数据、技术元数据、操作元数据、管理元数据,至于这几个分类的含义,不懂的可以另外了解一下,总之在DAMA领域当中个,元数据被列为十大管理领域中的重要一项,也是要做好数据治理的最基础活动,是对于数据的管理、质量控制、集成共享和分析挖掘都起到了重要的作用,是数据管理和应用的必要组成部分。
那么元数据治理的实施路线图是什么,用元数据来做什么,目标主要包括:
- 提供数据使用方、数据提供方、数据管理方对数据资源一致的可理解的业务定义;
- 采集多源元数据并整合元数据,形成统一元数据中心;
- 提供元数据访问使用的标准方法;
- 保障元数据的质量与安全;
- 开展元数据应用建设,如数据地图、血缘分析等。
元数据实施工作开展之前,也是和其他活动一样,先有组织制度再开展实施。需要先构建元数据治理团队,指导和开展元数据治理专项实施工作。元数据治理团队由数据管理部门(数据治理办公室)、数据中台建设单位。因为元数据的调研和相关元数据的采集,需要各个业务单位配合,所以需要由数据管理部门协同相关业务单位配合开展。
其次,需要组织制定元数据治理规范和相关保障制度,用于指导和开展元数据治理的具体实施工作,保障元数据治理安全可控、质量可靠。元数据治理规范和保障制度包括《元数据管理规范》、《元数据管理流程》等。
建立组织和制度之后,就是需要考虑如何实施开展元数据治理工作,一般包括以下几个环节:
一、元数据摸排/调研
元数据摸排阶段由元数据开发实施人员对各个单位业务系统暨数源单位的元数据、数据中台自产生的元数据开展梳理和盘点,形成元数据摸排清单,为后续元数据接入和清洗转换工作提供元数据要素。
介于数据治理环境的特殊性,元数据的调研建议按照两个方向去调研,一是内部数据的元数据信息,二是数源单位的元数据信息。主要包括:
序号 | 元数据类型 | 元数据 | 描述 |
1 | 数源单位元数据 | 部门 | 各个业务单位,包括部门名称、编码、职能、地址、接口人等信息 |
2 | 系统 | 各业务部门自建系统,包括系统名称、编码、类型、在用状态、建设厂家等信息 | |
3 | 数据库 | 包括数据库类型、名称、所属系统、在用状态、版本、IP地址等信息 | |
4 | 库表 | 包括库表英文名称、中文名称、描述、所属数据库、创建人等信息 | |
5 | 字段 | 包括字段英文名称、中文名称、描述、类型、长度、值阈、索引、主外键等 | |
6 | 数据中台元数据 | 数据分层 | 数据中台数据资源库的分层信息,如ODS\DWD等 |
7 | 主题域 | 数据中台数据资源库的主题域信息,如组织域/车辆域/事件域等 | |
9 | 库表 | 数据中台通过如数据关联、融合等数据治理动作形成的数据资源信息,包括表英文名称、中文名称、描述等 | |
10 | 字段 | 数据中台通过如数据关联、融合等数据治理动作形成的数据资源所包括字段信息,包括表英文名称、中文名称、描述等 | |
11 | 指标 | 数据中台通过关联/分析创建和管理的指标信息,包括指标英文名称、中文名称、类目、编码、事实表、口径等 | |
12 | 接口(API) | 数据中台创建和管理的用于对外数据开放接口(API)信息,包括API名称、编码、表、创建人、状态等 | |
13 | 治理规则 | 数据中台用于对表模型开展数据治理的规则信息,包括质量规则、安全规则、清单规则、转换规则,包括规则名称、类型、编码、所属表、属性字段、规则、描述等 | |
14 | 数据共享 | 数据中台的数据共享任务信息,包括共享任务名称、编码、表、共享对象等 | |
15 | 数据开放 | 数据中台的数据共享任务信息,包括共享任务名称、编码、表、开放对象等 | |
16 | ETL任务 | 数据中台ETL任务信息,包括任务类目、名称、编码、状态等 |
通过元数据摸排及调研,形成元数据摸排清单,为后续元数据采集提供基础。
二、元数据采集
根据元数据摸排结果,由开发实施人员在开发或配置元数据采集任务,将元数据采集至元数据管理库。元数据采集的详细信息如下表所示。
序号 | 元数据类型 | 元数据 | 采集方式 | 采集频率 |
1 | 数源单位元数据 | 部门 | 手工填报 | 一次性采集 |
2 | 系统 | |||
3 | 数据库 | 数据库采集 | T+1 | |
4 | 库表 | T+1 | ||
5 | 字段 | T+1 | ||
6 | 数据中台元数据 | 数据分层 | 手工填报 | 一次性采集 |
7 | 主题域 | |||
9 | 库表 | 数据库采集 | T+1 | |
10 | 字段 | T+1 | ||
11 | 指标 | T+1 | ||
12 | 接口(API) | T+1 | ||
13 | 治理规则 | 手工填报 | 一次性采集 | |
14 | 数据共享 | 数据库采集 | T+1 | |
15 | 数据开放 | T+1 | ||
16 | ETL任务 | T+1 |
三、元数据清洗
通过定制元数据清洗和转换规则,利用开发平台对采集的元数据开展清洗和转换操作,标准化元数据属性信息,保障元数据质量,元数据清洗转环节包括:
- 制定规则
根据元数据信息表的要求,并结合数据情况,制定数据清洗规则,包括:
序号 | 元数据类型 | 元数据 | 清洗内容 |
1 | 数源单位元数据 | 部门 | 1.部门名称:根据各部门标准名称进行标准化处理; 2.部门编码、上级部门编码:根据编码规范进行标准化处理; 3.对接联系人:剔除空格字、数字、英文字等特殊字符; 4.对接联系电话:根据ITU-T E.164建议书的规定及我国工信部的规定,我国移动电话号码的组成标准为11位0-9数字结构组成,数据清洗过程中需要进行标准化处理; |
2 | 系统 | 1.系统名称:根据各部门业务系统名称进行标准化处理; 2.系统编码:根据编码规范进行标准化处理; 3.系统类型:根据系统类型字典进行标准化处理; 4.建设时间:时间类型数据统一依据《GB/T 7408-2005 数据元和交换格式 信息交换 日期和时间表示法》标准,按照“YYYY-MM-DD hh:mi:ss”格式进行标准化处理。 5.厂商联系人:剔除空格字符、数字、英文字等特殊字符; 6.厂商联系方式:根据ITU-T E.164建议书的规定及我国工信部的规定,我国移动电话号码的组成标准为11位0-9数字结构组成,数据清洗过程中需要进行标准化处理; | |
3 | 数据库 | 1.主机IP、服务IP:IP地址统一采取网络字节序的无符号整型标准化处理; 2.管理者、开发者、运维者:姓名剔除空格字符、数字、英文字等特殊字符;电话号码根据ITU-T E.164建议书的规定及我国工信部的规定,我国移动电话号码的组成标准为11位0-9数字结构组成,数据清洗过程中需要进行标准化处理; | |
4 | 库表 | 1.所属系统编码:根据编码规范进行标准化处理; 2.模型英文名称:剔除空格字符等特殊字符; 3.更新频度:根据更新频度字典进行标准化处理; 4.数据偏移量:根据数据偏移量字典进行标准化处理; 5. 开发者、运维负责人:剔除空格字符、数字、英文字等特殊字符; | |
5 | 字段 | 1.字段英文名称:剔除空格字符等特殊字符; 2.是否主键:根据是否主键字典进行标准化处理; 3.是否允许空值:根据是否允许空值字典进行标准化处理; | |
6 | 数据中台元数据 | 数据分层 | 1.分层编码:根据编码规范进行标准化处理; 2.分层名称:剔除空格字符等特殊字符; |
7 | 主题域 | 1.域编码:根据编码规范进行标准化处理; 2.域名称:剔除空格字符等特殊字符; | |
9 | 库表 | 1.主机IP、服务IP:IP地址统一采取网络字节序的无符号整型标准化处理; 2.管理者、开发者、运维者:姓名剔除空格字符、数字、英文字等特殊字符;电话号码根据ITU-T E.164建议书的规定及我国工信部的规定,我国移动电话号码的组成标准为11位0-9数字结构组成,数据清洗过程中需要进行标准化处理; | |
10 | 字段 | 1.字段英文名称:剔除空格字符等特殊字符; 2.是否主键:根据是否主键字典进行标准化处理; 3.是否允许空值:根据是否允许空值字典进行标准化处理; | |
11 | 指标 | 1.指标状态:根据状态主键字典进行标准化处理; 2.创建人员名称、更新人员名称:剔除空格字符、数字、英文字等特殊字符; 3.创建时间、更新时间:时间类型数据统一依据《GB/T 7408-2005 数据元和交换格式 信息交换 日期和时间表示法》标准,按照“YYYY-MM-DD hh:mi:ss”格式进行标准化处理; | |
12 | 接口(API) | 1. API编码:根据编码规范进行标准化处理; 2.服务状态:根据服务状态字典进行标准化处理; 3.接口类型:根据接口类型字典进行标准化处理; 4.请求方式:根据请求方式字典进行标准化处理; 5.创建时间:时间类型数据统一依据《GB/T 7408-2005 数据元和交换格式 信息交换 日期和时间表示法》标准,按照“YYYY-MM-DD hh:mi:ss”格式进行标准化处理; 6.创建人员名称、更新人员名称:剔除空格字符、数字、英文字等特殊字符; | |
13 | 治理规则 | 1.规则编码:根据编码规范进行标准化处理; 2.规则名称:剔除空格字符等特殊字符; | |
14 | 数据共享 | 1.任务名称:剔除空格字符等特殊字符; 2.任务编码:根据编码规范进行标准化处理; | |
15 | 数据开放 | 1.任务名称:剔除空格字符等特殊字符; 2.任务编码:根据编码规范进行标准化处理; | |
16 | ETL任务 | 1.任务名称:剔除空格字符等特殊字符; 2.系统编码、任务编码:根据编码规范进行标准化处理; 3.任务类型、状态:根据字典进行标准化处理; 4.更新时间、任务触发时间、计划结束时间、更新时间、创建时间:时间类型数据统一依据《GB/T 7408-2005 数据元和交换格式 信息交换 日期和时间表示法》标准,按照“YYYY-MM-DD hh:mi:ss”格式进行标准化处理; 5.创建人姓名、更新人姓名:剔除空格字符、数字、英文字等特殊字符; |
1、清洗规则任务化
数据清洗实施人员将数据清洗规则形成数据清洗脚本或任务;
2、清洗任务周期调度:
数据清洗实施人员将数据清洗任务发布上线,并根据元数据的更新周期进行周期任务调度;若发现周期任务中产出的清洗结果数据不满足规则要求预期,则进入问题库,若清洗结果数据满足规则要求预期,则形成标准数据;
3、问题数据处置
对进入问题库数据,由数据中台人员进行问题数据处置后,形成标准数据,并将数据写入标准数据层。
4、形成标准数据
数据清洗完成后,形成标准数据,并将数据写入标准数据层。
三、元数据质量
元数据质量检查及改造环节对清洗转换后的元数据开展质量检核,发现元数据质量问题,并处置元数据质量问题,形成常态化的质量检查和改造业务闭环。
四、元数据应用
1、数据地图
数据地图工具是在统一元数据中心基础上提供的元数据检索分析工具,包括数据检索和数据血缘二个模块,数据检索支持根据元数据中英文搜索和元数据详情;数据血缘基于ETL任务脚本等数据解析出表、字段、API之间的血缘关系,并用图形直观展示。数据地图工具从宏观层面组织信息,力求以用户视角对信息资产进行归并、整理,提供资产的宏观信息,有效挖掘信息的潜在价值,帮助您更好地查找、理解和使用数据。
2、血缘分析
数据血缘分析主要解决“数据之间有什么关系”的问题,包括血缘分析和影响性分析。
血缘分析指的是取到数据的血缘关系,以历史事实的方式记录数据的来源,处理过程等。数据血缘分析对于用户具有重要的价值,如:当在数据分析中发现问题数据的时候,可以依赖血缘关系,追根溯源,快速地定位到问题数据的来源和加工流程,减少分析的时间和难度。
影响性分析是能分析出数据的下游流向。当系统进行升级改造的时候,如果修改了数据结构、ETL程序等元数据信息,依赖数据的影响性分析,可以快速定位出元数据修改会影响到哪些下游系统,从而减少系统升级改造带来的风险。从上面的描述可以知道:数据影响性分析和血缘分析正好相反,血缘分析指向数据的上游来源,影响性分析指向数据的下游。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
———— 数据治理行业资料及实施模板获取请加入获取————
———— 星球资料部分内容————
数据治理实施交付物合集
数据治理行业合集
数据治理方案合集
———— 更多资讯请添加公众号————
———— 欢迎加入社区讨论数据治理————