《华为数据之道》读书笔记三--元数据管理

一、元数据定义及分类

        元数据定义:元数据是描述数据的数据,用于打破业务和IT之间的语言障碍,帮助业务更好地理解数据。

        元数据分类:

        1)业务元数据:用户访问数据时了解业务含义的途径,包括资产目录、Owner、数据密级等。

        2)技术元数据:实施人员开发系统时使用的数据,包括物理模型的表与字段、ETL规则、集成关系等。

        3)操作元数据:数据处理日志及运营情况数据,包括调度频度、访问记录等。

【备注说明】核心要搞清楚元数据到底是用来做什么的?其实简单的来说,元数据是用来对数据进行描述的,通过元数据我们可以清楚的知道数据的结构,数据的描述,数据的用途,所以元数据是我们了解数据最有效的工具。通过元数据我们能了解企业有哪些数据,这些数据是什么样的,用来做什么的?所以有的企业会单独立元数据治理项目来进行元数据的单独管理。比如,我们描述一个人,通过身高,胖瘦,单双眼等来形容,这些就是元数据。

元数据的价值:

【备注说明】从上面的图可以看出,元数据在企业数据管理中的重要性,可以这样说,如果不把元数据理清楚,企业的数据资产盘点无从谈起,因为元数据告诉了我们如何来描述这个数据。

二、元数据管理架构及策略

        1、元数据管理架构

        元数据管理架构包括产生元数据、采集元数据、注册元数据和运维元数据。

        产生元数据:制定元数据管理相关流程与规范的落地方案,在IT产品开发过程中实现业务元数据与技术元数据的连接。

        注册元数据:基于增量与存量两种场景,制定元数据注册方法,完成底座元数据注册工作

        运维元数据:打造公司元数据中心,管理元数据产生、采集、注册的全过程,实现元数据运维

        2、元数据管理的整体方案

华为元数据管理整体方案

        元数据管理方案:通过制定元数据标准、规范、平台与管控机制,建立企业级元数据管理体系,并推动其在公司各领域落地,支撑数据底座建设与数字化运营。

【备注说明】这块很重要,特别在一些正在开展数据治理(数据资产盘点、数据湖建设、数据底座建设)的企业,如果这块处理不好,企业的数据治理就是空谈,如何通过平台自动化的获取信息系统的元数据,完成业务元数据和技术元数据的无缝对接,通过元数据建立企业数据资产的血缘关系图,这块特别重要,这块是理清企业数据资产的关键步骤。可能开始时无法实现全部的自动化,有些需要手工操作,但必须要朝这个方向发展。元数据是否管理好是解决企业信息系统数据质量监控工作的重要途径,好的元数据管理会帮助企业理清数据的业务规则,例行发布数据质量报告,推动源头系统的质量改进。

三、元数据管理

        1、产生元数据

        定义:制定元数据管理相关流程与规范的落地方案,在IT产品开发过程中实现业务元数据与技术元数据的连接。

        工作内容:

        1)明确业务元数据、技术元数据和操作元数据之间的关系,定义公司元数据模型,如右图所示。

        2)针对找数据及获取数据难的痛点,明确业务元数据、技术元数据、操作元数据的设计原则。

        业务元数据设计原则:   

        (1)     一个业务域下有多个业务对象集,一个业务对象集下有多个业务对象,一个业务对象下有多个逻辑实体,一个逻辑实体下有多个属性,一个属性有一个数据标准。

        (2)每个数据标准可被一个或多个属性引用,每个属性归属于一个逻辑实体,每个逻辑实体归属于一个业务对象,每个业务对象归属于一个业务对象集,每个业务对象集归属于一个业务域。

        技术元数据设计原则:

        (1)物理表设计须满足三范式,如为了降低系统的总体资源消耗,提高查询效率,可反范式设计。

        (2)物理表、视图和字段的设计须基于用途进行分类。

        (3)承载业务用途的物理表、虚拟表、视图必须与逻辑实体一一对应,承载业务用途的字段必须与属性一一对应。

        (4)系统间的数据传递须优先采用数据服务。

        操作元数据设计原则 :

        (1)日志目的不同的进行分类设计,日志目的相同的进行相同设计(非自研场景按软件包适配)。

【备注说明】数据入湖支持表、视图的入湖,特别是视图,是支持入湖的。一般企业内部元数据的设计要参考数据元标准进行设计,有数据元标准的必须从数据元来,在信息系统建设的过程中,就要要求技术元数据和业务元数据的补全,比如在数据库设计表时,就应该要求对于表的英文名、中文名都齐全。

        3)规范数据资产管理,设计数据资产编码规范。

        (1)数据资产编码规范:

        (2)数据资产编码原则

        (3)业务元数据资产编码规则

        数据资产编码(DAN:data asset number):

        业务域编码规则: 公司统一分配

        业务对象集、业务对象、逻辑实体、属性 编码规则:数据资产管理平台自动分配

        数据资产类型编码规则:和业务系统保持一致。

【备注说明】数据治理平台要支持自动赋码功能,对于L1级业务域这个必须在企业内部达成一致,并以文件的形式进行公布。

        2、采集元数据

        定义:元数据采集是指从生产系统、IT设计平台等数据源获取元数据,对元数据进行转换,然后写入元数据中心的过程。

        元数据的来源:

元数据采集过程:

        1)选择适配器

        适配器是指针对不同的元数据来源,采用相应的采集方式获取元数据的程序,元数据的来源种类繁多,因    而须选择相对应的适配器及元模型。

        2)配置数据源

        配置数据源是采集元数据的关键,在确定数据源所选择的适配器类型、适配器版本、元模型的基础上,配    置数据源的名称、连接参数和描述。

        3)配置采集任务

        采集任务为自动调度的工作单元,为元数据的采集提供自动化的、周期性的、定时的触发机制。

【备注说明】数据治理平台要能自动采集元数据,可以通过定时设置进行增量采集,同时也要实时监视元数据的变更,有些ETL工具当数据源端的表结构发生变化时,会导致 ETL中断,如何实时监听这种中断,并及时进行响应处理,是后续企业数据治理平台运维的关键。

        3、注册元数据

        定义:基于增量与存量两种场景,制定元数据注册方法,完成底座元数据注册工作。通过标准的元数据注册规范和统一的元数据注册方法,实现了两种场景下业务元数据和技术元数据的高效连接,使业务人员能看懂数据、理解数据。

        主要内容:

        (1)元数据的注册原则:

                数据Owner负责,是谁的数据就由谁负责业务元数据和技术元数据连接关系的建设和注册发布;

                按需注册,各领域数据管理部根据数据搜索、共享的需求,推进元数据注册;

                注册的元数据的信息安全密级为内部公开。

        (2)元数据注册规范:

        通过“元数据注册三步法”完成元数据注册,如下图所示。

        1)准备度评估项包括如下检查要点:

        IT系统名称必须是公司标准名称; ·数据资产目录是否经过评审并正式发布;

        数据Owner是否确定数据密级;

        物理表/虚拟表/视图名。

        2)元数据连接需遵从以下规范:

        逻辑实体和物理表/虚拟表/视图一对一连接规范。

        业务属性与字段一对一连接规范

        (3)元数据注册方法:

        元数据注册分为增量元数据注册和存量元数据注册两种场景。

        增量场景:增量场景相对容易,在IT系统的设计与开发过程中,落实元数据的相关规范,确保系统上线时即完成业务元数据与技术元数据连接,通过元数据采集器实现元数据自动注册。

        存量场景:针对存量场景,华为设计了元数据注册的四大模式。在符合元数据设计规范的前提下,进行业务元数据与技术元数据的连接及注册。

        1)模式一:一对一模式

        适用场景:适用于数据已发布信息架构和数据标准且物理落地,架构、标准与物理落地能一一对应的场景。

        解决方案:将逻辑实体和物理表一对一连接。逻辑实体属性和物理表字段一对一连接。

        应用实例:

        2)模式二:主从模式

        适用场景:适用于主表和从表结构一致,但数据内容基于某种维度分别存储在不同物理表中的场景。例如,按时间或项目归档,或按区域进行分布式存储。

        解决方案:识别主物理表和从属物理表。以主物理表为核心,纵向UNION所有从属物理表,并固化为视图。将视图、逻辑实体、字段和业务属性一对一连接。

        应用实例:

        3)模式三:主扩模式

        适用场景:适用于逻辑实体的大部分业务属性在主物理表,少数属性在其他物理表中的场景。

        解决方案:识别主物理表和扩展物理表。以主物理表为核心,横向JOIN所有扩展物理表,完成扩展属性与主表的映射,并固化为视图。将视图、逻辑实体、字段和业务属性一对一连接。

        应用实例:

        4)模式四:父子模式

        适用场景:适用于多个逻辑实体业务属性完全相同,按不同场景区分逻辑实体名称,但落地在同一张物理表的场景。

        解决方案:识别一张物理表和对应的多个逻辑实体。将物理表按场景拆分和多个逻辑实体一对一连接。将物理表字段和多个逻辑实体属性一对一连接。

        应用实例:

        4、运维元数据

        定义:运维元数据是为了通过对元数据进行分析,发现数据注册、设计、使用的现状及问题,确保元数据的完整、准确。通过数据资产分析,了解各区域/领域的数据注册情况,进而发现数据在各信息系统使用过程中存在的问题。通过业务元数据与技术元数据的关联分析,反向校验架构设计与落地的实施情况,检查公司数据管理政策的执行情况。

        运维场景:

        场景一:基于数据更新发现,数据源上游创建,下游更新;

        场景二:通过数据调用次数发现,某数据源上游调用次数<下游调用次数;

        场景三:虽制定了架构标准,但不知落地情况,比如某个属性建立了数据标准,但是却找不到对应落地的物理表字段;

        场景四:通过物理表的字段分析,发现很多字段缺少数据标准。

        5、消费元数据

        元数据查询/搜索

                企业数据治理平台需要提供元数据查询/搜索的功能,可以查询相关的元数据,可以根据不同的目录进行来配置查询的范围。

        数据血缘影响分析

                血缘是往前追,查找此字段从何而来,影响是往后看,此字段影响了哪些数据。通过血缘影响分析可以构建数据完整的加工链条,方便后续对于问题的定位。

【备注说明】:企业应该按照上面的说明进行元数据的管理,需要有支持功能的数据治理平台,同时   ,特别是 元数据注册这块,特别重要,很多人读了没有理解这块到底讲的什么,这其实讲的是数据资产目录中逻辑数据实体的设计原则,在企业进行数据资产化的过程中,如何设计数据资产,这块很重要,特别是数据资产的元数据设计,需要重点参考此章。

        

  • 7
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值