数据中台 | 打造高效数据中台,如何搭建元数据管理中心?

1.元数据概述

1.1 元数据定义

元数据(Metadata)又称中介数据、中继数据,是描述数据的数据(data about data),主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

数据中台的构建,需要确保全局标准的业务口径一致,要把原先口径不一致的、重复的指标进行梳理,整合成一个统一的指标字典。而这项工作的前提,是要搞清楚这些指标的业务口径、数据来源和计算逻辑。而这些数据都属于元数据。

1.2 元数据分类

元数据主要分为数据字典、数据血缘和数据特征三类。

1.数据字典:描述数据的结构信息,表结构信息,主要包括:表名,字段名,类型和注释,表的数据产出任务,表和字段的权限等。

2.数据血缘:指一个表是通过哪些表的加工而来,数据血缘会进行影响分析和故障溯源。

3.数据特征:主要指数据的属性信息:存储空间大小,数仓分层,访问热度,主题分类,关联指导等。

2.构建元数据中心的关键目标

元数据中心作为数据管理和治理的核心组件,其设计和实施需围绕几个关键目标展开,以确保能够有效地支持企业数据战略。以下是元数据中心的五个关键目标:

(1)多业务线与多租户支持

元数据中心需具备高度灵活性,以支持不同业务线(如电商、金融、物流等)的独特数据需求。同时,它应提供多租户架构,确保不同部门或团队(如算法、数仓、风控)在共享元数据资源的同时,保持数据的安全隔离和访问控制。

(2)数据资产管理:

实现企业数据资产的全面可视化,包括数据源、数据流、数据质量、数据血缘等,以便于跟踪数据的生命周期,提升数据的可发现性和可追溯性。

(3)数据标准化与规范化:

建立统一的数据标准和规范,包括数据定义、命名规则、编码体系等,减少数据冗余,提高数据一致性,为数据分析和业务决策提供准确的基础。

(4)数据治理与合规性:

强化数据治理能力,包括数据质量监控、数据安全管控、合规性检查等,确保数据处理活动符合内外部的法规要求(如GDPR、HIPAA等),降低合规风险。

(5)促进数据共享与协作:

通过提供数据目录、API服务、数据字典等功能,促进跨部门、跨系统的数据共享和协同工作,加速数据驱动的业务创新和决策过程。

这五个目标相互关联,共同构成了元数据中心的核心价值主张,即通过高效的数据管理和治理,提升数据价值,加速企业数字化转型的进程。

3.元数据技术

3.1 开源产品

元数据中心的优秀产品主要包括:Netflix的MetacatApache的Atlas

其中,Metacat是多元数据的可扩展架构,擅长数据字典管理,Atlas擅长数据血缘。

1.Metacat

特点:设计极简,并不会重复保存元数据,而是采取直连数据源的方式,因此不会存储重复保存元数据造成的数据一致性问题,同时架构能做到极致的轻量化,每个数据源只要实现一个链接类即可。

2.Atlas

数据采集可以分为三种形式

(1)通过静态SQL、获得输入表和输出表;但是由于任务没有执行,存在准确性问题;

(2)通过抓取正在执行的SQL、解析执行计划,获得输入表和输出表;最为理想的方式;

(3)通过任务日志解析,获取执行后的SQL输入表和输出表;血缘虽然是在执行后产生的,可以保证准确性,但是存在时效性的问题。

因此Atlas采取的就是通过抓取正在执行的SQL、解析执行计划,获得输入表和输出表的方法。

Core 核心层:

• Ingest / Export:Ingest 组件将元数据添加到 Atlas。同样,Export 组件公开 Atlas 检测到的元数据更改,并将其作为事件引发。用户可以使用这些更改事件来实时响应元数据更改。

Type System 类型系统:Atlas 允许用户为他们想要管理的元数据对象定义模型。该模型由称为“类型”的定义组成。称为“实体”的“类型”实例代表了被管理的实际元数据对象。类型系统是一个允许用户定义和管理类型和实体的组件。开箱即用的Atlas 管理的所有元数据对象(例如 Hive 表)都使用类型建模并表示为实体。

Graph Engine 图引擎:在内部,Atlas 使用图模型持久化管理的元数据对象。这种方法提供了极大的灵活性,并能够有效地处理元数据对象之间的丰富关系。图形引擎组件负责 Atlas 类型系统的类型和实体之间的转换,以及底层图形持久化模型。除了管理图形对象外,图形引擎还为元数据对象创建适当的索引,以便可以有效地搜索它们。Atlas 使用 JanusGraph 来存储元数据对象。

Integration 消息传递层

用户可以使用以下两种方法管理 Atlas 中的元数据。

• Messaging 消息传递:用户可以选择使用基于 Kafka 的消息传递接口与 Atlas 集成。Atlas 使用 Apache Kafka 作为通知服务器,用于挂钩和元数据通知事件的下游消费者之间的通信。事件由钩子和 Atlas 写入不同的Katka 主题。

API:Atlas 的所有功能都通过 REST API 公开给最终用户,该 API允许创建、更新和删除类型和实体。它也是查询和发现 Atlas 管理的类型和实体的主要机制。

Metadata sources 元数据源层:

Atlas 支持与开箱即用的许多元数据源集成。目前,Atlas 支持从以下来源获取和管理元数据:

• HBase

• Hive

• Sqoop

• Storm

• Kafka

Apps 应用层:

Atlas 管理的元数据被各种应用程序使用,以满足许多治理用例。

Atlas Admin UI:该组件是一个基于 Web 的应用程序,允许数据管理员和科学家发现和注释元数据。这里最重要的是搜索界面和类似 SQL的查询语言,可用于查询 Atlas 管理的元数据类型和对象。管理UI 使用Atlas 的 REST API 来构建其功能。

基于标签的策略:Apache Ranger是 Hadoop 生态系统的高级安全管理解决方案,与各种 Hadoop 组件广泛集成。通过与 Atlas 集成,Ranger 允许安全管理员定义元数据驱动的安全策略以实现有效治理。

3.2 商业化产品

商业化产品比较优秀的是Cloudera Navigator,是Cloudera企业数据平台中一个至关重要的组件,定位为一个数据管理工具,专注于数据管理和治理。它为Hadoop和其他大数据生态系统中的数据提供了一个全面的解决方案,旨在帮助企业实现数据的透明度、可追溯性和合规性。

Cloudera Navigator的核心功能主要包括:

数据审计:通过Navigator Audit Server,系统能够记录所有数据相关的活动,包括时间戳、执行操作的用户名、源IP地址、涉及的服务以及具体的操作详情。这为数据安全、合规审计和故障排查提供了详细记录。

元数据管理Navigator Metadata Server负责收集和管理Hadoop集群中的元数据。它不仅追踪数据的物理位置,还提供数据查询、标签、数据血缘分析等功能,帮助用户理解数据的来源、变换过程和流向,这对于数据质量管理和影响分析至关重要。

数据治理Cloudera Navigator支持数据分类和政策管理,允许企业根据数据的敏感性和业务规则设置访问控制和保留策略。通过数据标签,用户可以轻松地对数据进行分类和保护,确保数据按照规定的方式被使用和存储。

数据血缘与影响分析:提供可视化的数据血缘图谱,展示数据从源头到最终消费的全过程。这有助于用户理解数据依赖关系,评估变更影响,并在数据质量问题发生时快速定位根源。

搜索与发现:内置的强大搜索引擎使用户能够快速查找数据资产,无论是基于元数据还是审计记录。这大大提升了数据的可发现性和重用性。

集成与自动化:Cloudera Navigator设计有API接口,支持与其他企业系统(如数据目录、BI工具、数据治理平台)集成,实现数据管理任务的自动化。

3.3 元数据中心架构设计

核心部分

1.数据字典:主要采用Metacat从各种数据源中进行数据抓取;

2.数据血缘:从hive,spark等大数据组件中获取数据,通过在平台中嵌入钩子(HOOK)的形式,实时的获取HIVE等实时执行的SQL,针对抓取到的数据进行数据血缘分析,之后将分析结果存储在图数据库中。常见的图数据库有NEo4j(不常用,没有ha机制);

3.数据特征:等价于用户行为分析系统,该模块需要单独针对客户业务行为展开,没有特定的技术体系。

元数据中心统一对外提供了API访问接口,数据传输、数据地图、数据服务等其他的子系统都可以通过 API接口获取元数据,另外 Ranger 可以基于元数据中心提供的 API接口,获取标签对应的表,然后根据标签更新表对应的权限,实现基于标签的权限控制。

3.4 元数据中心设计要点

元数据中心是数据中台的基石,它提供了我们做数据治理的必须的数据支撑,数据的指标、模型、质量、成本、安全等的治理,这些都离不开元数据中心的支撑。

1.元数据中心设计上必须注意扩展性,能够支持多个数据源,所以宜采用集成型的设计方式。

2.数据血缘需要支持字段级别的血缘,否则会影响溯源的范围和准确性。

3.数据地图提供了一站式的数据发现服务,解决了检索数据,理解数据的“找数据的需求"。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据分析小兵

你的鼓励将是我创作最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值