元数据概述
元数据打通了源数据、数据仓库、数据应用,记录数据从生产到消费的全过程
元数据的内容:
数据仓库中模型的定义
各层级间的映射关系
监控数据仓库的数据状态及ETL任务运行状态
元数据的分类:
-
技术元数据:存储关于数据仓库系统技术细节的数据
-
分布式计算系统存储元数据
如Hive表、列、分区信息,包含文件大小、表类型、生命周期
-
分布式计算系统运行元数据
如Hive上所有作业运行等信息(Job日志),包含作业类型、实例名称、输入输出
-
数据开发平台中数据同步、计算任务、任务调度等信息
数据同步的输入输出表和字段,计算任务的输入输出,任务调度的依赖关系
-
数据质量和运维相关元数据
任务监控、运维报警、数据质量
-
-
业务元数据
-
OneData元数据
维度及属性、业务过程、指标的规范化定义
-
数据应用元数据
数据报表、数据产品的配置
-
元数据价值
- 计算上:利用元数据找出超长运行节点,对这些节点专项治理
- 数据内容上:为集团数据进行数据域、数据主题、业务属性的提取分析提供素材
建设统一元数据体系
梳理元仓底层数据,对元数据分类
如计算元数据、存储元数据、质量元数据。
确保数据唯一性
丰富表和字段,提高可读性
基于元仓底层,构建元仓中间层
打通数据产生到消费的链路
如Hive数仓元数据、调度元数据、同步元数据、产品访问元数据
提供统一的元数据服务接口
保障元数据产出质量
元数据应用
Data Profile
为数据建立一个脉络清晰的血缘图谱
通过图计算、标签传播算法,系统化、自动化地对计算与存储平台上的数据进行打标、整理、归档
最终形成元数据“画像”
四类标签:
- 基础标签:针对数据存储情况、访问情况、安全等级
- 数仓标签:针对数据是增量or全量、是否可再生、生命周期
- 业务标签:针对数据归属的主题域、产品线、业务类型
- 潜在标签:针对数据的潜在应用场景
元数据门户
一站式数据管理平台、搞笑的一体化数据市场
“前台”:数据地图,用于定位消费市场,实现数据检索,数据理解
“后台”:数据管理,定位于一站式数据管理,实现成本管理、安全管理、质量管理等。
应用链路分析
通过应用链路分析,产出表级血缘、字段血缘和表的应用血缘。
表级血缘的两种计算方式:
- 离线数仓任务日志进行解析
- 根据任务依赖解析
数据建模
基于现有底层数据已经有下游使用的情况,我们可以通过下游所使用的元数据指导数据参考建模。
在星形模型设计过程中,可能类似于如下使用元数据。
- 基于下游使用中 “关联次数大于某个阔值的表” 或 “查询次数大于某个阐值的表” 等元数据信息,筛选用于数据模型建设的表。
- 基于表的字段元数据,如字段中的时间字段、字段在下游使用中的过滤次数 ,选择业务过程标识字段。
- 基于主从表的关联关系、关联次数,确定和主表关联的从表。
- 基于主从表的字段使用情况,如字段的查询次数、过滤次数、关联次数、聚合次数等,确定哪些字段进入目标模型。
驱动ETL开发
通过元数据驱动的一键、批量高效数据同步的OneClick
可以通过 Data Profile 得到数据的下游任务依赖情况、最近被读写的次数、数据是否可再生、每天消耗的存储计算等,这些信息足以让我们判断数据是否可以下线