元数据管理

元数据概述

元数据打通了源数据、数据仓库、数据应用,记录数据从生产到消费的全过程

元数据的内容:

数据仓库中模型的定义

各层级间的映射关系

监控数据仓库的数据状态及ETL任务运行状态

元数据的分类:

  1. 技术元数据:存储关于数据仓库系统技术细节的数据

    • 分布式计算系统存储元数据

      如Hive表、列、分区信息,包含文件大小、表类型、生命周期

    • 分布式计算系统运行元数据

      如Hive上所有作业运行等信息(Job日志),包含作业类型、实例名称、输入输出

    • 数据开发平台中数据同步、计算任务、任务调度等信息

      数据同步的输入输出表和字段,计算任务的输入输出,任务调度的依赖关系

    • 数据质量和运维相关元数据

      任务监控、运维报警、数据质量

  2. 业务元数据

    • OneData元数据

      维度及属性、业务过程、指标的规范化定义

    • 数据应用元数据

      数据报表、数据产品的配置

元数据价值

  • 计算上:利用元数据找出超长运行节点,对这些节点专项治理
  • 数据内容上:为集团数据进行数据域、数据主题、业务属性的提取分析提供素材

建设统一元数据体系

梳理元仓底层数据,对元数据分类

        如计算元数据、存储元数据、质量元数据。

        确保数据唯一性

        丰富表和字段,提高可读性

基于元仓底层,构建元仓中间层

        打通数据产生到消费的链路

        如Hive数仓元数据、调度元数据、同步元数据、产品访问元数据

        提供统一的元数据服务接口

        保障元数据产出质量

元数据应用

Data Profile

为数据建立一个脉络清晰的血缘图谱

通过图计算、标签传播算法,系统化、自动化地对计算与存储平台上的数据进行打标、整理、归档

最终形成元数据“画像”

四类标签:

  1. 基础标签:针对数据存储情况、访问情况、安全等级
  2. 数仓标签:针对数据是增量or全量、是否可再生、生命周期
  3. 业务标签:针对数据归属的主题域、产品线、业务类型
  4. 潜在标签:针对数据的潜在应用场景

元数据门户

一站式数据管理平台、搞笑的一体化数据市场

“前台”:数据地图,用于定位消费市场,实现数据检索,数据理解

“后台”:数据管理,定位于一站式数据管理,实现成本管理、安全管理、质量管理等。

应用链路分析

通过应用链路分析,产出表级血缘、字段血缘和表的应用血缘。

表级血缘的两种计算方式:

  1. 离线数仓任务日志进行解析
  2. 根据任务依赖解析

数据建模

基于现有底层数据已经有下游使用的情况,我们可以通过下游所使用的元数据指导数据参考建模。

在星形模型设计过程中,可能类似于如下使用元数据。

  • 基于下游使用中 “关联次数大于某个阔值的表” 或 “查询次数大于某个阐值的表” 等元数据信息,筛选用于数据模型建设的表。
  • 基于表的字段元数据,如字段中的时间字段、字段在下游使用中的过滤次数 ,选择业务过程标识字段。
  • 基于主从表的关联关系、关联次数,确定和主表关联的从表。
  • 基于主从表的字段使用情况,如字段的查询次数、过滤次数、关联次数、聚合次数等,确定哪些字段进入目标模型。

驱动ETL开发

通过元数据驱动的一键、批量高效数据同步的OneClick

可以通过 Data Profile 得到数据的下游任务依赖情况、最近被读写的次数、数据是否可再生、每天消耗的存储计算等,这些信息足以让我们判断数据是否可以下线

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值