数据平台建设的痛点,如何进行元数据治理?

 1.什么是元数据

1.1.元数据简介

 元数据Metadata),又称中介数据中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能,被称为数据的数据。

1.2.元数据分类

元数据内容内容来源支撑资产管理
技术元数据mysql,ES,HIVE,clickhouse等资产地图
作业ETL,DATAX,SQL,QUERY
生产元数据生产调度系统/Yarn数据质量、成本治理


业务元数据
数仓分级建模规范


资产价值,安全治理,规范治理
数据分级业务
指标关联指标系统
应用信息BI看板,数据报表
隐私分级业务
衍生元数据存储计量ClickHouse,ES,HDFS,MQ成本治理,资产价值
访问计量SQL-log
血缘元数据表血缘Flink,DATAX,ETL,资产地图,影响分析
字段血缘SQL-Log,HOOK

2.为什么要做元数据治理

数据规范制定更加标准,数据质量得以提升,数据目录结构更加清晰,数据资产更加清晰,数据成本更加可控!

数据管理的核心是元数据平台的建设,以元数据支撑数据管理上层应用

3.当前元数据治理建设现状

  1. 元数据信息少甚至没有元数据
  2. 没有标准的数据接入规范以及数据开发准则,数据对外开放权限开控制难
  3. 数据质量差,数据异常难以监控
  4. 数据资产不清晰,想要数据的时候不知道有无该数据
  5. 数据成本估算难

元数据平台搭建应该具备的能力

4.元数据应用

4.1.数据地图: 元数据搜索与发现

  • 支持表,字段,描述信息,数仓分层,数据分类,标签,部门等信息搜索
  • 全域元数据的搜索
  • 支持指标维度看板等信息的搜索

解决问题:数据资产管理乱,数据分级不明确,不清楚有哪些数据资产。


技术方案:无难点

4.2.数据血缘

  • 数据全生命周期查看
  • 数据链路异常报警
  • 数据变更通知

解决问题:上下游数据异动探测,数据生命周期管控,全链路异常检测。

技术方案:Altas,SQL解析器。Flink,Hook函数

4.3.成本监控和治理 

数据存储成本仪表盘

  • 不同存储引擎数据存储数据量级
  • 使用虚机资源消耗,如CPU,网络带宽,硬盘等
  • 资源使用趋势,成本预算

解决问题:解决数据资产不清晰.存储成本不可控等问题,让数据资产家底清,底数明

技术方案:数据埋点,对接运维系统资源情况上报。

4.4.数据质量诊断

解决问题:数据成本控制,

 4.5.数据存储成本仪表盘

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王老狮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值