大数据之元数据

一、元数据是什么?

歌曲《小芳》中有一段台词:“村里有个姑娘叫小芳,长得好看又善良”,我们一起来分析一下, **姓名:**小芳、**性别:**女、**长相:**好看、**性格:**善良、**地址:**村里。

  • 小芳是被描述的对象,也就是我们所谓的实体数据
  • 姓名、性别、长相、性格、住址就是描述“小芳”的元数据。

二、元数据是从哪里来?

元数据贯穿大数据平台数据流动的全过程,主要包括数据源的元数据,数据加工处理过程的元数据,数据仓库或数据主题库的元数据,数据应用层的元数据,数据接口服务的元数据。如图元数据的分布范围:
在这里插入图片描述

三、元数据分类

将元数据按用途分为三类:技术元数据、业务元数据、管理元数据

  • 技术元数据

技术元数据包括:库表结构、字段约束、数据模型、ETL程序、sql程序、数据质量监控等。

  • 存储元数据:表、字段、分区等信息
  • 运行元数据:大数据平台上所有运行等信息:类似于Hive Job 日志,包括作业类型、实例名称、输入输出、SQL、运行参数、执行时间、执行引擎、占用资源等
  • 数据同步、计算任务、任务调度等信息:数据同步的输入输出表和字段,以及同步任务本身的节点信息;任务调度主要有任务的依赖类型、依赖关系、调度周期。
  • 业务元数据

业务指标、业务代码、业务术语等。
包含:指标名称、指标编码、统计口径、指标类型、责任人、创建时间、状态、SQL等

  • 管理元数据

数据所有者、数据治理定责、数据安全等级等
描述了数据的管理属性,包括管理部门、管理责任人,通过明确管理属性,有利于数据管理责任到部门和个人,是数据安全管理的基础。

四、元数据应用

  • 应用一:数据血缘

主要解决“数据之间的关系”,数据血缘分析是获取数据的血缘关系,它有任务级别关系、表级别的关系、字段级别关系。以历史事实的方式记录数据的来源,处理过程等。

如图可以大致理解为一个表的生产过程,它依赖了哪些表,怎么生成的,同时加上它的依赖的表又是怎么生成的。
在这里插入图片描述

  • 应用二:数据影响分析

它是分析数据的下游流向。比如当系统表结构进行升级改造的时候,如果修改了数据表结构或者ETL的程序。可以快速定位元数据修改会影响到哪些下游系统,从而减少系统升级改造带来的风险。

比如说改表结构后发现对下游ADS相关3个指标都有影响,定位影响之后,数据部门及时通知下游相关系统的管理人员,修改了下游的相应程序和表结构,就避免问题的发生。

所以影响性分析快速定位元数据变更可能带来的影响,提前干预。

  • 应用三:数据冷热度分析

冷热度分析主要是对数据表的被使用情况进行统计,告诉你哪些数据是常用数据,哪些数据任务是僵尸数据。

  • 应用四:数据地图

1.根据关键词查表的问题
2.根据表名查字段,查表介绍的问题
3.查看表的大小,存储方式,存储周期
4.如果涉及到字段添加,字段修改找谁的问题

五、元数据管理

对于元数据管理,目前有三种方式可供选择

  • 手工维护

对于规模比较小,并且业务不大的公司,可能会使用这种方式,但是这种方式太古老,且容易出错,如wiki,excel之类的协作工具

  • 开源组件Atlas

Apache Atlas 是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、数据血缘、安全和生命周期管理在内的元数据治理核心功能。

Atlas的特性
1.通过atlas为数据系统开发好的hook来注入元数据
2.通过atlas自带的web-ui前端系统来注入、查看、修改元数据
3. 通过调用atlas对外暴露的api,来开发自己的管理系统

  • 自研系统

自研元数据管理系统或者在数据平台开发元数据管理模块,很多大公司会基于hive hook,spark listerner,Flink Hook。

六、元数据价值

  • 运营决策

数据的真正价值在于数据驱动决策,通过数据指导运营,为业务赋能。通过数据驱动的方法,我们能偶判断趋势,从而展开有效行动,推动创新或解决方案的产生。

  • 数据使用者

通过元数据让其快速找到所需要的数据,比如指标,及指标统计口径是否统一,质量评分等等。

  • ETL工程师

通过元数据指导其进行模型设计、任务优化和任务下线等各种日常ETL工作

  • 运维工程师

通过元数据指导其进行整个集群的存储、计算和系统优化等运维工作

写在最后

本篇文章,并非我原创,而是来自 【老王漫谈数仓】的视频教程,看完后深受启发,所以做了学习笔记。如果大家想系统学习大数据相关的理论知识,可以到B站学习。课程链接

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值