点击上方「蓝字」关注我们
摘要:今天分享的主要内容是元数据相关的概念和快手元数据平台建设及应用场景。主要内容包括:
1、元数据简介
2、元数据分类
3、元数据管理
4、快手元数据平台建设背景
5、快手元数据平台建设过程及现状
6、快手元数据平台建设应用场景
7、未来规划
一、元数据简介
元数据,简单定义就是描述数据的数据。在企业中,只要有数据存的地方,就有其对应的元数据。只有完整、准确的元数据存在,才能更好的理解数据,充分挖掘数据的价值。
还依稀记得我初次接触元数据概念时的场景,看到这个官方的解释,我有点蒙圈。怎么想,也感觉这概念像个套娃:【描述数据的数据】。后来又接触到了元元数据、元模型等概念:【元元数据,是定义元数据结构和语义的信息】、【由元数据组成的模型称之为元模型】。然后我就想再回到小学,好好学习一下语文...不明觉厉!
好了,举例来说明下元数据到底是什么:
这是奶茶的营养成分表,结合左边和上边的说明,进行理解:每100g奶茶含能量166KJ。按照定义【能量】【每100g】都是对数据166KJ的解释说明,这二者就是166KJ的元数据。
二、元数据分类
元数据主要分为两大类:技术元数据和业务元数据。其中各自又进行细分,下面来详细解读一下各自的详细内容和含义。
2.1 技术元数据:
物理元数据
描述物理资源的元数据,包括但不限于服务器、操作系统、机房位置等信息。
数据源元数据
描述数据源的元数据,通常包括四类:
-
数据源地址(IP、PORT等)
物理拓扑(设备、角色等)
权限(用户名、口令等)
库名、版本、域名等
存储元数据
描述对象存储的元数据,也是通常“狭义”上的元数据,包括:
管理属性(创建人、应用系统、业务线、业务负责人等)
生命周期(创建时间、DDL时间、版本信息等)
存储属性(位置、物理大小等)
数据特征(数据倾斜、平均长度等)
使用特征(DML、刷新率等)
数据结构:
-
表/分区(名称、类型、备注)
列(名称、长度、精度)
索引(名称、类型、字段等)
约束(类型、字段等)
计算元数据
描述计算过程的元数据,通常可分为数据抽取(ETL)或数据加工(job)两类计算。每类计算又可以进一步细分:
-