元数据:快手元数据平台建设及应用场景

本文介绍了快手元数据平台的建设背景、过程、现状及应用场景。元数据包括技术元数据(如物理元数据、数据源元数据、存储元数据等)和业务元数据(如模型元数据、应用元数据等)。元数据管理旨在防止误解,通过自动化和标准化流程确保数据的完整性和一致性。快手元数据平台解决了找数难题,提供了全链路血缘和数据治理功能,并有未来发展规划。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

点击上方「蓝字」关注我们

摘要:今天分享的主要内容是元数据相关的概念和快手元数据平台建设及应用场景。主要内容包括:

    

    1、元数据简介

    2、元数据分类

    3、元数据管理

    4、快手元数据平台建设背景

    5、快手元数据平台建设过程及现状

    6、快手元数据平台建设应用场景

    7、未来规划

一、元数据简介

元数据,简单定义就是描述数据的数据。在企业中,只要有数据存的地方,就有其对应的元数据。只有完整、准确的元数据存在,才能更好的理解数据,充分挖掘数据的价值。

还依稀记得我初次接触元数据概念时的场景,看到这个官方的解释,我有点蒙圈。怎么想,也感觉这概念像个套娃:【描述数据的数据】。后来又接触到了元元数据、元模型等概念:【元元数据,是定义元数据结构和语义的信息】、【由元数据组成的模型称之为元模型】。然后我就想再回到小学,好好学习一下语文...不明觉厉!

好了,举例来说明下元数据到底是什么:

这是奶茶的营养成分表,结合左边和上边的说明,进行理解:每100g奶茶含能量166KJ。按照定义【能量】【每100g】都是对数据166KJ的解释说明,这二者就是166KJ的元数据。

二、元数据分类

元数据主要分为两大类:技术元数据和业务元数据。其中各自又进行细分,下面来详细解读一下各自的详细内容和含义。

2.1 技术元数据:

  • 物理元数据

    描述物理资源的元数据,包括但不限于服务器、操作系统、机房位置等信息。

  • 数据源元数据

    描述数据源的元数据,通常包括四类:

    • 数据源地址(IP、PORT等)

    • 物理拓扑(设备、角色等)

    • 权限(用户名、口令等)

    • 库名、版本、域名等

  • 存储元数据

  • 描述对象存储的元数据,也是通常“狭义”上的元数据,包括:

    • 管理属性(创建人、应用系统、业务线、业务负责人等)

    • 生命周期(创建时间、DDL时间、版本信息等)

    • 存储属性(位置、物理大小等)

    • 数据特征(数据倾斜、平均长度等)

    • 使用特征(DML、刷新率等)

    • 数据结构:

      • 表/分区(名称、类型、备注)

      • 列(名称、长度、精度)

      • 索引(名称、类型、字段等)

      • 约束(类型、字段等)

  • 计算元数据

    描述计算过程的元数据,通常可分为数据抽取(ETL)或数据加工(job)两类计算。每类计算又可以进一步细分:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值