数仓建设学习路线(三)元数据管理

本文探讨了元数据的概念,强调其在描述数据结构和生命周期中的重要性。介绍开源工具如atlas用于获取表依赖和信息的管理,以及数据血缘的功能,包括活跃血缘和静默血缘在问题排查和开发效率提升中的应用。此外,还涉及了如何在团队协作中构建数据血缘链路,实现前端可视化和组件开发,如Openmetadata的使用。
摘要由CSDN通过智能技术生成

什么是元数据?

简单来说就是描述数据的数据,更直白来说就是描述表名、表制作者、表字段、表生命周期、表存粗等信息的数据

在这里插入图片描述
在这里插入图片描述

元数据该如何管理

工具化
开源:
可通过atlas获取表依赖及信息做二次开发,或者完成可视化界面
平台化:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

数据血缘

  • 数据血缘功能
    清晰知道表/任务上下游,方便排查问题,知道下游哪个模块在使用,提升开发效率及后期管理维护
  • 数据血缘类型
    • 活跃血缘:指离线开发线上调度产出的血缘,且调度持续生效
    • 静默血缘:指离线开发中,开发模式运行、线上调度已运行过但是已取消调度、线上模式严重逾期执行等。静默血缘在图中用虚线连线表示
  • 数据血缘项目中使用
    • 数仓中表/字段上下游查询、发送字段变更通知
    • 探查除数仓外其他场景使用例如报表、olap库等等
  • 如何开发血缘功能
    • 团队合作搭建:与前端配合,数仓出血缘链路模型,前端完成数据填充可视化
    • 使用现成组件/二次开发:Openmetadata
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值