数据治理——数据血缘简介

目录

前言

一、什么是数据血缘

1.1 数据血缘的定义

1.2 数据血缘的特征

1.2.1 归属性

1.2.2 多源性

1.2.3 可追溯性

1.2.4 层次性

1.3 数字血缘关系图例

二、数据血缘的用途

2.1 优化数据资产管理成本

2.2 提升数据问题排查效率

2.3 数据治理

三、数据血缘的方案和开源框架

3.1 定义数据血缘的数据结构

3.2 获取数据血缘信息存储到血缘数据库中

3.3 使用前端框架展示数据血缘图

3.4 开源数据血缘的区别

3.4.1 Apache Atlas

3.4.2 DataHub

3.4.3 Amundsen

前言

     在当今信息爆炸的时代,企业面临着数据增长速度快,数据源复杂多样的挑战。数据血缘可以追溯数据的来源、操作和流向,帮助企业更好的把握数据的价值和风险。

一、什么是数据血缘

1.1 数据血缘的定义

   数据血缘(Data Lineage)指的是在数据的产生,ETL处理,加工,融合,流转到最终消亡的过程。数据血缘记录了数据的产生、变化和传输过程,帮助了解数据的来源、流动路径和使用情况。

    数据血缘可以以图谱的形式展示,通过节点和边表示数据对象和数据之间的关系。节点代表数据表、字段或文件,边表示数据之间的依赖关系、引用关系或转换关系。

    在实际数据的运用中,从数据角度厘清数据的血缘关系

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值