数据血缘是在数据的加工、流转过程产生的数据与数据之间的关系。
提供一种探查数据关系的手段,用于跟踪数据流经路径。
二、数据血缘的组成
1、数据节点
数据血缘中的节点,可以理解为数据流转中的一个个实体,用于承载数据功能业务。例如数据库、数据表、数据字段都是数据节点;从广义上来说,与数据业务相关的实体都可以作为节点纳入血缘图中,例如指标、报表、业务系统等。
按照血缘关系划分节点,主要有以下三类:流出节点->中间节点->流入节点
流出节点: 数据提供方,血缘关系的源端节点。
中间节点: 血缘关系中类型最多的节点,既承接流入数据,又对外流出数据。
流入节点: 血缘关系的终端节点,一般为应用层,例如可视化报表、仪表板或业务系统。
2、节点属性
当前节点的属性信息,例如表名,字段名,注释,说明等。
3、流转路径
数据流转路径通过表现数据流动方向、数据更新量级、数据更新频率三个维度的信息,标明了数据的流入流出信息:
数据流动方向: 通过箭头的方式表明数据流动方向
数据更新量级: 数据更新的量级越大,血缘线条越粗,说明数据的重要性越高。
数据更新频率: 数据更新的频率越高,血缘线条越短,变化越频繁,重要性越高。
4、流转规则-属性
流转规则体现了数据流转过程中发生的变化,属性则记录了当前路径对数据的操作内容,用户可通过流转路径查看该路径规则与属性,规则可以是直接映射关系,也可以是复杂的规则,例如:
数据映射: 不对数据做任何变动,直接抽取。
数据清洗: 表现数据流转过程中的筛选标准。例如要求数据不能为空值、符合特定格式等。
数据转换: 数据流转过程中,流出实体的数据需要进行特殊处理才能接入到数据需求方。
数据调度: 体现当前数据的调度依赖关系。
数据应用: 为报表与应用提供数据。