一、知识点了解
数据血缘关系(data lineage):视图或者存储过程的数据来自表或其他视图等多个源头,其他一个字段数据也可能来自多个源头表中多个字段的聚集。,而这个表中的数据也可能通过ETL从外部系统中抽取或者推数据。对于这种从数据的源头经过各个处理环节,到达数据终点的数据链路关系称为数据血缘关系(data lineage)。
在大型数据仓库中,完整的数据血缘关系可以用来进行数据溯源、表和字段变更的影响分析、数据合规性的证明、数据质量的检查等。是很有必要且很方便的存在!
二、sqlflow简介
SQLFlow是一款专门分析SQL脚本数据流关系的工具,目前支持大部分主流数据库;SQLFlow就是通过分析各种数据库对象的DDL、DML 语句,ETL/ELT中使用的存储过程、 触发器和其他 SQL 脚本,给出完整的数据血缘关系,就是数据流关系。目前有本地版和在线版。
目前无论是什么版本都需要收费!!!
三、在线版使用
四、在windows上安装sqlflow
下载本地版
需至少具备以下条件:
- 具有至少8GB内存的服务器
- 安装JDK1.8或更高版本,并且配置好环境变量
- 安装Nginx 下载nginx